英語のPodcastが聞き取れないので、英語音声書き起こしサービスを利用して書き起こし→日本語訳する

2019年7月11日

タイトルの通りなのですが、TOEICがたったの785点しかないので英語のPodcastが十分に聞き取れません。

ここで思ったのが

  1. Podcastの音声を、自動音声書き起こしサービスに投げる
  2. 出力されたテキストを英和翻訳
  3. 日本語訳の完成

にすればいいんじゃない?と。最難関は自動音声書き起こしですが、それさえクリアできれば道は見える。日本語の音声書き起こしは前チャレンジして断念したのですが、英語やったらいけるやろ!と思いました。

試験対象のPodcast

On the latest All About 365 podcast – do you need to backup Office 365? | All About Office 365

です。Office 365 というマイクロソフト社のクラウドサービスをバックアップすべきかどうか、という内容です。技術的な話。音声は45分間、イギリス英語。

英語の音声書き起こしサービス

英語でぐぐってみたところ、以下のサービスが引っかかりました。

その他、いろいろな英語書き起こしサービスが紹介されているサイトもありました。

ひとまず、最初の書いた2サイトで試してみたいと思います。

Speech to Text Demo

IBMのWatsonを利用したサービスです。というかデモサイト?音声ファイルをサイトにアップロードすると再生が始まり、リアルタイムで翻訳される。なので、音声ファイルと同じだけの時間はかかる。特徴としては話者が2人以上いた場合に、どちらがしゃべっているかを判別して書き起こしてくれること。今回のPodcastは話者が2人でしたが、ちゃんと書き分けてくれました。

欠点は、技術的な用語を意図通りに書き起こししてくれなかったこと。Office 365を英語で発音すると、Office three six fiveなのですが、これがそのまま書き起こされる。まぁこれは仕方ないですね。一応、9つまで用語を定義し、事前学習させることが出来るのですが、今回のPodcastについては効果が薄かったです。

また、10分程度音声を読み込ませたところで通信が不安定になり、翻訳が止まってしまうことがありました。これもデモサイトなので仕方ないですかね…。5分程度に区切ればうまくいきました。音声区切りのためにOnline MP3 Cutter – 曲のカットと着信音の作成というサイトを使いました。今は何でもオンラインで出来るので便利。

Automatically Transcribe Your MP3 Audio to Text Online Vocalmatic

海外でかなりお勧めされていたサイト。ファイルをアップロードするとサービス側でテキスト書き起こしをして、終わったらメールで結果を知らせてくれる。どういう仕組みかは分かりませんが、音声ファイルの実時間よりも早いし、書き起こしも正確。Office 365 という音声も、しっかり"Office 365″と書き起こされている。裏で人間ががんばってるのか…?

早い!めちゃくちゃ性能いい!…のですが。料金が高い。無料で使えるのは30分だけで、その後は30分9$(1,000円)から。こりゃ仕事で使うもので、趣味には高すぎます。

動画サービスの音声書き起こし

さて、英語の音声書き起こしサービスを探してて思ったのがそもそもyoutubeとかMicrosoft Streamで音声書き起こしできるんじゃね?ということに気づきました。これらは動画サービスなのでmp3は利用できませんが、動画編集ソフトで静止画+音声を編集し、mp4など作ればOKです。

youtube

言わずと知れたyoutube。15分以上の動画をアップロードするのにSMS認証が必要なのでそれを済ませてアップロード。しばらくすると自動翻訳された字幕がつきます。翻訳精度はなかなか…なのですが、いかんせん出力形式がstrという音声字幕形式なので、文の途中で改行が入る形式となります。

改行を消すとこのザマ。

Google翻訳にぶん投げればある程度解析してくれるのですが、ぱっと見は見づらい…です。

Microsoft Stream

Offic 365 を利用している人なら、Microsoft Streamというのが使えます。これも最近、自動字幕作成機能が有効になったので、youtubeと同じように使えます。…まぁyoutubeに比べた時のメリットはSMS認証が不要なことくらいでしょうか。youtubeと同じく字幕テキスト形式で出るし、youtubeに比べて翻訳精度がいい、という事はありませんでした。

まとめ

こんな感じかな、と。

ツール ソース 音声認識AI 話者区別 出力形式 価格 その他制約
Speech to Text 〇音声 IBM 〇対応 〇txt形式(話者単位) 〇無料 5分程度に区切って処理
Vocalmatic 〇音声 独自 ×非対応 △txt形式(時系列単位) ×有料(30分1000円)
youtube ×動画 Google ×非対応 △str形式 〇無料
Microsoft Stream ×動画 Microsoft ×非対応 △vtt形式 ×有料(月額500円程度)

Speech to Text最強な気がしました。特に今回、複数話者のpodcastだったので、話者区別機能が非常に使えました。

ちなみに"Office three six five"と話者が発声した時の書き起こし結果はこちら。Office three six fiveは"Office 365″という固有製品なので、Office 365と書き起こしてほしい。

ツール Office three six five
Speech to Text Office three six five
Vocalmatic Office 365
youtube Office 365
Microsoft Stream Office three six five

Microsoft Streamさん、自社製品なんだから頑張ってください。