インタビュー時の音源文字起こしを自動化したい!と無料&有料ソフト、AmazonTranscribeを試してみた結果

インタビュー時の音源文字起こしを自動化したい!と無料&有料ソフト、AmazonTranscribeを試してみた結果

取材時の文字起こしは、仕事をしているなかでもっとも好きでない作業のひとつです。今回は、そんな文字起こしをなんとか楽にしたいという悪戦苦闘の記録をブログに残しておこうと思います。

従来の方法:Okoshiyasu2で人力で文字起こし

最初にやっていたのは、「Okoshiyasu2 」という音声再生ソフトで音声を聞き、タイピングで文字起こしをするやりかたです。

Okoshiyasu2は、再生速度の調節ができ、再生・再生停止の切り替えがキーボード操作だけでOK。また、イコライザー機能が使えるので、それを使って音声を調整して声だけをよりはっきりさせることもできる……という、文字起こしにぴったりのすぐれものソフト。

これでだいたい、再生速度を0.8倍くらいにすれば、まあだいたいリアルタイムでタイピングをすることができると思います。私はこの方法で文字起こしをしていました。今も最終的にはOkoshiyasu2を使ってチェックします。

文字認識ソフト「Voice Rep Pro3 」を導入!だけど精度は……

とはいえ、人力で文字起こしは疲れる。ということでなんとか自動化できないかなあと半年程前に購入したのが、文字認識ソフトVoice Rep Pro3 です。

Voice Rep Pro3 は、Google Chromeを使って音声を文字化するソフトです。Google Chromeを使って……ということは、そうです、Google音声入力を使用しての文字化です。

Google音声入力は比較的精度が高いといわれています。ライターの間でも「取材音声を聞いて、その内容を自分で復唱し、その自分の声をGoogle音声入力で認識させて文字化する」という文字起こしの方法が今ちょっとした人気なんですよね。

ということは、このソフトならいい感じに文字起こしできるのでは?と思って購入したのですが……

実際、正直なところ、やはり取材音声、インタビュー音源をそのまま文字起こしするにはどうも限界があるようです。録音環境によって精度にはばらつきがあり、場合によってはまったくと言っていいほど使い物になりません。逆に言うと、環境によってはまあまあ使えないこともない……?と思うケースもあるのですけどね。

参考までに、一番精度が高かったのはネットカフェの個室で行なったSkypeでの打ち合わせ兼取材 の文字起こしです。ほとんど雑音が入らず、私の声も、相手の声も(iPhoneのスピーカー越しとはいえ)比較的明瞭に録音できていたせいでしょう。また、インタビュー相手の方がとてもはきはきと話される方だった取材も、比較的精度は高かったと思います。

とはいえ、あくまで「比較的」です。使い物になるかならないかというと、正直な話、まずなりません。結局、後でOkoshiyasu2で録音を聞き返しながら修正していく作業が必要です。

Amazon Transcribeはいい感じ……かも?

最近知ったのが、Amazon Transcribe

Amazon Transcribeは、AWS(アマゾンウェブサービス) のアカウントを持っていれば、個人でも利用することができます。アカウントは無料で作成できますが、サービスを利用する際には別途料金が必要。

なお、Amazon Transcribeは従量課金、つまり使った分だけ料金がかかります。公式サイトによると、料金は0.0004USD/秒。30分の音声を文字起こしすると、60(秒)×30(分)×0.0004で0.72USD。今、1USDが約109円なので、約79円ですね。1時間だとしても、この倍、158円です。さらに、アカウント登録してから12ヶ月間は、毎月60分までは無料で使えます。

これはお得では?と思い、アカウントを登録して試しに文字起こしをしてみました。

結果は、「これだけで完璧というわけではないが、今までやってきた方法よりは遥かに精度が高い」という感じですね。

完璧ではないので、文字化後は、自分でまた音声聞き直していろいろ修正しなければいけません。このあたりはVoice Rep Pro3と同じです。ただし、Voice Rep Pro3なら9割くらい修正が必要だったのに対し、Amazon Trenscribeならまあ、5~6割くらい、いや、もっと大丈夫そう?みたいな感じです。予想以上に使えそうだな、という感じでした。

ということで、これからは、文字起こしはまずAmazon Trenscribeで文字化して、後からOkoshiyasu2で聞きながらしていく……という方法に落ち着きそうな予感がしています。

これで、少しでも取材音源の文字起こしが楽にできればいいなあ、と思っています。