What is ?

動画の中の音声をセリフ起こしするプロジェクト

例: レインボーライブ36話

まだ調整中だけどこんな感じ↓

とか。

f:id:yensaki:20190721234829p:plain

とか。

目的

動画の音声をテキストで扱えるようにしたい。
ゆくゆくはセリフ検索からスクリーンショットを容易に取得できるようにする狙い。

音声をテキストにする方法を検討
個人が機械学習でがんばっても効果は見込めないことを悟る
利用可能なものから選択
- Google Cloud Speech to Text
- Amazon Transcribe
- Watson Speech to Text
- Bing Speech API

精度、送信可能音声の長さ、使いやすさから Google Cloud Speech to Text を採択

例えば24分の音声をそのまま一括でテキスト化はしにくいし、したくない。
ゆくゆくのセリフから検索をするには当該セリフが何秒から何秒までのものかを管理したい。
一括で文字起こしをするとそれを失う。

一番容易にできそうなのは sox だった

数種類検証して全体音量の1%の状態が 0.3second 続いたら無音と認識するのがそこそこ良さそうだった(※まだ要調整)。

まだYATTEIKI