阪大が開発したアプリは話す口の形から話す内容を推定して再生する

大阪大学の三浦典之教授などの研究チームは、カメラで撮影した口元の動画から人工知能(AI)が発話の内容を読み取るアプリを開発した。喉頭がんなどの手術で声が出せなくなった人の利用を想定し、事前録音した本人の声を再生できる。

声を出すのに重要な働きをする喉頭の摘出手術を受けた患者は、声を失ってしまう。会話をするには首に機械を装着したり首元に空けた穴で発声したりする「代替音声」や、スマホから合成音声で出力する方法などがある。患者の体に負担がかかったり、煩わしさを感じたりする課題があった。

20前後の母音がある英語は発声時の口の形を見分けやすいため、口元の動画から発話内容を高い精度で推定するアプリがある。だが、日本語は母音が5つしかなく、実現が困難とされていた。

2009年に神奈川工科大学などが、日本語の母音の前後の文字列にも着目し、口の形を詳細に分類する「口形コード」を開発した。研究チームは今回、口元の動画から口形コードを推定するAIと、これを文字列に変換する別のAIを組み合わせて発話内容を推定するアプリを開発した。

さらにこのアプリに、自在に個人の声を合成できる市販のシステムを組み合わせた。5分程度の発話音声を録音すれば、話す内容を逐次的に本人の声で発声できる。

実用化には語彙を増やすためにAIの性能向上などが必要になるという。大阪大の三浦教授は「実証実験になるべく早くとりかかり、数年後の実用化を目指したい」と意気込む。

鄭重声明:本文の著作権は原作者に帰属します。記事の転載は情報の伝達のみを目的としており、投資の助言を構成するものではありません。もし侵害行為があれば、すぐにご連絡ください。修正または削除いたします。ありがとうございます。