さまざまな場所で人工知能が発する声に出会う。その仕組みを支えるのも最先端の情報工学だ。「より人の言葉に近い音声を」。静かな情熱を秘めた若き研究者が次世代の技術開発を担っている。
高木 信二
コンテンツ科学研究系
特任助教
名古屋工業大学情報工学科卒業、同大学院工学研究科創成シミュレーション工学専攻博士課程を修了。国立情報学研究所コンテンツ科学研究系での特任研究員から特任助教へ。現在は母校で国際音声技術研究所プロジェクト助教も務める。近年は深層学習を用いた音声合成技術の研究に取り組んでいる。
コンピューターの発達に伴い、音声情報の処理技術も飛躍的な向上を見せている。銀行のATM、車のナビゲーションシステム、最近ではiPhoneのSiri(シリ)、ソフトバンクのPepper(ペッパー)のようなキャラクターロボットなど、私たちの言葉を理解し、ふさわしい情報を返してくれる人工知能も身近な存在になった。高木が名古屋工業大学時代に研究対象に選んだのは、その重要な一角を担う音声情報処理の分野だった。
「 ゲームはもともと好きで、高校生くらいからその背景にあるプログラムに興味を持ち始めましたね。大学も情報工学を専攻したのですが、そのうちに、当時の教授の影響もあって音声合成を専門に選ぶことにしました」
同大学院で博士号を取った後、国立情報学研究所が音声研究に携わるスタッフを募集していたことから2014年に入所し、現在まで研究を続けている。
「 音声インターフェースを用いることで、機械と音声によるコミュニケーションが可能になります。これに必要不可欠なのが音声を認識し、合成する音声情報処理技術です。そこに私たちはディープラーニング(深層学習)を導入しました」
あたかも流暢な発話を実現している音声技術もあるが、高木はこう語る。
「 ディープラーニングを導入したことで、テキストにふさわしい音声の特徴を自動的に出力できるようになりました。これにより、実際の人間の音声に一層近いイントネーションやアクセントを実現したいです」 音声を特徴づけている要素としては、音声の大きさや長さ、高さ、音色などがある。文章と音声の複雑な対応関係を学習できるディープラーニングにより、テキストから音声の特徴を対応付けると、さまざまな話者を表現できたり、感情が表現できたりする。
コミュニケーションをとれる人工知能は確かに便利な存在。とはいえ、ただ役に立つからという理由だけでは、ここまで性能は向上しなかったのではないか。
恐らくその背景にあるのは、"言葉を使うことの楽しさ"だろう。
「 実際に自分たちの研究で音声を出してみると、みんな面白いと喜んでくれますよね。それを見ると、いい研究を続けようというモチベーションにつながります。今後はナレーション、歌声、CGキャラクターの声など、エンターテインメントの世界でもっと利用できると考えています」
高木は、耳で聞いて前より良くなったと実感できるのが音声技術に取り組む醍醐味だと語る。それは、生まれたばかりの我が子が少しずつ言葉を覚えていくことに喜びを感じる感覚に近いのかもしれない。
五感のインタラクティブのうち、高木が手掛ける音声技術は、今後人工知能と一般の人が近しい存在になるために不可欠な研究であることは間違いない。