研究背景・目的
劇的に進化を続ける深層学習を利用した音声合成技術や声質変換技術は、我々の日常生活に非常に役に立つとみられています。その一方で、ハッカーによるフェイク音声の生成に技術が悪用される恐れも高まっています。実際に近年、フェイク音声を用いた「オレオレ詐欺」の事件がヨーロッパで発生したことが報告されています。フェイク音声から社会を守るために、「フェイク音声を検出する技術」がこれからますます重要になることは間違いありません。
研究内容
私たちは機械学習技術に基づいてフェイク音声を自動検出する技術を研究開発しています。既存の教師あり学習手法によって学習された検出モデルは、未知の音声データに対して検出のパフォーマンスが大きく低下するという問題が複数の研究から報告されました。それに対して、私たちは教師あり学習と自己教師あり学習(self-supervised learning,SSL)を併用する手法を提案しました。自己教師あり学習手法とさまざまな音響環境をカバーする音声データを用いてSSLモデルを学習することで、未知の環境からの音声データに対し、ロバストな音声特徴量の抽出が期待できます。SSLモデルにより汎用性の高いフェイク音声検出システムの構築も期待できます。また、入力データに対するモデルにより真贋判定の信頼度を推定し、モデルの判定が信頼できない場合には、判断を行わないようにすることも提案しています。
産業応用の可能性
本研究では、汎用性の高いフェイク音声検出システムの実現をめざしています。パイロット研究では、私たちの手法が従来法よりも優れていることが複数のテスト用データセットにおいて示されました。事前に学習させた SSL音声モデルは、そのままフェイク音声検出システムの構築に利用することができます。これにより、さまざまな場面において効果的な偽装音声検出器の開発が加速されると考えられます。また、モデルにより真贋判定の信頼度を推定することで、誤った判定の採用がもたらすコストを削減することも期待されます。