研究背景・目的
従来、音声波形を合成する手法として、ボコーダ法と呼ばれる手法が提案され、携帯電話等で広く利用されてきました。しかし、合成された音声の品質は、人間の音声より品質が劣るものでした。2016年に海外の有力ICT企業が、深層学習(ディープラーニング)を駆使した音声合成手法WaveNet法を提案し、人間の肉声に近い高品質な音声波形が生成できることを示しました。しかし、WaveNet 法は、非常に複雑な構造のニューラルネットワークのため、機械学習に大量の音声データが必要であること、また、正しい予測結果を得るためにはパラメータ調整などさまざまな試行錯誤を幾度も繰り返さなければならないなどの問題がありました。
研究内容
1960年代に発表されたソースフィルター・ボコーダ法は、ボコーダ法の最も有名なモデルとして広く活用されています。NIIの研究チームは、このソースフィルター・ボコーダ法にニューラルネットワークを導入することで、人間の肉声に近い高品質な音声波形を生成する新手法を開発しました。NSF法と名付けたこの手法は、ニューラルネットワークの機械学習のために必要な音声データが1時間程度でよいこと、簡易な構造のニューラルネットワークのため、パラメータ調整をしなくても正しい予測結果を得ることができるなどの特徴があります。また、大規模な検証からWaveNet法によって生成された音声と同等に高品質であることが示されました(図)。
産業応用の可能性
NSF法は、海外の有力ICT企業の特許技術とは異なる理論による手法であることから、NSF法を活用することにより音声合成の新たな技術開発が進むことが期待されます。そこでNSF法のソースコードを無償で公開し広く利用できるようにしました。今回の評価に使った機械学習データのサンプル(ソースコード、学習済みのモデル)と、実際に合成された音声データのサンプル(日本語・英語)は、以下のページで公開しています。
ソースコード
https://github.com/nii-yamagishilab/project-CURRENNT-public
学習済みのモデル(これを実行すると英語の音声を生成することができます。)
https://github.com/nii-yamagishilab/project-CURRENNT-scripts
音声サンプル(日本語・英語)
https://nii-yamagishilab.github.io/samples-nsf/index.html
なお、以下のページで、人間の肉声、ソースフィルター・ボコーダ法を用いた音声、WaveNet法を用いた音声、NSF法を用いた音声を聞き比べていただくことができます。
https://youtu.be/yr_xMq1gxKY