研究背景・目的
教師あり学習とは、教師データから学習を行うことで、未知のデータに対して予測を行う技術です。例えば、疾患のある患者とない患者それぞれの健康診断の結果を教師データとして学習することで、健康診断の結果だけから疾患のある患者を発見できるようになります。しかし、教師データの作成には時間や手間がかかる場合が多いため、できるだけ小さい教師データで効率よく学習を行うことが重要です。そのような場面でよく用いられるのが、教師データを逐次的に作成する能動学習という技術です。能動学習を用いると、学習効率の高いデータを能動的に選ぶことで、小さい教師データでも高い予測性能を達成できます。
研究内容
能動学習アルゴリズムの設計には、劣モジュラ最適化が重要な役割を果たしています。劣モジュラ最適化とは、組合せ最適化の中核的な技術であり、大量のデータから少数の重要なデータを選び出すために用いられます。能動学習では、教師データが大きくなればなるほど、ある一つのデータを教師データに追加することの効果が小さくなります(図)。この性質が劣モジュラ性と呼ばれており、効率的なアルゴリズムの設計に役立ちます。私は、劣モジュラ最適化の理論的知見を用いることで、計算効率と学習性能に優れた能動学習アルゴリズムの設計に取り組んでいます。
産業応用の可能性
教師あり学習は社会のさまざまな場面で用いられる一方で、教師データ作成コストの問題に直面しています。例えば、上に述べた疾患の予測の例では、すでに疾患の有無が判明した患者の健康診断結果が教師データとして必要です。しかし、疾患の有無を調べるためには精密検査などが必要な場合もあり、巨大な教師データの作成は容易ではありません。そこで、能動学習を使えば、学習にとって重要な患者だけを教師データに追加することができ、教師データ作成コストを減らせます。他にも、人手による画像分類コストの削減や自然科学研究における実験の効率化に能動学習が用いられており、今後も応用範囲が広がっていくと期待されます。