Researcher file

人間はどのように言語を理解するのか

その探求が、AIの理解力を向上させる

人間が話す言語をコンピュータが理解して、会話をしたり、作業をしたりする。深層学習の発達により、単純な受け答えのレベルではすでに実現されているものの、本格的な応用に向けては、まだ険しい道のりだ。この研究を進めるためには、人間に対する理解が必要だと相澤は考える。

相澤 彰子

コンテンツ科学研究系

教授

1990年東京大学大学院工学系研究科電気工学専攻博士課程修了。工学博士。1990年から2年間、イリノイ大学アーバナ・シャンペイン校客員研究員。2003年より国立情報学研究所コンテンツ科学研究系教授。2008年より東京大学大学院情報理工学系研究科コンピュータ科学専攻教授(学際理学併任)。2018年より総合研究大学院大学複合科学研究科情報学専攻教授。

データを見る目を養うことが重要

 大学で通信分野を手がけていた相澤の転機となったのは、博士号取得後に客員研究員として赴いたアメリカ・イリノイ大学でのことだった。歴史ある大きな図書館で、19世紀の統計学会誌を紐解いてみると、そこには現在にも通じる数々の問題が論じられていた。コンピュータが進化した今、古くから解かれていた統計の問題を、新しい枠組みで解き直してみたら......。相澤はそこに大きな可能性を感じたという。

 当時相澤は、正規分布を対象にしたいろいろなモデルをつくっていた。あるとき、それを実際の自然言語(人間が日常使う言語)のデータにあてはめようとして調べてみたところ、それは正規分布とはまったく違う統計的な性質をもっていることに気づく。いわゆる"べき乗則"という急激に減衰する裾野の広い分布(ロングテール)であり、このとき相澤は、データの本質を捉えない限り、単に機械的にモデルをあてはめただけでは、正しい解析はできないことを知った。今でも相澤は、データを処理する前には必ず生データを見るという。

 「最近では深層学習を使うようになり、データの扱い方も変わってきてはいますが、何のためにこの処理をやるのか、この処理で何ができるかを理解する重要性は変わりません。データを見る目を養うことは、とても重要なのです」

人間の本質を捉えたモデル化に挑戦

 現在、相澤の研究室では「人間の言語活動とは何か」を問題設定に掲げて研究を進めている。
 「人間がどのように理解しているかを探求しないと、言語現象は理解ができません。ことの本質は、人間の言語活動の難しさにあると感じています」

 コンピュータの読解力は一つの大きなテーマだ。NIIが手掛けた「東ロボくん」プロジェクトでは、コンピュータの文章読解力が話題になったし、自然言語処理の分野でも今、コンピュータに文章題を解かせる競争が激しくなっている。相澤はコンピュータが「どのように解くか」を知ることが必要で、これは問題をつくることと双対の関係にあると考えている。このため相澤らのグループはコンピュータのための読解問題の分析に取り組み、この問題にアプローチしている。文書全体の話の流れを論理的に捉えることも重要であり、英語論文執筆支援などにも応用できるという。

 また、対話システムのモデル化にも力を入れている。自然な会話ができるシステムの実用化は非常に難しく、今まで体系的なアプローチがされてこなかった。一問一答式(FAQ形式)ではかなり成功しているが、少し長い対話になると課題が山積みだ。対話システムの研究では近年、深層学習を使うのが一般的だが、過程がブラックボックスになってしまい、研究結果をどう改善したらいいかがわからない。一見それらしい文章を生成するのだが、それをもとに実際のタスク(行動)をさせてみるとできない。それが今の対話システムの限界だ。

 対話においては、「それを取ってください」というときの「それ」のように、互いが言葉を共通理解することがまず重要だ。そこで、対話によって共通参照をつくりあげていく(共通)グラウンディング問題にチャレンジしている。何が対話の基本構成要素なのかは未知の世界であり、システムアーキテクチャの設計として取り組むことで、体系的な対話システムの構築をめざしている。

 このほか、マイニング技術を応用したPDF文書の読み取りや、表記ゆれ、名寄せの問題にも取り組む。いずれも単なる前処理だと思われてあまり注目されていないが、コンピュータの読み取りという点において、実は本質的に難しくて、解決されていない問題がいくつもあるのだという。いずれの問題についても、大きな課題はコンピュータの能力を正しく評価することだ。

 「深層学習が非常に賢くなってしまったために、従来の簡単な方法では評価できなくなっています。評価方法の確立も、この分野の大きな研究目標です」

 「人間の言語活動の本質的な理解」をめざし、相澤の研究は続いていく。

冊子版バックナンバー

PDFダウンロード