研究成果
これまで行ってきた研究の成果は、ソフトウェアや言語リソースとして GitHub などで公開しています。ここでは、代表的なものを紹介します。
構文解析
Jigg
文区切り、形態素解析、構文解析、意味解析などさまざまな自然言語処理ツールを簡単につなげてツールとして利用するためのフレームワークです。JAR アーカイブをダウンロードするだけで、さまざまなツールを利用することができます。
また、Combinatory Categorical Grammar (CCG) に基づく日本語構文解析器が実装されています。これは、テキスト間含意関係認識ソフトウェア ccg2lambda で利用されています。
Corbit
中国語のテキストに対する統合的な解析ツールです。中国語の単語分割・品詞解析・依存構造(係り受け)解析の全てのタスクで、世界最高水準の精度を達成しています。Corbit のアルゴリズムは漸進的構文解析の手法に基づいており、これらの3つのタスクに対する個別解析や、結合解析によるより精度の高い分析を、いずれも高速に処理することが可能です。
Enju
構文解析器 Enju は、英語のテキストを解析し、句構造や係り受け構造だけではなく、詳細な構文構造や意味構造(述語項構造)を高速かつ高精度で解析することができます。文の意味を扱うことが必要な高度な自然言語処理アプリケーション、例えば情報抽出、自動要約、質問応答などで有用です。
Kaede Treebank
日本語の句構造ツリーバンクです。京都大学テキストコーパスの一部に対して、句構造のアノテーションデータを提供します。本データを使って、句構造解析器を学習することができます。このリソースは、Jigg の CCG 構文解析器の開発にも使われています。
NIIVTB Vietnamese Treebank
ベトナム語の句構造ツリーバンクです。ニューステキスト約20000文に対し、単語区切り、品詞、句構造のアノテーションデータを提供します。本データを使って、句構造解析器を学習することができます。
Universal Dependencies
世界共通形式で多言語のツリーバンクを開発するプロジェクトです。日本語とアムハラ語のツリーバンクの開発にたずさわっています。
意味解析
ccg2lambda
CCG 構文解析を利用して、高階論理に基づく意味表現を計算し、テキスト間含意関係認識を行うシステムです。英語と日本語に対応しており、英語は C&C パーザと EasyCCG パーザ、日本語は Jigg を利用します。形式論理の推論エンジンに基づく含意関係認識で、機械学習を用いていませんが、さまざまな評価データで高い認識精度を達成しています。
TIFMO
TIFMO は自然言語の含意関係認識システムです。全称量化や否定などを含む高度な論理的推論と、実世界のテキストにおけるバラエティー豊かなパラフレーズの両方に対して高い認識精度を実現しています。TIFMO は係り受けに基づく合成的意味論で文の意味解析を行い、さまざまな言語知識や世界知識を駆使して高速な論理推論を可能にしています。
NTCIR RITE
評価型ワークショップ NTCIR において、含意関係認識をテーマとした Recognizing Inference in Text (RITE) タスクをオーガナイズしました。含意関係認識は、2つのテキストの間の意味の同値性や差異を自動認識する技術です。Wikipedia から抽出したテキストや、大学入試センター試験の選択肢から抽出したテキストを利用して評価データを作成し、公開しています。
グラウンディング
ビデオの説明文生成
ビデオデータの内容について説明する自然言語文を自動生成するソフトウェアです。機械翻訳等で用いられている sequence-to-sequence モデルをベースに、各単語を出力するときにビデオの中で注目すべきフレームに重みをつけるモデルで、複数のデータセットで高精度を達成しています。
学術論文テキストデータの解析
RANIS
学術論文に対して意味的関係を付与したアノテーションコーパスです。論文中の用語に対するアノテーションと、用語間の「手段」「目的」「結果」といった意味的関係を付与しています。英語については ACM と ACL の論文のアブストラクト、日本語は情報処理学会の論文のアブストラクトのデータです。アノテーションガイドラインも公開しています。
質問応答
人工頭脳プロジェクト
国立情報学研究所が推進している人工頭脳プロジェクトでは、大学入試問題をベンチマークとして統合的人工知能の研究を行っています。大学入試問題は、自然言語で問題が与えられ、自然言語で解答することから、自然言語理解の一つの典型例です。しかし、問題を理解して解答を導くプロセスを詳細に分析すると、数式理解・処理、専門知識の理解と運用、論理的推論、非言語情報(グラフや写真など)と言語情報の統合的理解など、自然言語処理に限らず様々な人工知能技術が必要であることが分かります。大学入試センター試験や二次試験の問題をXML形式で整備したデータや、プロジェクトで開発した世界史オントロジーなどのリソースを公開しています。
NIILC-QA
Wikipedia を利用すれば答えられる質問とその答えを収集し、さまざまな付加情報を付与したデータセットです。これは、解答を得るまでのプロセスをブラックボックスではなくシステム自身が説明できる技術の開発を目指しています。質問と答えだけでなく、その答えを求めるためのプロセスを明らかにするために、キーワードやクエリなどの付加情報を人手で付与しました。
対話システム
NTCIR STC
評価型ワークショップ NTCIR において、短い会話生成を題材とした Short Text Conversation (STC) タスクをオーガナイズしました。一文の発話に対して適切な返答を返す技術を開発するため、発話と返答のペアに対して返答の適切さを人手で判定したデータを構築しました。
基盤ソフトウェア
Amis
素性森モデルに基づく最大エントロピーモデルの学習を行うことができるソフトウェアです。Enju の曖昧性解消モデルの学習に使われています。
LiLFeS
型付き素性構造を組み込んだ論理型プログラミング言語です。C++ から素性構造の処理を呼び出すことができ、ライブラリとしても利用できます。Enju の実装で利用されています。