外国語学習に役立つ、対応単語がわかるパラレルコーパス検索エンジン「LINEAR B」
- イチローはホームランを打った。
- Ichiro hit a homerun.
そんな要求に応えてくれる「LINEAR B」というシステムがあるので、紹介したいと思います。LINEAR Bは機械翻訳の研究者であるジョンズホプキンス大学のChris Callison-Burch先生によって開発された単語アライメントまで表示してくれるパラレルコーパス検索エンジン。まだググっても全く情報が出てこない超マイナーな検索エンジンですが、画期的です。動作の様子は次のとおり。

▲トップページ。いろいろな言語がサポートされています。英語と中国語のペアを選択し、「Carnegie」と入力してみます。

▲すると、パラレルな検索結果が表示され、英語の「Carnegie」と対応する中国語が太字で表示されます。

▲単語だけでなく、フレーズでもOK。
どれだけ実用レベルなのかはまだ未知数ですが、第二外国語の勉強に使ってみてはいかがでしょう。
ここからは専門的な話になりますが、LINEAR Bの単語アライメントはパラレルコーパスから自動的に学習(教師なし機械学習)しているようです。なので精度は100%ではありません。私も4年前に機械学習の授業をとったとき、宿題で英語とフランス語のパラレルコーパスを渡され、バイリンガル辞書(Hello<-->Bonjour のようなペアの集合)を自動構築するようなプログラムを書き、辞書の精度をクラスメイトと競った記憶がありますが、似たようなタスクですね。
LINEAR Bはまだ日本語には対応していないので、どなたか英語<-->日本語あたりで似たようなシステムを作ってみてはいかがでしょう?データやツールが簡単に手に入るので、自然言語処理や機械翻訳や検索と言われてもチンプンカンプンなプログラマーでも下手したら作れてしまうでしょう。
データは、情報通信研究機構の内山さんが、青空文庫などからなる160文書、11万文の日英対訳文対応付けデータというパラレルコーパスを公開しています。読売新聞とその英字版からなる15万文の日英新聞記事対応付けデータも公開されていますが、こちらは覚書の提出が必要です。どちらも形態素解析(分かち書き)をかけたものが無料で公開されているので、素晴らしいです。
単語アライメント学習ツールは、グーグル機械翻訳チームのリーダーOch博士が昔開発したGIZA++が有名です。さらにはLTIの後輩のQinが開発したMGIZA++, PGIZA++という高速実装版もあります。他にはBerkeleyAlignerとか、フレーズレベルで学習できるMosesなんてのもありますが、歴史が長く日本語でも利用実績のあるGIZA++から始めるのが無難でしょう。
検索のためのツールとしては、マサチューセッツ大学アマースト校とCMUが開発しているIndriがおすすめです。米国立標準技術研究所NISTが2004年に開催した検索エンジンの精度を競うTRECテラバイト部門で、17チーム中1位と華々しいデビューを飾った検索エンジンで、ベイジアン推論ネットワークと言語モデルを組み合わせた強力なモデルに基づいています。日本語でも分かち書きがしてあればインデックス&検索ができ、私もCMUに来て以来、質問応答システムの日本語検索の部分をIndri(とその親プロジェクトのLemurツールキット)にまかせています。
応用次第では換言(言い換え)パラレルコーパスや音声・テキストデータなんかでもできるかもしれないですね。というわけで、いろいろな可能性を秘めたLINEAR Bを、お楽しみください。
<2009/3/19 追記>
同じようなシステムは名古屋大学が日本語・英語で作っていて、Bilingual KWICというサイトでデモを試せるようす。確かに、一覧にしてざっと見比べたいようなときはKWICで表示したほうがいいかもしれないですね。
参考:対応単語がわかるパラレルコーパス検索エンジン、あります。
http://blog.lilyx.net/2009/03/19/hong-kong-and-bilingual-kwic/