英語音韻を考慮した情報検索のための多様なカタカナ異表記生成
日本語,特にカタカナ語では,異なる表記を持ちながら同じ
対象を指す異表記同義語が多く存在する.例えば,「ロサンジェルス」は「ロサンゼルス」,「ロスアンジェルス」,「ロスアンゼルス」のように表記すること
もできる.このような表記の多様性は,文字を単なる記号として扱う処理,例えば情報検索などにおいて処理精度を低下させる要因の一つとなっ
ている.具体的には,検索語として「ロサンジェルス」が与えられたとき,通常の情報検索では異表記のみを含む文書は決して検索されることがない.この問題
への対処法は,表記の統一,異表記の生
成のいずれかに大別でき,後者の異表記生成には,これまでカタカナ書き換え規則に基づく手法が提案されている.本研究では,二言語間の音素の不一致によっ
て前述のようなカタカナ異表記が生じて
いる場合がある点に注目し,表層的なカタカナ書き換え規則ではなく,より根源的な音素レベルでの異表記生成を試みる.提案手法では,従来研究の音素間対応
を基に確率的音素変換モデルを構築し,
カタカナ語から英語への逆翻字,英語からカタカナ語への翻字を連続的に行うことで,従来の表層的な特徴を利用した書き換え規則では得られない多様なカタカ
ナ異表記を生成する.提案手法の妥当性
を検証するため,生成された異表記に関して人手で評価を行う.さらに,生成された異表記を検索質問置換に利用し,情報検索における提案手法の有効性を示
す.