聞き違いを自分で直すコンピュータ
― 聞き慣れた表現を用いて元の文を推測する ―

1．はじめに
　言葉を聞いて常に一字一句を完璧に聞き取ることは、人間でも難しいことです。しかし、私たちは自分たちの母国語で会話をする時に、相手の声がはっきり聞こえなくても前後関係から言葉を補ったり、聞こえなかった部分を聞き返したり、それほど重要そうでない部分であれば放っておくといった方法を取ることができます。このため、たとえ聞き取りに失敗することがあっても、ほとんどの場合、会話は問題なく進むものです。
　一方、コンピュータが言葉を聞き取る精度は年々向上していますが、まだまだ、聞き取った結果の中にでたらめな単語の並びが含まれることがあります。コンピュータは人間のように言葉の意味を理解しながら聞いているわけではないので、聞き取った結果が文として意味をなすかどうかが判断できないのです。
　この聞き間違った部分をそのままコンピュータが翻訳すると、聞き手に誤解や混乱を与えてしまうことになります。このため、聞き誤った部分を判別した上で、正しい部分だけ翻訳したり^[1]、誤った部分を訂正して翻訳するといった対応が必要となるわけです。本稿では、後者の誤った部分の訂正方法に関して私たちが行っている研究をご紹介します。

2．誤り訂正の流れ
　聞き誤りを直すためには、まず(1)正しく聞き取れたかどうかの判断が必要です。聞き取りの正しさは、意味的な妥当性に基づいて判断するために、次節で説明される『意味的距離』を用います。この値が閾値A(予め決めておいた一定の値)よりも大きい場合、聞き取った結果に誤りがあると判断します。図の例では、元の文の名詞句「お部屋のご希望」が「お部屋の昨日」に聞き誤っているため、『意味的距離』の値から訂正が必要と判断されます。
　次に、(2)誤りがあると判断された聞き取りの結果に対して訂正候補を作成します。人間が、会話をうまく聞き取れなかった際、その会話における状況や前後関係などを考慮しながら、言葉の知識や経験をベースに適切な推定を行っていると考えられます。これと同様のことをコンピュータに行わせるのは不可能ですので、代わりに旅行会話において使われる様々な会話文を集めたテキストデータを使います。誤り部分に音の並びが近い会話例を用いて、誤り訂正の候補を作成します。具体的に図の例では、まず、聞き取りで誤りを含んだ名詞句「お部屋の昨日」が訂正箇所の候補として選択されます。この訂正箇所に似た音の並びを持つ例をテキストデータから検索すると、例「お部屋の希望はございますでしょうか」などが得られます。訂正箇所との対応部分は「お部屋の希望」なので、これを訂正箇所と置き換えることによって、訂正候補「お部屋の希望ございますか」を得ます。
　最後に、(3)訂正候補が信頼できるものかどうかを検証する必要があります。聞き取った元の文が何であったかは、話した人に答えを確かめない限り分かりませんが、得られた訂正候補が、意味的に理解可能で、かつ音の並びが聞き取った結果に近ければ、元の文に一致している可能性が高いと考えられます。私たちは、得られた訂正候補の中から『意味的距離』と『音韻的距離』に対して、それぞれの閾値A, B以下のものを正解である可能性の高いものとして選び出します。具体的に図の例で、得られた訂正候補に対して、それぞれ『意味的距離』と『音韻的距離』が計算されています。この内、『意味的距離』が閾値A=1.0より小さく、『音韻的距離』が閾値B=0.3より小さいという条件を満たすのは、一番上の訂正候補のみとなります。したがって、「お部屋の希望ございますか」が最終的な訂正結果として出力されます。

3．訂正の部品
(1)　『意味的距離』
　単語間の『意味的距離』は、単語の意味的な関係を表現した辞書を用いて計算されます^[2]。この辞書の中で、単語は意味の近いもの同士でグループにまとめられ、階層的な関係を与えられています。例えば、単語「課長」は、まず最下層のグループ『人間』に属し、さらに上位のグループ『動物』に属し、さらにまた上位のグループ『生物』に属し、さらにすべての単語を統括する最上位のグループに属するというように、4階層による体系的な表現となっています。二つの単語の意味的な関係は、まとめられるグループの階層が低いほど近く、単語間の『意味的距離』を、0.0から1.0までの値で各階層に等分割で定義します。例えば「課長」と「彼女」は最下層のグループ『人間』に属するので距離は0.0、また「課長」と「トマト」は下から第３番目のグループ『生物』に属するので距離は0.75となります。さらに、名詞句間や動詞句間などの『意味的距離』も、各単語間の『意味的距離』の和によって定義でき、同様な手順によって『意味的距離』を求めることができます。
(2)　『音韻的距離』
　音を、音素の並び（すなわち母音と子音の並び）によって表現しますと、聞き取った結果と訂正候補の間の音韻的な近さを計算できます。例えば、図の聞き取った結果「お部屋の昨日」と訂正候補「お部屋の希望」に対する音素の並びは、それぞれ“o h e y a n o k i n o u”と“o h e y a n o k i b o u”となります。ここで、前者の音素の並びを後者に一致させるために必要な音素の書き換え（「挿入」、「削除」、「置き換え」）の合計回数は、“n”から“b”への「置き換え」のみなので、1回となります。『音韻的距離』は、この書き換えの回数1を聞き取りの音素数12で割ったもので、0.083となります。

4．おわりに
　本稿では、音声翻訳における認識誤りの問題に対する、誤り訂正の研究を紹介しました。提案手法を音声翻訳システムに組み込み評価したところ、提案手法を用いない場合と比べて翻訳率で約10％(64%→74%)の改善が見られ、有効性が確認できました。また、正しい認識結果を誤って訂正してしまうような副作用がないことが分かりました。今後の課題として、訂正に使える用例文のより効率的な利用および妥当性判断の精度向上を検討しています。

聞き違いを自分で直すコンピュータ ― 聞き慣れた表現を用いて元の文を推測する ―

参考文献

聞き違いを自分で直すコンピュータ
― 聞き慣れた表現を用いて元の文を推測する ―