無音声認識の可能性

音声入力がなかなか普及しない理由として、発話しなければならないと言う点がある。周りに誰もいない環境ならそれでも良いが、周りに他人がいる場合に独り言のように発話するのはなかなか難しい。周りの人に迷惑になることも問題だが、入力内容が周りの人に知れるということも問題である。さらに騒音下だとただでさえ悪い音声認識率がさらに下がると言う問題もある。音声認識の最大の欠点は声を出すことにあったのだ

奈良先端科学技術大学院大学音情報処理学講座 鹿野研究室で開発された「非可聴つぶやき認識(無音声認識)」はこれらの課題を解決し、音声入力の利便性を大きく向上させる可能性をもつ技術である。非可聴つぶやき認識は、囁き声よりも小さな第三者に聴取不能な声帯の振動を伴わないつぶやき(Non-Audible Murmur:NAM)の体内伝導音を、耳の裏側に装着する身体表接着型マイクロフォンによって認識するものだ(無音声認識(言霊:ことだま)参照)。MITSUMI SHOW 2006では『骨伝導センサーより感度が高い、肉伝導センサー』として紹介されている。


奈良先端科学技術大学院大学21世紀COEプログラムユビキタス統合メディアコンピューティング」研究成果集

非可聴つぶやきとは、誰もが行うであろう声に出さない独り言であり、今までそれを認識しようとは誰も考えなかったのだが、中島淑貴氏が身体表接着型マイクロフォンでその音を認識できることを発見したのだ。評価では単語認識精度93.61%と通常音声に劣らない単語認識精度が確認されている

発話を伴わないため、周りの人の迷惑になることも無く、また発話内容を他人に知られると言う心配も無い。騒音下における認識も、空中を伝搬する通常音声に比べ、人間の軟部組織を伝搬する非可聴つぶやきのほうが比較的優れることが分かっている。従来の音声認識の課題の多くを解決する無音声認識はコンピューティングスタイルを一変させる可能性を秘めている

非可聴つぶやきの認識結果を音声に変換することも可能だが、現在の音声合成技術水準では自然な抑揚をつけることが難しいため、通常の音声ではなく囁き声に変換したほうが自然に聞こえるという知見が得られている。これは例えば、声帯に欠陥があり通常の発話ができない人が意思表示することを助ける大きな力となる。ほとんど声帯を動かせない人でも、無音声認識結果から音声合成することで発話をすることが可能になるのだ。将来、音声合成技術が発達すれば、健常者と変わらない自然な発話を行うことができるようになるだろう。

さらに、無音声認識を用いればテレパシーのように他人と会話をすることができる(無音声電話)。認識された非可聴つぶやきを無線で相手に伝達、相手側のヘッドセット内で音声に変換してやれば良い。仲間内だけでリアルタイムの会話ができる、まさにテレパシーと言っても良いだろう。ウェアラブルコンピューティングの入力デバイスとして非常に有用であり、警察や特殊部隊などにおける採用も考えられる。


奈良先端科学技術大学院大学21世紀COEプログラムユビキタス統合メディアコンピューティング」研究成果集

このように、声を出すという最大の欠点を克服した無音声認識技術は、従来のキーボードとマウス中心のインタフェースを、より自然で直感的なものにする。机の上の作業では従来のインタフェースのほうが優れている操作もあるだろうが、モバイル・ウェアラブル環境における文字入力・コマンド入力には最適なインタフェースとなるだろう。

数年後には、街のいたる所で口をパクパクさせている人を大勢見ることになるかもしれない。知らない人が見たらびっくりするだろうな。