■報告者(共同報告の場合は代表者)
□氏名:李義明・河合翔・滝口哲也
■報告題目(40字以内):音声認識技術の利用可能性
■発表要旨(2,000字以内)[註、文献、図表等を含む]:

認識技術
入力された音声を波形(時系列のベクトル・音声スペクトル)に変換し、あらかじめ用意された標準の音素(日本語をローマ字であらわしたときのアルファベット1 文字)モデルと比較して、最も「それらしい」音素を選び結果とする。その音素の文字列とあらかじめ用意された辞書にある単語とを比較して、最も「それらしい」単語を選び出力する。障害者用音素モデル(1 人用音素モデル)発話に障害・訛りなどがある障害ある人を含めたすべての人が利用できる、音声認識技術(音声認識ソフト)の可能性の研究のため、特定の話者(発話に困難のある障害児1 名)の音素モデルを作成して汎用製品に搭載、その製品の標準音素モデル(汎用音響モデル)と新たに作成した特定話者の音素モデルによる認識率の比較評価を行った。
@ 発話に障害のある障害児1 名から9 単語(各5 回)を音声データとして収録
A 4 回分を音素モデル作成用、1 回分を評価テスト用として認識率の比較評価を行った。
B 標準音素モデルでは22.23%の認識率を示し、特定話者用音素モデルでは100.00%
の認識率を得た。
河合氏(脳性まひ)の音声認識実験
比較的発音しやすかった単語の一つは、「時計」である。この単語は、「と」と「け」と「い」という一文字一文字がはっきり区切って発音でき、しかも舌をそれほど動かさなくても発音できる。例えば「ユーチューブ(Youtube)」という単語が意外と発音しやすかった。この単語は、唇をずっとすぼめたまま、しかも舌をそれほど動かさなくても発音できるからである。
逆に、ウィスキーとかカメレオンといった単語は発音しにくい。まずウィスキーは、「ウ」から「ィ」へ移る時に舌と唇の動きを大きく広げないといけないし、次に「ス」へ移る時にはその動きをわずかに縮めて、そこからまた「キー」で広げるというかなり運動量が多い単語なのである。
なお、障害のある人の話しづらさとは、単に文字列や言語そのものの構造だけにあるのではなく、話すときの姿勢や状況にも深く影響を受ける。