日常生活に浸透する音声認識技術


日付: 2020-05-18 閲覧数: 592



音声認識技術の歴史は長く、約60年前から研究が始まった。ここ数年の技術進展が著しく、2000年以降になってアルゴリズムの改善による精度向上が達成され、カーナビやテレビの音声入力手段として普及した。2010年代には、日常生活においてパーソナルアシスタントが当たり前のように使われ始めた。iphoneの「Siri」や「google Home」などの音声認識は、知りたいことやして欲しいことを声で伝えるだけで問いかけを理解し、即座に答えを出してくれる。自然な会話内の長文や騒がしい環境下での会話等も高精度の認識が可能となったのは人工知能の進展によってと言っても過言ではない。ここでは、音声認識技術の最新の進歩の裏側について解説する。


そもそも音声とは?


音声とは音源である人の肺からの空気圧で声帯が振動し、気管などの声道の形状により特定の周波数の音(トーン)が強調された結果、唇、鼻から外界に放射される音のことを言う。音声の高低は人それぞれで、声帯・声道の形状が異なればそこで共鳴する周波数も異なる為、声の高低も異なることになる。


私たちは、普段の会話の中で他人の音声を自然に認識して意味を理解しているため、それが難しいことだとは思わないが、性別、話し方の癖、言葉遣いなど同じ内容の声でも、人や場面によって大きく様相が異なるため、コンピューターが人の音声を正しく認識することは簡単では無い。


音声認識の仕組み


音声認識は音素を特定し、それを手掛かりにしてテキストに変換する技術である。文字認識や顔認識などと同じくパターン認識の一分野となる。“音素”とは言語情報を伝達するのに必要となる最小限の音の種類である。


日本語で言うと、母音(あいうえお)、子音(k, g, s, z, t, c, d, n, h, f, p, b, m, r, y, w)及び特殊音の約20種類からなる。音声の時刻歴波形を切り出し、発音された波形の周波数解析(スペクトラム)により音声の特徴を抽出する。その後、どの音素に近いかを表した音響モデルすなわち確率モデル(主流は隠れマルコフモデル:HMM)を用いて音素を特定することとなる。


そのほか、音素の並び方に関する制約を示した、言語モデルを用いることで、文字列や単語列が文章として適切か評価を行う。これは「あなた(anata)」という発声の直後には、「が(ga)」や「は(wa)」等の発声が続く確率が高い、などの制約を規定することである。


予め準備した言語のテキストデータ(コーパス)とのマッチングを取ることにより単語に変換し、変換された文章をテキストで出力するといった凡その流れになる。

音声認識×ディープラーニングによる飛躍的な技術の進歩


機械学習は汎用性が高い技術であるため、金融、医療、工学、ビジネス等の広い分野で活用されている。音声認識の分野に関しても例外では無く、機械学習を発展させたディープラーニングの適用が進んでいる。


音声認識のキーポイントは前述の通り音声の特徴量を抽出する過程にあり、音声の特徴量の抽出が不適切だと誤認識される確率が上がることになる。ディープラーニングは人間の脳のニューロンと呼ばれる神経細胞のネットワークを模したニューラルネットワークという概念を利用しており、自ら学習が可能なシステムである。


この技術を利用することで音声の特徴量を自発的に発見することが可能となり、特徴量の抽出の精度が飛躍的に向上したと言える。


音声認識技術はどこまで進歩したか?


主に業務の効率化の観点から開発が進められている。音声認識は、文字や絵よりも格段にスピーディに機械に指示を出せる為、入力する手間が省けるメリットがある。


例えば、医療向けAI音声認識技術を開発した(株)アドバンスト・メディアは医師の診断結果を音声入力することで、電子カルテを自動的に記入できるシステムを開発した。病院での検証を行った結果、従来のキーボード入力より業務量が70%削減したという。


また、三菱電機は会議等の場を想定した、複数の音質が異なる人の音声を分離し、各々が発言した内容をテキスト化可能な技術を開発した。


2018年時点ではまだ2人までが限界だが、今後複数人の聞き取りも可能となるシステム開発を進めている。また、感情認識の観点からも開発が進められており、(株)エンパスは音声の語調や強さ等の特徴量から「喜び」、「平常」、「怒り」、「悲しみ」の4つの感情を見抜く技術の開発を行っている。


会社の労働管理等の観点から、社員の隠れストレスを発見することができ、メンタルヘルスの改善に繋げる可能性を秘めている。

音声認識の今後


音声認識の導入が前向きに進んでいる職種は、コールセンター等のオペレーター業務、ホテル・アミューズメント施設における窓口業務やスマホアプリ等に見られる音声翻訳等がある。


高齢化社会による労働人口の減少による業務効率の観点からニーズが多いが、異なる地域・言語を持つ人の考え方・知識を即座に共有可能な自動同時通訳技術が実現すれば、より多くのバックグランドを持つ人のコミュニーケーションを促進し、従来までは解決できなかった問題を大きく前進する可能性を秘めている。



コメント (0)


記事特選