記事

スマートスピーカー元年から1年、音声テクノロジーの現在地

Forbes JAPAN 編集部 , Forbes JAPAN


音声 x テクノロジーの現在地

Apple Home PodやAmazon Echo、Google Homeが日本に上陸し、スマートスピーカー元年と言われた2017年。その市場規模は2015年の3.6億ドル(約390億円)から2020年には21億ドル(約2275億円)になると予測されている。(米ガートナー調べ)

「音声テクノロジー」と聞いて、何を思い浮かべるだろうか。多くの人が、上述のようなスマートスピーカーを想像するかもしれない。しかし、「音声テクノロジー」と一言で言っても、その領域は多岐にわたる。

今回は4日間に渡り、音声×テクノロジーにまつわる記事を集中連載。本記事ではその前段として、音声テクノロジー領域の全体像を、我々の生活に最も身近なスマートスピーカーと中心に整理し、その現在地、そして未来を探っていく。

日本が海外より遅れている理由

音声テクノロジーの領域は、おおよそ下記に分類される。

・音声認識:発話者の言葉を認識する。(活用例) スマートスピーカー

・話者認識:複数人が話している中で話者を判別する。 (活用例) 議事録記録

・環境音認識:空間内で通常とは異なる音を検知する。(活用例) 工場機器の異常音検知

・感情解析:声色や抑揚から発話者の感情を導き出す。 (活用例) メンタルヘルスケア

スマートスピーカーに搭載される「音声認識技術」は、AIが話し言葉から意味内容を認識する技術。ビッグデータによるパターン解析や会話ログの収集とセットで語られることが多い。国内ではLINEの「CLOVA」やドコモの「しゃべってコンシェル」、スタートアップではJEITAベンチャー賞を受賞したHmcommなどがある。

その他に、「話者認識」「環境音認識」などの認識技術や、音の波形や速さといった物理データから発話者のストレスを測定する「感情解析」も存在。さらに最近は、文字起こしや議事録作成などのビジネス支援ツール、「Voicy」や「Anchor」といった音声を用いたコミュニケーションサービスも目立ち始めている。

このように様々な分野で注目を集める音声テクノロジーだが、全体的に日本の音声テクノロジーは海外に比べて遅れている。そう話すのは、感情解析を活用したサービスを展開するEmpath CEOの下地貴明氏だ。その原因は、スマートスピーカーの登場時期にあるという。

「2014年にスマートスピーカーの発売を開始したアメリカと2017年発売の日本では、普及に3年分のタイムラグがあります。日本ではまだ音声アシスタントを天気やニュースの確認に使用する程度ですが、海外では音声でのネットショッピングも増えつつあります」

スタートアップを含めた企業動向も日本が先進的だとは言い難いのも、原因はここにあるそうだ。とはいえ下地氏は、現状を悲観していない。

「音声テクノロジーを扱う企業も増えてきていますし、スマートスピーカーも徐々に浸透しつつある。このペースでいけば、世界とのズレが埋まるのはそう遠くないはずです。2020年には音声アシスタントが一般層に広く普及し、さらに5年もすれば生活になくてはならない存在になるのではないでしょうか」

世界におけるスマートスピーカーのいま

David Becker / getty images
David Becker / getty images

では、日本に先行する世界の音声テクノロジーはどのような状態なのか。ここでもやはり、スマートスピーカーの現状を見てみるとわかりやすい。大まかにいえば、スマートスピーカーシェア大手のAmazonをGoogleが追随し、さらに後発としてFacebookやAppleが控えている構造だ。

米Strategy Analyticsの調査によれば、2016年Q4に89.1%を誇っていたアマゾンのスマートスピーカー市場シェアは、2017年には51.3%に低下。代わりにGoogleが35.4%と大きく追い上げ、さらに5月にはGoogleの音声認識AIで操作できる製品数が今年1月の1500点から3000点に増加したと発表。

マネタイズ手段であるECをもっているアマゾンが今後も市場で存在感を示し続けるが、近年はGoogleもリテール業界との提携が噂されている。

Empath CSO(Chief Sustainability Officer)の山崎はずむ氏は世界最大の家電ショー「CES 2018」を見て、Googleの巻き返しを確信したという。

「Googleは、世界観の見せ方が圧倒的に上手でした。コンセプトは、『スマート・ホームからスマート・シティ』へ。会場ではお菓子で作ったような都市の模型で、道案内からショッピング、レジャーまでGoogle Assistantが日常生活をちょっとずつ便利にしてくれることが可視化されていました。音声でのインプットとタッチ操作で利用できるスマートディスプレイの『Android Things』が発表されたのも大きいですね」

音声テクノロジーがクリアすべき課題


Justin Sullivan / getty images

それでは、音声テクノロジーの未来はどうなるのか。企業向けスマートスピーカーを手がけるフェアリーデバイセズ代表の藤野真人氏は、より高度な音声アシスタントの実現ために越えるべき技術的な壁を2点挙げる。

1つ目は、一問一答形式の応答しかできないこと。「現在の音声アシスタントは、単一目的的な言語理解しかできません。『OK, Google』で起動、『今日の天気は?』と聞かれて天気を答えるだけで、そこから会話は広がらない。音声認識技術が搭載されたチャットボットはたくさん登場しているのに、どれも満足な顧客体験を生み出せていないのは主にこれが原因です」と藤野氏。

2つ目は、発話時の微妙なニュアンスを捉えることができないこと。例えば、『今日は雨が降る』という言葉でも、語尾を高くし「今日は雨が降る?」と言えば疑問文になり、”今日は”を強調して言えば前日や翌日との比較を意味する。

我々は無意識のうちに、こうした微妙なニュアンスを常に処理している。音声アシスタントがより我々の生活を豊かに、便利にするためには、話し言葉に込められた感情や意図の理解ができるようになることが大きなカギになるだろう。

これらの課題解決の先にあるのが、スマート・タウンのような音声アシスタントがあらゆる場所で使用される世界だ。「理想形は、AIと人間が日常会話でコミュニケーションをとり、人々が機械にアシストされていることを意識しなくなる状態です」と藤野氏は語る。

そのカギとなるのが「日常の会話データをいかに集められるか」である。藤野氏いわく、一般的なデータの収集場所は「構造↔非構造(二元論的なデータで表せるか)」「定点↔非定点(物理的な位置が一定かどうか)」をかけ合わせたマトリクスで分類できるという。 



主なデータの収集場所は、上記のように4象限のマトリクスで分類される

「GPSによって得られる移動データをはじめとする、定点的・構造的な要素を含むデータは活用に結びつけやすい。しかし日常会話は特定の目的を持たず、語感やその場のニュアンスなど非常に曖昧な要素で意味が決定される非構造的なデータのため、収集や処理が難しい領域です。その曖昧さを音声アシスタントが理解できるようになれば、より日常生活に溶け込み、私達の生活を便利にしてくれるでしょう」と、藤野氏。

スマートスピーカーをはじめとした音声テクノロジーが様々な部分で我々の生活を変えようとしているいま、市場全体の動きにも今後より一層注目が集まるだろう。

あわせて読みたい

「スマートスピーカー」の記事一覧へ

トピックス

ランキング

  1. 1

    なぜカルディ商品は買う気失うか

    MAG2 NEWS

  2. 2

    大地震でも出社 学ばぬ日本企業

    キャリコネニュース

  3. 3

    大阪市長の地震対応に称賛集まる

    キャリコネニュース

  4. 4

    ニコ生主が反NHK政党で市議当選

    岡 高志 (大田区議会議員・政党無所属)

  5. 5

    片山晋呉に激怒した招待客とは

    NEWSポストセブン

  6. 6

    再選望むも八方塞がりの安倍首相

    先見創意の会

  7. 7

    安倍首相「先手先手で対応する」

    ロイター

  8. 8

    たかまつなな 正論貫くのは無駄

    たかまつなな

  9. 9

    米国ではありえない日本の光景

    MAG2 NEWS

  10. 10

    栄氏の謝罪に反省感じられぬワケ

    文春オンライン

ランキング一覧

ログイン

ログインするアカウントをお選びください。
以下のいずれかのアカウントでBLOGOSにログインすることができます。

コメントを書き込むには FacebookID、TwitterID のいずれかで認証を行う必要があります。

※livedoorIDでログインした場合、ご利用できるのはフォロー機能、マイページ機能、支持するボタンのみとなります。