- 2017年02月15日 06:00
アレクサとは何者か? アマゾンが狙う次のプラットフォーム - 川手恭輔 (コンセプトデザイン・サイエンティスト)
データの分析や予測を行うためのソフトウェアが、機械学習によってその精度や効率を飛躍的に高めることができるようになった。そのようなソフトウェアと、目や耳などの感覚器官の役割をするセンサーや、手や足の役割を果たすハードウェアとを組み合わせた「分野特化型の人工知能」が、工場の生産ラインや自動車の運転などで、これまで人間が行なっていた特定の作業や業務を自動化し始めている。人間の仕事を奪うかもしれないと話題になっているAIとは、この「分野特化型の人工知能」を指している。
一方で、機械学習によって精度や効率を高めた画像認識や音声認識などのソフトウェアは、インターネットサービスの画像検索や、音声によるスマートフォンの操作や、Eコマースの商品のおすすめなどにも応用されている。では、自動車や冷蔵庫に搭載されたアマゾンのAI技術とはどのようなものだろう。
アレクサの正体
リビングなどに置かれたアマゾンのEchoという、マイクとスピーカーを備えた端末に向かって、例えば「車を始動しておいて」と話すと、その音声がインターネット上のサーバで動くソフトウェアによってテキストに変換され、そのテキストに該当するインテント(意図)と呼ばれる情報が「フォード」(昨年のCESで、フォードとアマゾンは提携を発表)のサーバに送られる。そして、その情報が自動車に送られてエンジンやモーターのスイッチが入るという仕組みだ。この流れの中で音声をテキストに変換(自動音声認識)し、さらにテキストが意味することを解析(自然言語認識)してインテントに変換するソフトウェアが、自動車に搭載されたというアマゾンのAI技術の正体だ。それを中心にした音声によるリクエストを仲介するシステムがAlexa(アレクサ)と呼ばれている。
画像を見るフォードの例(筆者作成)
さらにフォードはEchoと同様の機能を自動車に搭載する予定で、運転中に「レストランを予約して」とか「ガレージのシャッターを開けて」とAlexaにリクエストすることができるようになる。Alexaはリクエストをインテントに変換して、指定されたサードパーティーのサービスに転送する。サービスからの応答のテキストはAlexaが音声に変換して自動車に返され、画像データは車載のディスプレイに表示される。
すでにフォードは、スマートフォンで車を始動したりドアをロックしたり、運転中にオーディオやカーナビなどの操作をしたりする統合環境(SYNC 3)をオプションとして用意している。SYNC 3をAlexaに接続するだけで、それらの操作を音声で行うことができるようになるわけだ。リビングから車を起動したりドアをロックしたりするニーズがどれだけあるかはわからないが、運転中に視線をそらさずに、Alexaに何かをリクエストしたくなることは多いだろう。
新しいプラットフォーム
アマゾンは新しいプラットフォームをつくろうとしている。アップルやグーグルは、それぞれiOSとAndroidというプラットフォームを提供している。サービスの提供者は各プラットフォーム向けのアプリを開発し、利用者はスマートフォンでアプリを使ってサービスを利用している。アップルがiOSを自社のiPhoneやiPadだけに搭載し、それらの販売によって主要な収益を得ているのに対し、グーグルはAndroid OSをスマートフォンメーカーに無償で提供し、Android OSと親和性の高い自社の検索サービスの利用者を増やして広告収益の向上を狙っている。アマゾンのビジネスモデルはグーグルのそれに近い。
自動車や冷蔵庫のような他社の製品から、Alexaに音声でリクエストを送れるようにするための開発環境(Alexa Voice Service)を、アマゾンは無償で提供している。また、Alexaがガレージのシャッターを開けるにはガレージを開閉するサービスがAlexaとつながっている必要があるが、そのためにアマゾンが提供している開発環境(Alexa Skills Kit)も無償で使用できる。
画像を見るアレクサとの接続
Alexa対応の製品が増え、それを使って利用できるサービスが増えれば、音声でサービスを利用する(ボイスインタラクション)という新しいユーザーインターフェースの体験が広がっていくだろう。スマートフォンがなくなることは当分ないだろうが、スマートフォンなしに音声で利用するほうが便利なサービスやシーンは多く潜在しているはずだ。アマゾンはそれを顕在化し、人々が自社のEコマースを利用する機会をさらに拡大しようとしている。
アレクサの課題
スキル(Skill)と呼ばれるAlexaに接続したサービスは、アマゾンの米国のサイトにリストされている。最近ではクイズのような単純なものも含めて毎月1000以上のペースで増加している(2/7時点で約8000)。ちなみに、昨年の6月にアップルが発表したアプリの数は1年で50万増えて200万に達したという。ユーザーは自分が必要とするものとどのように出会うのかというスマートフォンのアプリと同様の問題に加え、Alexaのスキルには「覚えていてもらえるか」という問題がある。Alexaのユーザーは、呼び出すためにスキルの名前を覚えておかなければならないのだ。
Alexaが新しいプラットフォームになるための課題は多い。スマートフォンから独立しようとするAlexaのチャレンジが「Amazonは世界一の失敗をする企業」というジェフ・ペゾスの言葉の新たな例にならないように、新しいものが大好きな人達が面白がって使っている今のうちに、なぜ音声アシスタントが理解できるように気を使って話さなければならないのか、なぜAIのくせに(ユーザーはそう思うはずだ)学習してくれないのか、といった将来のユーザーの素朴な疑問を解決しておく必要がある。
スマートフォンでタッチ操作するユーザーインターフェースについては、アプリの解りやすさやグラフィックのデザインだけでなく、ユーザーが実際に使用したときに感じる体験のデザインが重要視されてきた。しかしボイスインタラクションという新しいユーザーインターフェースは、まだユーザー体験のデザインを議論するレベルにはない。
検索や地図などの自前のサービスを持つライバル、アップルのSiriやグーグルのAssistantと違い、Alexaはサードパーティーのサービス(スキル)への依存度が大きい。ユーザーはAlexaにリクエストしたつもりなので、「わかりません」と答えられるとAlexaの能力に問題があると感じるだろう。少なくとも、それがAlexaが原因なのか、スキルが原因なのかはよくわからない。現時点ではスキルを増やすことよりも、ボイスインタラクションという新しいユーザーインターフェースの体験の向上を優先すべきだ。自然言語認識の能力向上(さらなる機械学習)とAlexa Skills Kitの機能拡張が必要だろう。
モバイルの対応は?
CES2017では、Alexa Voice Serviceに対応したEchoのようなスピーカーや冷蔵庫なども発表された。特にLGは、かなり前からインターネットにつながった冷蔵庫に熱心だったので、Alexaにつなぐことは容易だったろう。しかし耐用年数の長い冷蔵庫と、進化の早いインターネットやAlexaなどのサービスとの相性はあまり良くないと思う。代わりに、Echoをキッチンに置いておけば済んでしまう。
しかし、モバイルでAlexaのスキルを利用するための製品が見当たらない。ソニーのXperia Ear(マイク付きイヤホン)のような端末がモバイル通信機能を持ち、単独でAlexaと会話できるようになれば面白い。もちろんモバイルでは、SNSやメッセージングやゲームのためにスマートフォンは欠かせない。しかしハンズフリー、ビュー(視線)フリーのボイスインタラクションならではの、モバイルで利用したくなる新しいスキルの潜在的なニーズは多いのではないだろうか。
- WEDGE Infinity
- 月刊誌「Wedge」のウェブ版



