- 2021年06月19日 11:49 (配信日時 06月19日 08:15)
「イヤホン24時間装着の日が近い」GAFAが本気で参入する動画、スマホの「次の市場」
1/2今年2月のクラブハウスブーム以降、にわかにネットの「音声」に注目が集まっている。GAFA(グーグル、アップル、フェイスブック、アマゾン)はもちろん、音楽配信大手のスポティファイや動画配信大手のネットフリックス、ツイッターも音声市場に参入している背景には何があるのか。日本のボイステック(音声系IT)ベンチャーの4人が語り合った――。
※本稿は、緒方憲太郎『ボイステック革命 GAFAも狙う新市場争奪戦』(日本経済新聞出版)の一部を再編集したものです。

※写真はイメージです - 写真=iStock.com/yunava1
機械が人の言葉を理解し始めた
【緒方】「なぜ今、ボイステックが『きて』いるんでしょうか」と最近よく聞かれます。

Voicy代表取締役CEO 緒方憲太郎さん。『ボイステック革命 GAFAも狙う新市場争奪戦』より
【金子】音声合成や音声認識の研究は、何十年も前からいろんな企業がやってきました。それが、ディープラーニング(深層学習)が出てきたおかげで、一気に精度が上がったんです。
音声合成、つまり機械に言葉をしゃべらせる方は、「最低限何を言っているかはわかる」というレベルでもそれなりに用途はあったんです。例えば、カーナビの「次の信号を左折です」といった音声は、「ちょっと不自然だけど言っていることはわかる」というレベルでも使ってもらえます。
でもスマートスピーカーや、iPhoneのSiriなどで注目された、人が話しかける言葉を機械が認識する音声認識の技術、つまり音声を理解する方は、精度70%くらいだと、ほぼ使えないんですよ。70%ってどのくらいかというと、2、3回に1回は認識されずに「言ってることがわかりません」と返されてしまう感じ。それが2、3回起こると、もう使うのが嫌になっちゃうじゃないですか。
それがディープラーニングによって、ここ数年で精度が上がって、条件によっては95%以上になった。そうなってくると「使える」レベルになり、一気に広まりました。
【八木】長文はもう、タイピングする気がしないですね。Googleドキュメントを開いて音声入力してます。(2020年の)12月に書籍を出したんですが、80%くらいはしゃべって音声入力で書きました。600文字くらいの文章なら、1、2分でしゃべれちゃうので。
【緒方】僕もだいたい音声入力ですね。社内の人は、僕が声で書いているのを知ってるから、多少の誤変換は見逃してくれる(笑)。
大手が本気になり始めた
【八木】私が携わる広告やメディアの分野で音声が盛り上がっているのは、「技術的な革新があったから」というよりも、「本気になったプレイヤーが増えたから」だという感じがしています。例えばグーグルはユーチューブで音声広告を始めましたし、アマゾンや音楽配信のスポティファイがポッドキャストに参入してきたのはインパクトがありました。
広告技術は、これまで動画やバナーでやっていたことを、音声でもやっているだけだったりするんです。これまでなおざりにされてきた音声に注目が集まってきて、結果的に、昔から使われてきた技術が音声に応用されるようになったという印象です。
GAFAが音声に着目し始めたワケ
【八木】ちなみに特にGAFAなどの大手プラットフォーマーに関して、なぜ音声に着目し始めているかというと、端的に言えばお金になるからだと思います。市場がすごい勢いで成長しているので、参入せざるを得ないという状態というか。その辺の感覚は、日本ではあまりわからないかもしれませんが、グローバルでは「先に取られると負ける」という切迫した空気になっている。それで、いろんなプレイヤーが音声に参入してきているという感じが強いです。

デジタル音声広告を手掛けるオトナル 代表取締役の八木太亮さん。『ボイステック革命 GAFAも狙う新市場争奪戦』より
さかのぼると、ポッドキャストブームがイノベーションのきっかけになったように思います。2014年に、初めてポッドキャストの番組が、放送のピュリッツァー賞と言われているピーボディ賞を受賞したんですが、音声コンテンツの充実を象徴するできごとでした。
2016年にはワイヤレスイヤホンのAirPodsが出てきた。コンテンツとハードウェアが揃ってくると、メディアとして価値が出てきたということで、これまで動画やバナーばかり見ていた広告の人たちが、音声に参入してきたんだと思いますね。
そういえば、ネットフリックスもオーディオコンテンツをやると言っているんですが、あの会社のコンテンツ制作費って年間1.8兆円とかなんですよ。もはや国の予算レベル。
【緒方】ただ、映像と違って、音声はお金を使うほどいいものができるというものでもないと思います。
【八木】確かにそうですね。
【緒方】人を抱える方が強いので、どれだけ魅力ある人を抱えられるかが勝負なんじゃないかと。
【宮坂】今スポティファイも完全にその方向ですよね。人気がある人を抱えている企業を買収していますし。
【八木】オバマ元大統領と専属契約したりしてますね。
家ではスマートスピーカー、外ではワイヤレスイヤホン
【宮坂】僕は、デバイスの視点って重要だと思うんですよね。なんでインスタグラムのようなビジュアルメディアが広がったかというと、当然、スマホにカメラがついていたからですよね。音声を何で聴くのか、何で話すのか。それはここ数年ですごく進化している。
AirPodsに代表される、左右独立型でワイヤレスの「トゥルーワイヤレスイヤホン」(TWE)も、ここ数年で急速に進化し、普及しました。僕らは2016年に最初のBONXのイヤホンを出したんですが、その当時はほとんどなかった。それが今では、むしろコードがついたイヤホンをしている人の方が少ないんじゃないかっていうくらいに一気に普及した。
スマートスピーカーは今、テック界隈の人は当たり前に使っていますが、一般の家庭はこれからです。今、急速に普及しているというフェーズです。
家ではスマートスピーカー、外ではTWEと、インドアでもアウトドアでも、音声で常時インターネットにアクセスできる環境が生まれた。それが、ボイステックの波が来るうえでの土台になっていると思います。
【八木】僕も同じ意見です。
- PRESIDENT Online
- プレジデント社の新メディアサイト。



