記事

「イヤホン24時間装着の日が近い」GAFAが本気で参入する動画、スマホの「次の市場」

1/2

今年2月のクラブハウスブーム以降、にわかにネットの「音声」に注目が集まっている。GAFA(グーグル、アップル、フェイスブック、アマゾン)はもちろん、音楽配信大手のスポティファイや動画配信大手のネットフリックス、ツイッターも音声市場に参入している背景には何があるのか。日本のボイステック(音声系IT)ベンチャーの4人が語り合った――。

※本稿は、緒方憲太郎『ボイステック革命 GAFAも狙う新市場争奪戦』(日本経済新聞出版)の一部を再編集したものです。

女の子の耳にワイヤレスイヤホン
※写真はイメージです - 写真=iStock.com/yunava1

機械が人の言葉を理解し始めた

【緒方】「なぜ今、ボイステックが『きて』いるんでしょうか」と最近よく聞かれます。

Voicy代表取締役CEO 緒方憲太郎さん。『ボイステック革命 GAFAも狙う新市場争奪戦』より
Voicy代表取締役CEO 緒方憲太郎さん。『ボイステック革命 GAFAも狙う新市場争奪戦』より

【金子】音声合成や音声認識の研究は、何十年も前からいろんな企業がやってきました。それが、ディープラーニング(深層学習)が出てきたおかげで、一気に精度が上がったんです。

音声合成、つまり機械に言葉をしゃべらせる方は、「最低限何を言っているかはわかる」というレベルでもそれなりに用途はあったんです。例えば、カーナビの「次の信号を左折です」といった音声は、「ちょっと不自然だけど言っていることはわかる」というレベルでも使ってもらえます。

でもスマートスピーカーや、iPhoneのSiriなどで注目された、人が話しかける言葉を機械が認識する音声認識の技術、つまり音声を理解する方は、精度70%くらいだと、ほぼ使えないんですよ。70%ってどのくらいかというと、2、3回に1回は認識されずに「言ってることがわかりません」と返されてしまう感じ。それが2、3回起こると、もう使うのが嫌になっちゃうじゃないですか。

それがディープラーニングによって、ここ数年で精度が上がって、条件によっては95%以上になった。そうなってくると「使える」レベルになり、一気に広まりました。

【八木】長文はもう、タイピングする気がしないですね。Googleドキュメントを開いて音声入力してます。(2020年の)12月に書籍を出したんですが、80%くらいはしゃべって音声入力で書きました。600文字くらいの文章なら、1、2分でしゃべれちゃうので。

【緒方】僕もだいたい音声入力ですね。社内の人は、僕が声で書いているのを知ってるから、多少の誤変換は見逃してくれる(笑)。

大手が本気になり始めた

【八木】私が携わる広告やメディアの分野で音声が盛り上がっているのは、「技術的な革新があったから」というよりも、「本気になったプレイヤーが増えたから」だという感じがしています。例えばグーグルはユーチューブで音声広告を始めましたし、アマゾンや音楽配信のスポティファイがポッドキャストに参入してきたのはインパクトがありました。

広告技術は、これまで動画やバナーでやっていたことを、音声でもやっているだけだったりするんです。これまでなおざりにされてきた音声に注目が集まってきて、結果的に、昔から使われてきた技術が音声に応用されるようになったという印象です。

GAFAが音声に着目し始めたワケ

【八木】ちなみに特にGAFAなどの大手プラットフォーマーに関して、なぜ音声に着目し始めているかというと、端的に言えばお金になるからだと思います。市場がすごい勢いで成長しているので、参入せざるを得ないという状態というか。その辺の感覚は、日本ではあまりわからないかもしれませんが、グローバルでは「先に取られると負ける」という切迫した空気になっている。それで、いろんなプレイヤーが音声に参入してきているという感じが強いです。

デジタル音声広告を手掛けるオトナル 代表取締役の八木太亮さん。『ボイステック革命 GAFAも狙う新市場争奪戦』より
デジタル音声広告を手掛けるオトナル 代表取締役の八木太亮さん。『ボイステック革命 GAFAも狙う新市場争奪戦』より

さかのぼると、ポッドキャストブームがイノベーションのきっかけになったように思います。2014年に、初めてポッドキャストの番組が、放送のピュリッツァー賞と言われているピーボディ賞を受賞したんですが、音声コンテンツの充実を象徴するできごとでした。

2016年にはワイヤレスイヤホンのAirPodsが出てきた。コンテンツとハードウェアが揃ってくると、メディアとして価値が出てきたということで、これまで動画やバナーばかり見ていた広告の人たちが、音声に参入してきたんだと思いますね。

そういえば、ネットフリックスもオーディオコンテンツをやると言っているんですが、あの会社のコンテンツ制作費って年間1.8兆円とかなんですよ。もはや国の予算レベル。

【緒方】ただ、映像と違って、音声はお金を使うほどいいものができるというものでもないと思います。

【八木】確かにそうですね。

【緒方】人を抱える方が強いので、どれだけ魅力ある人を抱えられるかが勝負なんじゃないかと。

【宮坂】今スポティファイも完全にその方向ですよね。人気がある人を抱えている企業を買収していますし。

【八木】オバマ元大統領と専属契約したりしてますね。

家ではスマートスピーカー、外ではワイヤレスイヤホン

【宮坂】僕は、デバイスの視点って重要だと思うんですよね。なんでインスタグラムのようなビジュアルメディアが広がったかというと、当然、スマホにカメラがついていたからですよね。音声を何で聴くのか、何で話すのか。それはここ数年ですごく進化している。

AirPodsに代表される、左右独立型でワイヤレスの「トゥルーワイヤレスイヤホン」(TWE)も、ここ数年で急速に進化し、普及しました。僕らは2016年に最初のBONXのイヤホンを出したんですが、その当時はほとんどなかった。それが今では、むしろコードがついたイヤホンをしている人の方が少ないんじゃないかっていうくらいに一気に普及した。

スマートスピーカーは今、テック界隈の人は当たり前に使っていますが、一般の家庭はこれからです。今、急速に普及しているというフェーズです。

家ではスマートスピーカー、外ではTWEと、インドアでもアウトドアでも、音声で常時インターネットにアクセスできる環境が生まれた。それが、ボイステックの波が来るうえでの土台になっていると思います。

【八木】僕も同じ意見です。

あわせて読みたい

「音声認識」の記事一覧へ

トピックス

  1. 一覧を見る

ランキング

  1. 1

    「2021年になって未だに?」 NHKきっかけに日本のFAX文化が世界に 海外からは驚きの声

    BLOGOS しらべる部

    07月29日 17:14

  2. 2

    都の感染者が3865人のからくり 検査数が増えれば陽性者数も増える

    諌山裕

    07月30日 13:07

  3. 3

    歌舞伎×ジャズピアノ、タップダンスにイマジン…五輪開会式はなぜ変化球で攻めたのか

    毒蝮三太夫

    07月31日 08:05

  4. 4

    もう、オリンピック・ムードに浸り続けるのは無理なんじゃないかな

    早川忠孝

    07月30日 08:37

  5. 5

    緊急事態宣言下で爆発している今の状況での延長なんて反感しか産まない ただ政府だけに責任押しつけるな 

    中村ゆきつぐ

    07月31日 08:58

  6. 6

    なぜ無効な政策をいつまでも続けるのか?

    青山まさゆき

    07月30日 16:11

  7. 7

    無法地帯になってきた空港と選手村 感染爆発が止まらないのも道理

    田中龍作

    07月31日 08:43

  8. 8

    「桜を見る会」不起訴処分の一部を不当に 検察審査会法の改正は司法改革の大きな成果

    早川忠孝

    07月30日 19:09

  9. 9

    五輪で弁当4000食廃棄にショック 河野大臣も驚きのけぞる

    柚木道義

    07月30日 10:28

  10. 10

    表現の自由を侵害? ネットフリックスなどへの規制に向かうイギリス

    小林恭子

    07月30日 13:34

ログイン

ログインするアカウントをお選びください。
以下のいずれかのアカウントでBLOGOSにログインすることができます。

コメントを書き込むには FacebookID、TwitterID のいずれかで認証を行う必要があります。

※livedoorIDでログインした場合、ご利用できるのはフォロー機能、マイページ機能、支持するボタンのみとなります。