記事

東芝が世界初のAI技術を開発、家電だけで音声・話者を同時に認識

1/2

話しかけるだけで家電を操作できるようになってきた。さらに、誰が音声で操作をしたのか識別し、その話者に合わせて機器の動きを変える機能も出てきている。

株式会社東芝は2月20日、キーワード検出と話者認識を同時に処理するAI技術を開発したと発表。実はこの技術、東芝が世界で初めて開発したのだ。





利用者を認識し、その利用者に合わせて機器が動作する

ポイントは「エッジデバイス上だけ」で同時処理できること

冒頭に記載のとおり、これまでも音声で家電を操作したら、話しかけた人に合わせて機器が動作する仕組みはあった。だが、そのためにはネットワークへの接続が必要だった。なぜなら、動作に必要な「キーワード検出」と誰が話したのか識別する「話者認識」を両立させるには、膨大な計算が必要だったからだ。

今回、東芝が開発したのは、「ネットワークに接続していなくてもエッジデバイス上で」キーワード検出と話者認識を同時に処理するAI技術だ。音声キーワード検出や話者認識を家電製品で利用するにはネット接続などが必要だったが、東芝が開発したAI技術なら、ネット非接続でも利用できるのでより使い勝手が良くなると予想される。

このAIの特徴は大きく分けてふたつある。

話者認識のための音声処理時間を大幅に削減

中間出力を話者登録や話者認識に活用する

まず、キーワード検出で用いる情報の活用だ。音声が入力されると、キーワード検出のニューラルネットワークで周辺雑音などの影響を吸収しつつ、音声を処理する。その際のニューラルネットワークの中間出力を使って話者登録および話者認識をするそうだ。

さらに、中間出力を使うことで、話者認識の差異にも周辺の雑音の影響を抑えられる。くわえて、話者認識のための音声処理の時間を大幅に削減可能。限られた機能上でも高速な動作を見込める。

話者登録は「3回の発話」で完了

少ない発話で登録が可能に

もうひとつは、ニューラルネットワークのデータ拡張手法の活用だ。データ拡張手法とは、少ないデータ(発話)で学習する手法のひとつだ。ニューラルネットワークのノード間の接続の重みをランダムにゼロにすることで、同じ話者がさまざまなしゃべり方で発話したような音声情報を模擬的に生成できる。

話者を識別するには、AIに話者を学習させる必要があるものの、この手法を用いることで発話数が少なくても話者を学習できる。つまり、話者登録時の必要話数が少なくなるそうだ。リリースによれば、3回の発話で完了するとのこと。

あわせて読みたい

「家電」の記事一覧へ

トピックス

  1. 一覧を見る

ランキング

  1. 1

    BLOGOSサービス終了のお知らせ

    BLOGOS編集部

    03月31日 16:00

  2. 2

    なぜ日本からは韓国の姿が理解しにくいのか 識者が語る日韓関係の行方

    島村優

    03月31日 15:41

  3. 3

    「いまの正義」だけが語られるネット社会とウェブ言論の未来

    御田寺圭

    03月31日 10:09

  4. 4

    カーオーディオの文化史 〜ドライブミュージックを支えた、技術の結晶たち〜

    速水健朗

    03月30日 16:30

  5. 5

    BLOGOS執筆を通じて垣間見たリーマンショック後10年の企業経営

    大関暁夫

    03月31日 08:27

ログイン

ログインするアカウントをお選びください。
以下のいずれかのアカウントでBLOGOSにログインすることができます。

コメントを書き込むには FacebookID、TwitterID のいずれかで認証を行う必要があります。

※livedoorIDでログインした場合、ご利用できるのはフォロー機能、マイページ機能、支持するボタンのみとなります。