記事

深層学習は脳の振る舞いを取り込めるのか? - 佐々木雄一 / 深層学習

1/2

ニューラルネットワークは、脳を理解しようとする試みの中から生まれた。ニューラルネットワークとは、人間の脳内にある神経細胞(ニューロン)とそのつながり、つまり神経回路網を、人工ニューロンという数式的なモデルで表現したものだ。

では、一つ一つは単純な機能しか持たないニューロンを多数組み合わせることで、ニューラルネットワークモデルを構築した場合、いかにして脳のような高度な認識機能が発現しうるのか?

こうした学術的な問いからスタートした研究は、実際、脳に近い認識機能を獲得するという成果を収め、脳研究における大きなマイルストーンとなった。

そして、ニューラルネットワーク研究の一分野として生まれた深層学習によって、ニューラルネットワークモデルはさらに高度な認識能力を獲得するに至り、一定の領域においては人間を代替しうる水準にまで到達した。

その潜在的な可能性に産業界の注目も集まり、多くの研究者が参入して、素晴らしい産業的成果が生みだされた。

しかし、産業視点で積み重ねられた技術開発は、いかにして効率的に学習・推論を行えるかという実践的な観点を重視する。それゆえ、実際の脳の動作とは大きく異なる仕組みが、深層学習モデルに取り入れられてしまっている。

むろん、それらの産業的成果は否定すべきものではない。だが、そのことによって、脳のモデル化というニューラルネットワーク研究の本質的な意義が失われるとしたら、それは看過できない事態といえよう。

こうした問題意識から、本稿では深層学習と、脳の情報処理との差分を改めて比較検討することで、深層学習モデルがふたたび脳のモデルに近づくための論点を再考してみたい。

深層学習による画像認識技術の発展

まずは歴史から見ていく。ニューラルネットワークによる画像認識(画像に写る内容を理解すること)への応用の歴史は古く、1980年代に福島が提唱したネオコグニトロンと呼ばれるモデルが発端となっている (福島, 1980)。

その一分野である深層学習が脚光を浴び始めたのは、2012年の一般物体認識コンテストILSVRCでのことである。

一枚の画像に映る複数の物体をみせて、そのカテゴリを答えるAIモデルを開発するこのコンテストで、Hintonらのチームが、8層構造からなる深層学習モデルAlexNetにより優勝した (Krizhevsky, 2012)。

AlexNetのうち、最初の5層で用いられているconvolutionと呼ばれる畳み込み構造は、視床下部の「コラム構造」を模して作られており、それが人間の脳からの知見を取り込んだものであることは、大きな話題となった。

それとほぼ時期を同じくして、Leらが1,000万枚にもおよぶ大量の画像を用いて深層学習モデルを学習させたところ、脳内表現で仮定されていた、いわゆる「おばあさん細胞」が出現したと報告し、生理学的な知見との類似性が反響を呼んだ (Le, 2013)。

ニューラルネットワークの研究自体は、その名の通り、そもそも人間の脳細胞の仕組みを真似たものから出発している。脳内には、ニューロンという複数の入力と出力を持つ単位が存在し、それらが相互に結合している。

そして、入力の総和が一定のしきい値を超える場合、そのニューロンは「発火」し、そこに接続されているニューロンに対して信号が伝えられる。

こうしたミクロの仕組みを基本としたモデルが、深層学習へと発展し、最終的に脳のネットワーク構造に類似した、より大きなスケールでの構造を発現ないし取りこみ、上述のような成果を挙げたのである。

ここで念のため言葉の定義について述べておきたい。深層学習モデルは、ニューラルネットワークモデルに包含される概念である (図1)。

ただし、深層学習モデル以外のニューラルネットワークは、長年の研究の中で、主に3層 (入力層、隠れ層、出力層) から構成されがちだったのに対し、深層学習モデルは4層以上のより深い層状構造を採ることに大きな違いがある。

モデルの本質的な構造は同一でありながら、純粋に層数を増やしたことで、脳と類似する構造や高度な認識能力が自発的に獲得されたのである。

一見すると、より脳に近い複雑な構造を取り込む方向で進化しているように思える。だが、他方で、現在の深層学習のモデルが省いてしまった脳の振る舞いもある。2012年以前のニューラルネットワークの研究では、こうした点について精力的な議論がなされていた。

だが、深層学習モデル誕生以降、その産業的成功のインパクトがあまりにも大きかったため、皮肉にも、それらをめぐる議論は一時的に減速しているという印象が否めない。

たとえば、現在の深層学習モデルにおけるすべての学習の基礎となっているバックプロパゲーション法(backpropagation)は、脳の振る舞いとの乖離を示す典型的な例である。

もちろん、同手法は、モデル中の莫大な変数を、現実的な時間で最適化できるようにした画期的なものである。それは、現在の深層学習の発展における主要なドライバであったと言ってもよい。

しかし、脳の学習とは必ずしも対応しない点が多く、その神格化が深層学習の発展における制約の根源になっているともいえる。逆に言えば、この点を明確化することで、現在の深層学習が陥っている問題点に対する突破口を見つけることもできる。以下、このことを掘り下げて考察していく。

図 1: 各モデルの概念の整理

深層学習と脳の認識メカニズムの差異

深層学習と脳の差異について見る前に、まずは深層学習の概要について振り返りたい。深層学習におけるモデルの学習は、まず大量の学習データを用意するところから始まる。

画像に対する深層学習において、学習データとは、画像とそこに映っている物体名のラベルの対を指す。

その画像を入力したときに、モデルが予測した物体名のラベルと、正解の物体名のラベルとの乖離の程度を表す「ロス」と呼ばれる目的関数を設定し、それが最小化されるよう、最急降下法をベースとした各種アルゴリズムによって最適化される。

図2に示すように、深層学習のモデルは複数層の構造から成り、それぞれの層は複数個のニューロンから構成される。このニューロン間の接続係数が学習するべき変数であり、それは一つのモデルにつき数千万〜数億という莫大な数になるため、学習において莫大な計算量が必要となる。

図2: バックプロパゲーション法に基づく深層学習モデルとボルツマンマシン

また、変数の多さゆえ、学習させる画像枚数が少ないと、モデルが学習データを完全に覚えこんでしまい、未知の画像に対する予測能力(汎化能力)を失う、いわゆる過学習が発生する。

それを防ぐため、前述のILSVRCが提供するベンチマーク用学習データセットImageNetにおいては、1,000カテゴリ・100万枚以上の画像が提供されており、最新の計算機を用いても1-2週間の学習時間が必要となる。

こうした高い学習コストのため、深層学習のモデルは一回学習させたら、同モデルを他のタスク(別領域のデータでの追加学習)へ「使い回す」ことがよく行われる。

というのも、脳に近い汎用的な認識能力を持つ深層学習モデルではあるものの、人間同様、領域ごとに特化させた追加学習を行うことで、その領域における認識性能は飛躍的に向上するからである。その追加学習の出発点として、すでに学習済みのモデルを使い回すことで、学習コストを最小限に抑えるのである。

なぜこのようなことが可能になるのだろうか。それは実は実験の結果、学習データの種類や領域によらず、学習されたモデルの入力側の数層は、共通した構造(ガボールフィルタという)になることが分かっているからである。

それ以降の層は、学習データの種類・領域において、少しずつ異なってくるが、比較的、汎用的な特徴量抽出機能(世界を認識するための要素)を獲得していることが多い。

そのため、学習済みモデルを使い回すことで、共通部分の学習を不要とし、必要な計算時間と画像枚数を減らすことができる。この一連の追加学習プロセスのことを、ファインチューニング(fine tuning)という。

たとえば、手書きのひらがな画像を入力し、その手書き文字の読みとり結果を出力するモデルを学習させたケースを考えよう。目標精度にもよるが、大まかに言えば、この学習には5万枚程度の学習データと1日程度の学習時間が必要となる。

この深層学習モデルを出発点とし、アルファベットの手書き文字を認識させるモデルをファインチューニングにより作成しようとする場合、1,000枚前後の学習データ、1時間程度の学習時間で一定の性能を出すことができる。

脳の場合も大まかには似たような仕組みで学習が進む。人間の場合は、乳児期から外界を知覚し始め、数年かけて様々な物体を認識する。この過程で構成された脳細胞の接続関係のおかげで、大人になり新たな物体を認識する際にも迅速に対応できるのだ。

しかし顕著な差異も存在する。たとえば、ひらがなしか知らない日本人の成人に、新たにAというアルファベットを見せたとする。この場合、人間は瞬時にAを記憶し、数秒後から早速Aという文字を識別することができる。

個々人の記憶力にもよるが、どんなに長くとも数時間をかければA-Zまでをすべて覚えることができよう。

ところで、この数秒~数時間という時間の長さは、人間の脳細胞間の接続が変更・再構成されるための時定数と比べると非常に短い。それゆえ、こうした短時間での認識能力の獲得は、深層学習が行っている、ニューロン間の接続係数の調整によるそれとは異なるメカニズムで発現していると考える必要がある。

すなわち、脳ではこれが、いわゆる短期記憶によって実現されている。上記の例においては、Aという文字の形やその特徴を記憶し、推論時には、その記憶との照合を行うことで、当該文字を認識している(すなわち、Aを目にしたとき、Aだと認識している)。

他方、深層学習、特に画像認識で多く用いられるconvolution型のモデルでは、画像から抽出される情報が、入力層から出力層まで一方通行で流れていく(具体的には下記の記述を参照してほしい)。

ここにおいては脳とは異なり、記憶を実現するメカニズムは存在せず、結果として変数の最適化を通した学習以外で情報が記憶されることはない。

脳と深層学習モデルのもう一つ違いとして、「脳は二度見する」という点がある。たとえば、スマー トフォンが映っている画像を入力し、それがiPhoneかAndroid端末かを回答する問題設定を考えてみよう。

その際、目に飛びこんできた見た目からだと、いずれも四角い黒い板に見えることもあり、一目では必ずしも区別ができないこともありえる。

人間は、その後、より詳細な違いを見つけようと、分析的な目線で観察を開始する。iPhoneであれば特有の金属質感があるはずであり、ボタンの配置も特徴的である。全体として丸みを帯びたデザインとなっており、特にコーナー部は緩やかなカーブになっている。

昔のモデルならば、丸形のホームボタンがあるはずである。こうして我々は短時間のうちに、複数回、iPhoneとAndroidの特徴を思い浮かべ、目の前の画像に対する問い合わせを行うのである。

他方、深層学習による画像認識モデルの場合は、画像を入力した後は、一方通行で出力層まで情報が流れていくのみであり、複数回の問い合わせは行わない。したがって、認識性能も人間が「一目で見た」ときのレベルに留まる。

あわせて読みたい

「AI」の記事一覧へ

トピックス

ランキング

  1. 1

    電車止めない政府 危機感の甘さ

    諌山裕

  2. 2

    医師会の言葉は「心に響かない」

    山本直人

  3. 3

    「サイゼ来た」要請で皮肉な結果

    BLOGOS しらべる部

  4. 4

    菅首相発言に漂う日本崩壊の気配

    メディアゴン

  5. 5

    印象論で政権批判 NEWS23に苦言

    和田政宗

  6. 6

    尾身会長が求めるリーダーの姿勢

    BLOGOS しらべる部

  7. 7

    医療巡り飛び出した菅首相の本音

    青山まさゆき

  8. 8

    「男女の友情存在するか」は愚問

    いいんちょ

  9. 9

    渡邉美樹氏 外食産業は崩壊危機

    わたなべ美樹

  10. 10

    PCR問題の混乱止まらず 医師嘆き

    中村ゆきつぐ

ランキング一覧

ログイン

ログインするアカウントをお選びください。
以下のいずれかのアカウントでBLOGOSにログインすることができます。

コメントを書き込むには FacebookID、TwitterID のいずれかで認証を行う必要があります。

※livedoorIDでログインした場合、ご利用できるのはフォロー機能、マイページ機能、支持するボタンのみとなります。