ChatGPTで起きている事象の意味は何なのか
今年に入ってから、ChatGPTによるAIの進展が凄まじい。
ChatGPTで起きている事象の意味は何なのか。
今「深層学習の原理に迫る: 数学の挑戦 (岩波科学ライブラリー 303)」を読んでいる。
全て理解できていないが、気付きが色々あった。
ラフなメモ書き。
【1】ChatGPTのような大規模言語モデルの中身は物理学や数学と同じ。
つまり、過去の数学や物理学の理論をベースに作られている。
ChatGPTの仕組みを知ろうとするとそこまで深掘りすることになる。
中身は物理学。(拡散モデル、大規模言語モデル) https://t.co/woT4B0MasH
— Kenji Hiranabe (@hiranabe) March 20, 2023
【2】ChatGPTの仕組みは、演繹的なのか、帰納的なのか?
この説明わかりやすい!
— Kenji Hiranabe (@hiranabe) March 20, 2023
今GPTに起きていることには2つの可能性があると。 https://t.co/gajG8OpVcB
(引用開始)
パラメータ数を大きくすることで起きていることは、実はまだわかっていなくて、2つの可能性があるという。
一つ目なら今後"人類がこれまで言語その他の情報の形で書き溜めた知識の総体を学習し切ったところで性能向上は頭打ち"。
二つ目なら"当面は際限なく性能が向上するように見えるだろう。その場合、計算力に関する物理的な制約がクリティカル"で、センサーなどの身体性を持つことで壁を越えることになる。"人類のこれまでの知識の総体」を上限とする理由が無くなり、物理現象の時定数のみが制限として残る"
(引用終了)
僕の直感では、ベースは帰納的で、その後のロジックは演繹的だろうと思う。
大量の学習データを元に訓練して学習モデルを作ると、その後は、得られた特徴量や概念を元に膨大な計算エネルギーを駆使して、演繹的にロジカルに色んなアウトプットを導き出せる。
ちょうど、公理系から定理、系、命題がロジカルに大量に生み出されるのと同じ。
では、そのような大規模言語モデルは、人間のように「意識を持つ」のだろうか?
大規模言語モデルは自我という意識を持ち、数多くの意見を作り出し、行動を生み出すようになるのか?
【3】深層学習の発展は、理論物理学と実験物理学の2つの分野のアウフヘーベンに似ているように思える。
つまり、深層学習の原理にある数学や物理の理論と、実際にプログラムに実装して膨大なコンピューティングパワーを使って膨大な計算量をこなせるような大規模言語モデルを構築することの2つが相互に刺激しあって、より発展していく。
「深層学習の原理に迫る: 数学の挑戦 (岩波科学ライブラリー 303)」を読むと、過去の数学の理論では、「深層学習は少ない層で十分な性能が出せる」という普遍近似定理、「膨大なパラメータ数は過剰適合をもたらす」などが既に知られている。
つまり、せいぜい2層程度で、パラメータ数もそんなに多くない深層学習で十分な性能や結果が得られるはず、と思われていた。
しかし、現実は違う。
実際に実装された大規模言語モデルでは、パラメータ数は数億、数兆とか、層も数千、数万とかかなり複雑。
つまり、コンピューティングパワーを使ってプログラムに実装して実験してみると、実験結果と数学の理論に乖離がある。
そういう理論と実験の繰り返しによって、深層学習はさらに進展している。
興味深いのは、過去の物理と今の深層学習の違いだ。
過去の物理学の歴史では、紙と鉛筆による理論と、望遠鏡やビーカーのような器具による実験の相互作用により発展してきた。
現代の深層学習では、物理や数学の理論と、クラウドをベースにした膨大な計算力を持つコンピューティング環境における実験によって進展している。
【4】ChatGPTのような大規模言語モデルはなぜ、ものすごい性能を出しているのか?
つまり、過去の数学の理論では、「深層学習は少ない層で十分な性能が出せる」という普遍近似定理、「膨大なパラメータ数は過剰適合をもたらす」と言っているのに、実際に実装したChatGPTでは、パラメータ数も層も相当に複雑になって、理論と実験に乖離がある。
その真因は何か?
「深層学習の原理に迫る: 数学の挑戦 (岩波科学ライブラリー 303)」では、その理由の真因を明確に書いていない。
でも、ヒントは2つあるように感じた。
1つ目は、過去の数学の理論は微分可能な滑らかな関数を暗黙の前提にしていた一方、深層学習では尖った曲線のような非線形な曲線をベースに作られていること。
たとえば、層を増やす時に、シグモイド関数ではなく、ReLU関数のようなわざと非線形にした関数を用いることで、従来の学習モデルの性能劣化を解決した。
おそらく、我々人間が目の前に対処している問題のほとんどは、非線形の性質を持っているからこそ、そういう仕組みを持つ深層学習、つまり多層の深層学習を必要としているのではないか。
2つ目は、深層学習モデルのパラメータ数をあえて増やすことで、学習エネルギーの損失関数を極小化させることに成功したこと。
僕の直感では、複雑な曲線や曲面のくぼみの中で最小値を探すとき、そのままの次元では極小値を探しにくい。
そこで、パラメータ数をあえて数多く増やすと、複雑な曲線や曲面も次元が増えることによって、平坦な曲線や曲面の部分が非常に多くなる。
よって、平坦な部分を全て洗い出した後に、元の次元に戻してからそれぞれの最小値を求めることで、損失関数の真の極小値を導き出せる、と理解している。
つまり、あえて次元数を膨大に増やすことで、損失関数の極小値を計算する手間を省いているわけだ。
そんなことを考えると、膨大な計算力を持つAI基盤を実際に実装できたからこそ、実験して得られた知見を元に、理論へフィードバックされたのだろうと思う。
【5】「深層学習の原理に迫る: 数学の挑戦 (岩波科学ライブラリー 303)」を読んで気づいたのは、我々人間が視覚、聴覚、触覚などの五感で得られた情報は、全て多次元ベクトルに置き換えられること。
これにより、人間が持つすべての情報や概念は、多次元空間の中にあるベクトルという点であり、ベクトル同士の距離を計算することで、似通った意味である判定、特徴量の抽出などにつながっているわけだ。
何となく、ソシュールが言う言語の概念、フッサール現象学に出てくる自我や他我の概念に似ている気がする。
RDRAをAIに載せるために格闘されているツイートを読むと、まさにその考え方と同じ。
【6】ChatGPTで起きている事象の意味は何なのか?
ビジネスモデルの観点では、今起きている事象はAI革命の真っ只中であることだ。
そして、AI革命を主導する人たちは、世界最高レベルの科学者やエンジニアを膨大に持ち、クラウドやデータセンターを膨大に持つ米国と米国の一部の巨大IT企業、つまりGAFAMなのだろう。
AI革命の中で生きている一人の凡人の観点では、「AIは時代の津波」だということ。
99%の人は、東日本大震災の津波のように巻き込まれて、職を失い、生きる意義を見失い、命の危険にさらされるかもしれない。
だからこそ、AI革命の行き先を最後まで見届ける必要がある。
(引用開始)
私はAIは時代の津波だと思ってる。津波だからもちろん止められない。ごく少数はこの時代の津波に乗れるかもしれないけど、殆どの人は飲み込まれる。
今はいかに高台の登るか、いかに泳ぎを極めるか、いかに頑丈ないかだを作るかに集中すべき。つまり生き残るすべを必死に探して身につけるのだ。「AI?よく分かんない。関係ないっしょ」なんて言ってる人はほぼ確実に溺れる。
このレターを見て私はさらに危機感を持った。私は溺れたくない。まずは出来るだけ使ってみる事。そこが第一歩。
(引用終了)
今日は大きなニュースが2つ。1つ目はテク界大御所達がAIの開発を6ヶ月休止しろ、と提言した事。2つ目は中国とブラジルがドルを介さずに貿易する事に合意し、フランスが中国と元建で天然ガスを取引した事。今日はもしかすると10年後に振り返る「時代の転換日」だったかもしれない。時代は大きく変わる…
— まりーさん@ USA????YOLO??(You Only Live Once) (@maryoakleysan) March 30, 2023
| 固定リンク
« ストラテジストとプロジェクトマネージャの役割の違いは何なのかpart2~プロセスのレイヤと達成目標のレイヤが異なる | トップページ | ランダム化比較試験はなぜ注目されて利用されるようになったのか »
「ビジネス・歴史・経営・法律」カテゴリの記事
- ビジネス書の名著はどれ?(2023.09.18)
- 営業は顧客の”購買代理人”である(2023.08.16)
- 第85回IT勉強宴会の感想~概念データモデルからビジネスモデルを構築すべきという考え方(2023.05.13)
- 令和4年度春期試験のITストラテジスト試験第4問をastahでモデル化してみた(2023.04.15)
- ChatGPTで起きている事象の意味は何なのか(2023.04.02)
「統計学・機械学習・深層学習」カテゴリの記事
- 統計学の考え方をastahでまとめた(2023.05.28)
- ランダム化比較試験はなぜ注目されて利用されるようになったのか(2023.04.08)
- ChatGPTで起きている事象の意味は何なのか(2023.04.02)
- 過学習に陥った人間や社会の事例は何があるのか(2023.01.09)
- 計量政治学と計量経済学の考え方の違い(2022.10.02)
コメント