« ストラテジストとプロジェクトマネージャの役割の違いは何なのかpart2~プロセスのレイヤと達成目標のレイヤが異なる | トップページ | ランダム化比較試験はなぜ注目されて利用されるようになったのか »

2023/04/02

ChatGPTで起きている事象の意味は何なのか

今年に入ってから、ChatGPTによるAIの進展が凄まじい。
ChatGPTで起きている事象の意味は何なのか。

今「深層学習の原理に迫る: 数学の挑戦 (岩波科学ライブラリー 303)」を読んでいる。
全て理解できていないが、気付きが色々あった。
ラフなメモ書き。

【1】ChatGPTのような大規模言語モデルの中身は物理学や数学と同じ。
つまり、過去の数学や物理学の理論をベースに作られている。
ChatGPTの仕組みを知ろうとするとそこまで深掘りすることになる。

【2】ChatGPTの仕組みは、演繹的なのか、帰納的なのか?

(引用開始)
パラメータ数を大きくすることで起きていることは、実はまだわかっていなくて、2つの可能性があるという。
一つ目なら今後"人類がこれまで言語その他の情報の形で書き溜めた知識の総体を学習し切ったところで性能向上は頭打ち"。

二つ目なら"当面は際限なく性能が向上するように見えるだろう。その場合、計算力に関する物理的な制約がクリティカル"で、センサーなどの身体性を持つことで壁を越えることになる。"人類のこれまでの知識の総体」を上限とする理由が無くなり、物理現象の時定数のみが制限として残る"
(引用終了)

僕の直感では、ベースは帰納的で、その後のロジックは演繹的だろうと思う。
大量の学習データを元に訓練して学習モデルを作ると、その後は、得られた特徴量や概念を元に膨大な計算エネルギーを駆使して、演繹的にロジカルに色んなアウトプットを導き出せる。
ちょうど、公理系から定理、系、命題がロジカルに大量に生み出されるのと同じ。

では、そのような大規模言語モデルは、人間のように「意識を持つ」のだろうか?
大規模言語モデルは自我という意識を持ち、数多くの意見を作り出し、行動を生み出すようになるのか?

【3】深層学習の発展は、理論物理学と実験物理学の2つの分野のアウフヘーベンに似ているように思える。

つまり、深層学習の原理にある数学や物理の理論と、実際にプログラムに実装して膨大なコンピューティングパワーを使って膨大な計算量をこなせるような大規模言語モデルを構築することの2つが相互に刺激しあって、より発展していく。

深層学習の原理に迫る: 数学の挑戦 (岩波科学ライブラリー 303)」を読むと、過去の数学の理論では、「深層学習は少ない層で十分な性能が出せる」という普遍近似定理、「膨大なパラメータ数は過剰適合をもたらす」などが既に知られている。
つまり、せいぜい2層程度で、パラメータ数もそんなに多くない深層学習で十分な性能や結果が得られるはず、と思われていた。

しかし、現実は違う。
実際に実装された大規模言語モデルでは、パラメータ数は数億、数兆とか、層も数千、数万とかかなり複雑。
つまり、コンピューティングパワーを使ってプログラムに実装して実験してみると、実験結果と数学の理論に乖離がある。

そういう理論と実験の繰り返しによって、深層学習はさらに進展している。

興味深いのは、過去の物理と今の深層学習の違いだ。
過去の物理学の歴史では、紙と鉛筆による理論と、望遠鏡やビーカーのような器具による実験の相互作用により発展してきた。
現代の深層学習では、物理や数学の理論と、クラウドをベースにした膨大な計算力を持つコンピューティング環境における実験によって進展している。

【4】ChatGPTのような大規模言語モデルはなぜ、ものすごい性能を出しているのか?

つまり、過去の数学の理論では、「深層学習は少ない層で十分な性能が出せる」という普遍近似定理、「膨大なパラメータ数は過剰適合をもたらす」と言っているのに、実際に実装したChatGPTでは、パラメータ数も層も相当に複雑になって、理論と実験に乖離がある。
その真因は何か?

深層学習の原理に迫る: 数学の挑戦 (岩波科学ライブラリー 303)」では、その理由の真因を明確に書いていない。
でも、ヒントは2つあるように感じた。

1つ目は、過去の数学の理論は微分可能な滑らかな関数を暗黙の前提にしていた一方、深層学習では尖った曲線のような非線形な曲線をベースに作られていること。

たとえば、層を増やす時に、シグモイド関数ではなく、ReLU関数のようなわざと非線形にした関数を用いることで、従来の学習モデルの性能劣化を解決した。
おそらく、我々人間が目の前に対処している問題のほとんどは、非線形の性質を持っているからこそ、そういう仕組みを持つ深層学習、つまり多層の深層学習を必要としているのではないか。

2つ目は、深層学習モデルのパラメータ数をあえて増やすことで、学習エネルギーの損失関数を極小化させることに成功したこと。

僕の直感では、複雑な曲線や曲面のくぼみの中で最小値を探すとき、そのままの次元では極小値を探しにくい。
そこで、パラメータ数をあえて数多く増やすと、複雑な曲線や曲面も次元が増えることによって、平坦な曲線や曲面の部分が非常に多くなる。
よって、平坦な部分を全て洗い出した後に、元の次元に戻してからそれぞれの最小値を求めることで、損失関数の真の極小値を導き出せる、と理解している。
つまり、あえて次元数を膨大に増やすことで、損失関数の極小値を計算する手間を省いているわけだ。

そんなことを考えると、膨大な計算力を持つAI基盤を実際に実装できたからこそ、実験して得られた知見を元に、理論へフィードバックされたのだろうと思う。

【5】「深層学習の原理に迫る: 数学の挑戦 (岩波科学ライブラリー 303)」を読んで気づいたのは、我々人間が視覚、聴覚、触覚などの五感で得られた情報は、全て多次元ベクトルに置き換えられること。

これにより、人間が持つすべての情報や概念は、多次元空間の中にあるベクトルという点であり、ベクトル同士の距離を計算することで、似通った意味である判定、特徴量の抽出などにつながっているわけだ。

何となく、ソシュールが言う言語の概念、フッサール現象学に出てくる自我や他我の概念に似ている気がする。

RDRAをAIに載せるために格闘されているツイートを読むと、まさにその考え方と同じ。

(1) akipiiさんはTwitterを使っています: 「なるほど、要件をグラフ構造にすれば行列に置換できるから深層学習に乗せられるわけか。この発想は、他のユースケースきも使えそう」 / Twitter

【6】ChatGPTで起きている事象の意味は何なのか?

ビジネスモデルの観点では、今起きている事象はAI革命の真っ只中であることだ。
そして、AI革命を主導する人たちは、世界最高レベルの科学者やエンジニアを膨大に持ち、クラウドやデータセンターを膨大に持つ米国と米国の一部の巨大IT企業、つまりGAFAMなのだろう。

akipiiさんはTwitterを使っています: 「昨今のAIの急速な発展を目にすると、次の10年も主役は米国の巨大IT企業だと言わざるをえない。AI開発には、世界最高レベルの科学者やエンジニアといったタレント、膨大な計算リソースが必要であり、それを有しているのは米国と米国の一部の巨大企業だけである https://t.co/Y2bXSdOCYR」 / Twitter

AI革命の中で生きている一人の凡人の観点では、「AIは時代の津波」だということ。
99%の人は、東日本大震災の津波のように巻き込まれて、職を失い、生きる意義を見失い、命の危険にさらされるかもしれない。
だからこそ、AI革命の行き先を最後まで見届ける必要がある。

(引用開始)
私はAIは時代の津波だと思ってる。津波だからもちろん止められない。ごく少数はこの時代の津波に乗れるかもしれないけど、殆どの人は飲み込まれる。

今はいかに高台の登るか、いかに泳ぎを極めるか、いかに頑丈ないかだを作るかに集中すべき。つまり生き残るすべを必死に探して身につけるのだ。「AI?よく分かんない。関係ないっしょ」なんて言ってる人はほぼ確実に溺れる。
このレターを見て私はさらに危機感を持った。私は溺れたくない。まずは出来るだけ使ってみる事。そこが第一歩。
(引用終了)



|

« ストラテジストとプロジェクトマネージャの役割の違いは何なのかpart2~プロセスのレイヤと達成目標のレイヤが異なる | トップページ | ランダム化比較試験はなぜ注目されて利用されるようになったのか »

ビジネス・歴史・経営・法律」カテゴリの記事

統計学・機械学習・深層学習」カテゴリの記事

コメント

コメントを書く



(ウェブ上には掲載しません)


コメントは記事投稿者が公開するまで表示されません。



« ストラテジストとプロジェクトマネージャの役割の違いは何なのかpart2~プロセスのレイヤと達成目標のレイヤが異なる | トップページ | ランダム化比較試験はなぜ注目されて利用されるようになったのか »