統計学と機械学習の違いは、データの説明かデータの予測か
統計学と機械学習の違いについて、明確な回答があったのでメモ。
統計学は「データの説明」、機械学習は「データの予測」に目的がある。
【参考1】
統計学と機械学習はどう違いますか?一方にできてもう一方にできないことは何ですか? - Quora
「統計学と機械学習の違い」はどう論じたら良いのか - 渋谷駅前で働くデータサイエンティストのブログ
(引用開始)
記事中では「統計学は『説明』するためのもの、機械学習は『予測』するためのもの」という表現をしています。
(引用終了)
【参考2】
データ分析の事始め~統計学と機械学習の違い~ | 株式会社豆蔵
(引用開始)
統計学は「データの説明」に、機械学習は「データの予測」に重きを置いていると言えます。
この違いはデータ分析を行う側にとって大きな違いであり、使い方を間違ってしまうと、データから有用な知識を得られない可能性があります。
(引用終了)
【参考3】
「統計」と「機械学習」の違いの整理で多くの事業会社で「機械学習」が使えない理由が視えてきた! - Qiita
(引用開始)
「機械学習」は予測や判断は行うもののなぜそうなったのかは一般的にはブラックボックスだ。
「統計」で行う予測や判断は、なぜそういう結論になったのかの理由付けが重要になり(理由付けを行うための学問であり)、理由はホワイトボックスとなっている。
なぜ多くの事業会社が「機械学習のアプローチを使えない」のか?
要因の整理に力を入れることが目的の「統計」は社会科学の課題解決に向いており、「機械学習」は自然科学の予測やロボットでの自動処理に向いている。と、
(引用終了)
【参考4】
【図解】コレ1枚でわかる統計学と機械学習の関係:ITソリューション塾:オルタナティブ・ブログ
(引用開始)
「データを使って問題を解決する」という方法論において、「統計学」も「機械学習」も違いはありません。両者の違いは、方法論、すなわちアルゴリズムやテクノロジーにあるというよりも、その目的にあると言えるでしょう。
統計学は、データを「説明」することを目的としており、記述統計(descriptive statistics)と推測統計(inferential statistics)に分けることができます。
(中略)
一方、機械学習は、データから「予測」して、分類・識別・判断を最適におこなえるようにすることを目的としています。
予測とは、まだ分かっていない答えを知るためのモデル(推論モデル)をデータから作り、これをいまのデータに照らし合わせて、将来何が起こるのかを予測する、この対象をどのグループに分類するのが適切なのかを決める、いま目の前にあるのは何かを識別するなどを行います。つまり、データを与えれば、推論モデルに照らし合わせて、分類・識別・判断を自動化することを目指しています。
(引用終了)
【1】Pythonで機械学習や深層学習のプログラムを写経したり、真似て書いていると、まだ分かってないな、という気持ちになる。
その気持になった原因を探ってみると、データをモデル化して構造を見たいのか、データをモデル化して予測に使いたいのか、を混同しているような気がした。
たとえば、統計学とは~という中身の本は、データをモデル化して構造を見るためのアルゴリズムだけを紹介している。
だから、昨今の機械学習や深層学習ではどうなの?という疑問があった。
統計学は「データの説明」、機械学習は「データの予測」、という基準で使い分ければ、ちょっとは迷子になりにくいだろう。
【2】しかし、統計学でも、機械学習でも、利用シーンに応じてアルゴリズムを使い分ける必要があるが、アルゴリズムの数が膨大なので、どの場面にどのアルゴリズムが有効に利用できるのか、なかなか分からない。
現実世界では、データをモデル化した時、モデルの数は星の数ほどあるだろうから、それぞれのモデルに合った統計アルゴリズムも星の数ほどある。
それらを逐一覚えるような気は正直起きない。
scikit-learn「アルゴリズム・チートシート」のリンク: プログラマの思索
でも、何らかの基準は欲しい。
結局、それぞれの事象に対して、そのモデルに見合ったアルゴリズムを見つけては、新規性がある!と叫んで、どんどん発見していき、植物学や動物学みたいに、数多くのアルゴリズムという標本集めをやっているだけなのかだろうか?
この辺りはもうちょっと考えてみる。
| 固定リンク
「モデリング」カテゴリの記事
- 「システム開発・刷新のためのデータモデル大全」を読み直した感想~親子頻出アンチパターンは初心者モデラーに多い(2024.08.31)
- 「システムアーキテクチャ構築の原理」の感想part2~非機能要件がシステムのアーキテクチャに影響を与える観点をプロセス化する(2024.05.06)
- 「システムアーキテクチャ構築の原理」の感想(2024.05.06)
- ソフトウェア工学の根本問題から最近のソフトウェア設計を考えてみる(2024.03.03)
- アーキテクチャ量子の考え方はソフトウェア工学に物理学アプローチを適用したアイデアではないか(2024.02.12)
「統計学・機械学習・深層学習」カテゴリの記事
- 統計学の考え方をastahでまとめた(2023.05.28)
- ランダム化比較試験はなぜ注目されて利用されるようになったのか(2023.04.08)
- ChatGPTで起きている事象の意味は何なのか(2023.04.02)
- 過学習に陥った人間や社会の事例は何があるのか(2023.01.09)
- 計量政治学と計量経済学の考え方の違い(2022.10.02)
コメント