統計学・機械学習・深層学習

2022/06/14

「完全独習 統計学入門」は良い本らしい

ある勉強会で、「完全独習 統計学入門」は統計学の初心者に良い本だ、と勧められた。
「t検定の原理を理解して使いこなせれば、統計学の免許皆伝だ」と言われるらしい。

【参考】
統計学挫折者にオススメという「完全独習 統計学入門」を読んでみた | ゆとって生きたい。

統計学をはじめて学ぶ方におすすめ:完全独習 統計学入門: 教育機関向けソフトウェア アカデミック・ソフト・プラス

(引用開始)
▽本書は、
●統計学を初めて学ぶ人
●統計学を改めて学び直したいという人
●何度も挫折して、いまだに身についてない(と感じている)人
●今まさに落ちこぼれつつある人
に向けた、統計学の超入門書です。

(1)「これ以上何かを削ったら、統計学にならない」という、最小限の道具立て(ツール)と簡単さで書かれた「超入門書」

(2)確率の知識はほとんど使わない。微分積分もシグマも全く使わない。使う数学は、中学の数学(ルートと1次不等式)までだから、高校数学がわからなくても(忘れてしまっていても)大丈夫

(3)毎講に穴埋め式の簡単な練習問題がついているので、独習に最適

(4)第1部では初歩の初歩からスタートしながらも、「検定」や「区間推定」という統計学の最重要のゴールに最短時間で到達することを目指す

(5)第2部では、第1部の内容に厚みをつけ、統計学での免許皆伝でともいえるt分布を使った小標本の検定・区間推定に最も効率的にたどりつく。基本が理解できれば、相当なところまで理解できる

(6)標準偏差の意味が「体でわかる」よう、簡単な計算問題や具体例で徹底的に解説する

(7)株や投資信託などへの投資のリスクを、統計学から理解して金融商品にも強くなってもらう

▽本書は、「これ以上何かを削ったら、統計学にならない」というギリギリの道具立てと簡単さで書かれた「超入門書」です。

本書は2部構成となっています。第1部では初歩の初歩からスタートしながらも、「検定」や「区間推定」という統計学の最重要項目のゴールに最短時間で到達することを目指します。

▽「統計学」を効率よく、1ステップずつ理解するために、本書のスタンスは以下のようになっています。

●本書では、標準偏差(S.D.)を最も重要視する
●本書では「確率」をほとんど扱わない
●「95パーセント予言的中区間」を用いて説明
●数学記号も数学公式もほとんど使わない(出てくるのは中学数学だけ)
●穴埋め式の簡単な練習問題で独習できる
(引用終了)

完全独習 統計学入門」がお勧めの本と言われる理由は3つあるらしい。
一つ目は、中学生の数学レベルなので、微積分を知らなくても計算できる。
2つ目は、t検定で出てくる「区間推定」や「信頼区間」などを詳しく解説してくれていること。
3つ目は、穴埋め式の練習問題が豊富なこと。これが一番重要らしい。

先生曰く、統計学を習得するときには3段階ある。
最初は、統計学の概念を理解する。
次に、数多くの例を実際に手を動かして計算して習得する。
最後に、実践の場で統計学を使ってみる。

しかし、統計学を習得しようとする人を見ると、概念を理解するために理論的な本を読んで挫折したり分かった気になったりしている。
実際に具体例で手を動かしていないから使えない。

あるいは、いきなり実践の場で必要になったので、とにかく現場で使いまくるが、基礎が分かっていないので、正しくない結果を出したり、導かれた結果から結局何が言えるのか説明できない。

つまり、いずれも、実際に手を動かして計算して、統計学のコツを掴むのが重要ですよ、と言われた。

そんなわけで、この本をじっくり読んでみたいと思う。

| | コメント (0)

2022/06/04

経済学や心理学の実験で得られた理論は再現性があるのか?~内的妥当性と外的妥当性の問題点がある

経済セミナー2022年6・7月号 通巻726号【特集】経済学と再現性問題 | 日本評論社 を読んで、経済学や心理学の実験で得られた理論は再現性があるのか?という特集号が面白かった。
再現性の根本問題は、内的妥当性と外的妥当性の問題点があると思う。

経済学が理解できるようになってから、図書館から経済セミナーを借りて読む時が増えたけど、政治や経済、社会のニュースと直結しているので面白い。

ラフなメモ書き。

【1】Twitterのごく一部で話題になっていた「再現性問題」が経済セミナーの最新号に掲載されていたので斜め読みした。
「再現性問題」とは、心理学や行動経済学ですでに知られていた実験結果や通説が実は再現性がほとんどないぞ、という指摘。
プロスペクト理論の損失回避性、ナッジ政策も実は再現性がないと言う。
ナッジ政策が再現されないとなると、ナッジ政策を推進する政府の公共政策には意味がない、税金の無駄遣いということだから影響は大きい。

【2】再現性の根本問題には、内的妥当性と外的妥当性の2つの観点がある。

僕の理解では、内的妥当性とは、母集団の中のサンプルをランダムに採取したときに、どのサンプルも同じ傾向の統計データが取れて、同じ結論が出ること。
自然科学の実験であれば、これは当たり前。
しかし、心理学や経済学では、母集団の中のサンプルでは、個人の属性のばらつきが大きいので、同質な属性を持つ集団を抽出する方法が難しい。
心理学ならば個人にバイアスがかかってしまって、そもそも客観的なテストができているか疑問がある。
何度も同じようなテストをすれば、個人も学習してしまって、過去と違う結果を返すかもしれない。

一方、外的妥当性とは、ある母集団で得られた統計データの傾向や結果が、他の母集団にも適用して、同じような統計データや結果が得られること。
自然科学の実験であれば、米国であろうが日本であろうが場所に関係しないし、現代でも100年前でも同じ結果が出る。
しかし、心理学や経済学では、欧米と日本では文化や価値観が異なる部分は多いし、100年前の人間集団と現代の人間集団では価値観も行動も全く異なるから、同じ統計データが得られるとは限らない。

つまり、内的妥当性は同じ母集団の中で採取したサンプルが同質であるか、外的妥当性は異なる母集団にも同質性を適用できるか、という問題点だと思う。

【3】「内的妥当性の再現性問題」の問題点は、仮説統計検定のp値に関する論点だろう。
p値が5%の基準で、仮説を棄却したり、棄却できないと判断する場合、4.9%と5.1%ではどんな違いがあるのか?
5%前後の僅かな差が、統計的有意であるかどうか決めるのであれば、その基準はそもそも妥当なのか?
pハッキングという話につながるらしい。

この仮説統計検定が使えなくなると、心理学の実験がすごくやりにくくなるだろう。
心理学で主張した意見の根拠をどこに求めればよいのか、大きな論点になるだろう。

【4】「外的妥当性の再現性問題」の問題点は、たとえば、欧米では大量データで実験して正しいと得られた通説が、日本では通用しないのでは、という点だろう。

経済学であれ他の学問でも、欧米で得られた統計データがすごく多い。
そこで得られた知見は、欧米人という母集団で得られた統計データに過ぎず、日本人という母集団に適用して、その真理が通用するのか?
この外的妥当性が通用しないとなると、経済学の理論は使い物にならなくなる。
経済学は規範的学問であるから、こういうエビデンスがあるから時の政府はこういう経済政策を打ち出すべきだ、という指針を提供できなければ、学問としての意義がないだろう。

経済セミナー2022年6・7月号 通巻726号【特集】経済学と再現性問題 | 日本評論社 を読むと、他の母集団に適用すると再現できなかったら、再現できない原因を探る方がより生産的な議論になる、という話があって、なるほどという気付きがあった。
再現できない差異要因が見つかれば、その要因をさらに分析することで、経済学の理論を補強することもできるだろう。

【5】内的妥当性、外的妥当性の話は、「データ分析の力 因果関係に迫る思考法」にも紹介されていたが理解できていなかった。
経済セミナー2022年6・7月号 通巻726号【特集】経済学と再現性問題 | 日本評論社 を読んで、やっと言わんとすることが理解できた気がする。

データ分析の課題はどこにあるのか: プログラマの思索

データ分析の面白さはどこにあるのか: プログラマの思索

【6】こういう話を読むと、人文・社会科学の真理を追求するために、客観的な妥当性を説明できる理論的根拠をいかに作り出すか、が論点なのだろうと思う。
自然科学と違って、心理学や経済学などの人間や社会に関する学問は、学問として成り立つ正当性を説明しようと努力して四苦八苦しているんだな、といつも思う。

そして、過去の優れた哲学者は、その正当性に関する議論を自分たちの脳内だけで色々試行錯誤してきたが、現代ではITやプログラミングという技術があり、それを使えば相当の内容を深く議論できるようになった点が大きく異なる。
過去の優れた哲学者の活動そのものを我々は検証できる道具を持っている点がすごく重要だと思う。

以前も、そんなことを考えていた。

計量経済学における統計上の根本問題: プログラマの思索

Rによる計量経済学/計量政治学を読んでいる: プログラマの思索

経済セミナーが面白いと思う理由は、最新のIT技術を使うことで色んな実験ができることだろう。
ITと統計学が融合している学際的な場所になっている。
プログラミングさえできれば、統計学の理論、経済学の理論は、実際に動かしながら後から理解すればいいと思う。

機械学習で反実仮想や自然実験が作れる: プログラマの思索

| | コメント (0)

2022/04/23

Rによる計量経済学/計量政治学を読んでいる

「Rによる計量経済学/計量政治学」という書籍があったので読んでいる。
Rによる計量経済学 第2版」「Rによる計量経済分析」「Rによる計量政治学」「Stataによる計量政治学」の本だ。
門外漢なのでラフなメモ。

【1】計量経済学という学問の存在は「統計学が最強の学問である」で知ったが、計量「政治」学という学問があるとは知らなかった。
でも考えてみれば、ITと統計学を駆使して、あらゆる人文科学を自然科学の基盤の上に打ち立てようとする方向性は納得できるし、そういう事が可能になった時代なので、ちょっと才能がある人が一攫千金を求めて大量流入しているのだろうと思う。

「計量経済学」「計量政治学」という学問で最も興味があるのは、これらの学問の根本問題は何なのか、これらの学問の前提となる武器について制約条件はあるのか、という点だ。


【2】「Rによる計量経済学 第2版」を読んで、計量経済学では、最小二乗法が自然科学のようにそのまま扱えない問題があり、その問題を解決するために色んな統計理論を編み出して、経済学を分析するツールを整備している、という印象を持っている。
その内容は以前書いた。

計量経済学における統計上の根本問題: プログラマの思索

データ分析の面白さはどこにあるのか: プログラマの思索

データ分析の課題はどこにあるのか: プログラマの思索

結局、母集団が正規分布になっているという直感を元に普通の理論は打ち立てるわけだが、現実はそうとは限らないので、色々苦労している、ということなのだろう。

様々な確率分布は正規分布のバリエーションに過ぎない: プログラマの思索

【3】「Rによる計量政治学」「Stataによる計量政治学」では、政治学を自然科学のような実証科学の基盤として打ち立てるために、計量政治学の正当性を書籍の冒頭に述べている。
この部分が非常に素晴らしいと思った。

政治学を含む社会科学では3つの問題がある。

【3-1】1つ目は実証的問題。
つまり、定量データを収集し「事実から真実を語らせる」。
「経済の発展は民主化を促進するか」「国民は民主党を指示しているか」など。
実証的問題では、価値判断を行わず、事実に語らせる。
だから「良いと思う」「悪いと思う」「すべきである」という感想を付け加えるときもあるが、そういう結果は出せない。

【3-2】2つ目は規範的問題。
いわゆる「べき論」。
研究者の価値判断に依存しており、規範哲学や政策議論で一般的に見られる。
「死刑は廃止すべきか」「民主主義は裁量の政治形態か」「中絶は認められるべきか」など。
価値判断というバイアスが入るために、客観性に疑問が残る。
しかし、規範的問題を実証的問題に変換することで、間接的に科学的証拠で根拠を示すことは可能らしい。

規範的問題を実証的問題に変換する仕組みはこんな感じだ。
1つは参照枠組み(frame of reference)を変える。
「今の日本は美しい国か?」という問題は規範的問題だが、「日本国民は、今の日本を美しい国と考えているか」という問題に置き換えれば、実証的問題として検証できる。
実際、世論調査を行えばいいだけの話だ。
つまり、問題のフレームを実証的問題に変換してしまえばいい。

もう1つは、規範的問題の背後にある前提条件に注目すること。
例えば「消費税を減らすべきだ」という規範的問題に対し、その背景にはいくつかの前提条件が隠れている。
つまり、「消費税を減らせば、経済を刺激して消費が伸びる」「消費が伸びれば雇用が増えて好景気になる」「好景気になれば税収が増える」という因果関係が隠れている。
これらの実証的問題に変換して、個人の価値判断なしにその真偽を検証すればいい。
つまり、「消費税を減らせば、経済を刺激して消費が伸びるのか?」「消費が伸びれば雇用が増えて好景気になるのか?」「好景気になれば税収が増えるのか?」という実証的問題に変換すればいい。

3つ目は分析的問題。
現実に起こっている事実よりも抽象度の高い命題の妥当性を検討する。
数学の証明問題に近い。

【4】「パズルを探す」というアイデアは、計量政治学だけでなく、一般の自然科学にも使えると思った。
「パズルを探す」とは、「常識的にはAなのに、Bになっている」という不思議な現象を指す。
たとえば、欧米の民主主義国では、地方選挙よりも国政選挙の投票率が高いのに、日本では逆になっている。
また、アジア各国の国家予算に占める軍事費率を時系列的に見ると、殆どの国では外圧要因によって割合が上下するのに、日本では1%以内にとどまり一定である。
それらはなぜなのか?
そういう研究が色々あるらしく、面白い。

【5】「Rによる計量政治学」「Stataによる計量政治学」では「理論と仮説」という説明がある。
内容は、実証分析を行うためにはきちんとしたリサーチデザイン(研究設計)が必要であるという主張だ。
リサーチデザインのプロセスはこんな感じ。

パズルを見つける。
パズルを説明するための複数の前提条件を使って理論を作る。
理論から作業仮説を作る。
作業仮説を検証するためのデータを集める。
データを使って作業仮説を検証し、理論の妥当性を確かめる。

理論とは「原因と結果についての一般的な記述」である。
理論を作るためには、前提条件、つまり、本当かどうか分からないがとりあえず本当と考えることをいくつか想定する必要がある。
つまり、理論とは、「複数の前提条件の束」である。
理論構築という作業は複数の「もし」という仮定、前提条件のもとに成り立つ。
だから、説得力のある前提条件を設定する能力が必要になってくる。

良い理論の条件は、4つある。
誤りの可能性があること。
観察可能な予測が多いこと。
具体的であること。
単純であること。
これらは下記のように言い換えられる。

理論はその誤りを指摘され、反証されながら修正されて頑健になること。
つまり、反証可能性が高い理論の方が良い。

観察可能な予測が多いほど、反証可能性は高い。
予測が具体的であるほど、観察可能な予測が多くなり、反証可能性が高くなる。
社会現象を単純な因果関係にまとめることで、反証可能性が高くなり、良い理論の条件を満たす。

科学的には理論と仮説に違いはない。
ほとんどの理論は、とりあえず受け入れられた仮説である。
作業仮説とは、理論を検証するために理論から引き出された、特定の変数に関する論述である。
「もしこの理論が正しければ~のはず」と記述される。
作業仮説は理論よりも具体的で、理論から引き出される観察可能な予測について述べている。

作業仮説を作る作業化とは、理論の中の変数を計量かつ観察可能なより具体的な変数に置き換えること。
作業化において大切なことは、理論で使われている説明変数と応答変数にできる限り近く、それぞれの概念を適切に測定知る変数を選ぶこと。

【6】上記の内容を読んで思うのは、政治学や経済学のような本来は規範的問題を解決する学問をいかに実証科学に近づけようと苦労しているなあ、と思う。
確か、以前読んだ哲学入門の本で、「規範的問題はザイン(存在)からザルレン(あるべき)は出て来ない、規範的問題はザルレンから出発すべきだ」という一節を読んだことがある。

いくら、実証データで規範的問題を解こうとしても、人文科学では、時代と地域に依存する真理しか見いだせないと思う。
そういう数多くの困難な状況の中で、何とか規範的問題を実証的問題に変換して、ITと統計学を駆使して実証科学ぽく真理を見出そうとしているのだろう、と思っている。

実際、統計処理によって因果関係を真理として見出す技術も直近30年くらいで出てきているようなので、そういう技術を使って、計量なんとかという学問をどんどん生み出しているのだろうと思う。

機械学習で反実仮想や自然実験が作れる: プログラマの思索

経済学は信頼性革命や構造推定により大きく変貌している: プログラマの思索

| | コメント (0)

戦略/組織/人事と組織の経済学シリーズを読んでいる

「戦略/組織/人事と組織の経済学」という書籍があったので読んでいる。
戦略の経済学組織の経済学人事と組織の経済学・実践編という3冊の本だ。
リンクをメモ。

どの本も枕にできるくらい分厚い。
中身も濃い。
専門外の分野なので、サラッと読んで理解できる部分だけつまみ食いしている。

僕は、戦略論や組織論を経済学の理論で分析しようとする流れが好きだ。
理由は2つある。

1つは、経済学という人文科学の中でも最も自然科学に近く、理論に基づいて仮説検証して実証科学に近づけようとする姿勢に共感できるから。
もう一つは、経済学の理論や武器を導入することで、大量の実データに基づいて、プログラミングと統計分析を駆使することで、有益な結果を得やすいこと。
特に、R言語やPythonなどの統計処理、あるいは機械学習や深層学習モデルを適用できるので、色んな可能性を秘めていること。
特にプログラマであれば、すでにAPIやライブラリは揃っているので、実データさえあれば、こういう本の理論に従って、新たな知見を生み出すこともできる。

面白い世の中だなと思う。

組織論の背後には経済学の概念があるという仮説: プログラマの思索

データ分析の面白さはどこにあるのか: プログラマの思索

データ分析の課題はどこにあるのか: プログラマの思索

統計学の考え方に関する感想: プログラマの思索

IT企業が経済学者を雇い始めた理由が面白い: プログラマの思索

経済学は信頼性革命や構造推定により大きく変貌している: プログラマの思索

ビジネスの基本戦略には規模の経済があるのではないか: プログラマの思索

機械学習で反実仮想や自然実験が作れる: プログラマの思索

Pythonデータ分析試験、Python基礎エンジニア試験に合格した感想~Pythonの機械学習や深層学習が目指すのは因果推論ではないか: プログラマの思索


| | コメント (0)

2022/04/10

『ものづくりの数学』の感想 #もの数

今朝、講演会『ものづくりの数学』に参加してきた。
感想をラフなメモ。
全くロジカルでないメモ。

【参考】
講演会『ものづくりの数学』 - connpass

講演会のテーマは、『ものづくりの数学のすすめ 技術革新をリードする現代数学活用法 | 松谷茂樹』の著者の先生に、企業の技術者と理論物理・純粋数学の科学者という2つの立場から、ものづくりの現場に現代数学をどのように導入して効果を上げるべきか、という内容だった。
内容は相当難しいと思う。

改めて『ものづくりの数学のすすめ 技術革新をリードする現代数学活用法 | 松谷茂樹』を読み切ってみると、読者の対象は、大学で純粋数学や理論物理、理論化学を学んだ後、社会人では一般企業の技術者や管理者、IT業界の技術者になった人だろうと思う。
大学の理論研究の経験と一般企業でのビジネス経験の両方がなければ、この本の意義は理解しにくいだろうと思う。

なぜなら、『ものづくりの数学のすすめ 技術革新をリードする現代数学活用法 | 松谷茂樹』の内容はすごく抽象的だからだ。
実際、数式は出てこないけれど、現代数学がメーカーの製品開発の背景にあるという経験がなければ腑に落ちないだろう。
また、ポパーの反証主義、トーマス・クーンのパラダイム論やフッサール現象学、ソシュールの記号論などの概念がふんだんに引用されるので、なぜこの知識が必要なのか、という意図がつかめないだろう。
専門の科学者集団はパラダイムに囚われすぎているという先生の指摘は斬新ですごく面白かった。

僕が感じた感想は3つある。

【1】今の日本の弱点は、ハードウェアに付加価値をつける点では新興国の韓国・台湾・中国に追い越され、ソフトウェアやシステムで付加価値をつける点では、米国に負けてしまっていること。
その問題を解決する時に、現代数学が役立つよ、という主張だった。
その製品開発のフェーズに現代数学を使ってモデル化を図って、理論の裏付けを持った技術に育て上げるような方向性だろうか。

だが、ハードウェアの付加価値に差別化を図ろうとする場合、より尖った製品を開発するのは困難だろうと思う。
そのマーケットがそもそも売上や利益が出るような規模なのか、そこにマーケティングを実施して掘り起こせるのか。
その市場で売上を確保できる期間が十分にあるのか。
今の時代は、世界の工場である中国にほとんど製造拠点を持って行かれているので、日本も米国のように、おそらくAppleのように安いハードウェアにソフトウェアやブランドという付加価値を付けて高値で売るようなビジネスに行かざるを得ないのではないか、と思った。

すると、ソフトウェアやシステムで付加価値をつけるフェーズで、現代数学とコンピュータサイエンスを組み合わせて、技術の差別化やビジネスモデルの構築を図る、みたいな方向性が王道になるのではと思う。
しかし、日本から世界に通用するプラットフォームビジネスを生み出せるのか。
日本で現代数学も使えるようなIT技術者を育成できるのか。

先生のお話を聞くと、日本の大学という制度はもう時代に即していないんだなと改めて思う。
明治から昭和までのやり方を未だに大学で続けようとしているが、令和の時代では違うでしょ、みたいな感じ。

akipiiさんはTwitterを使っています: 「今聞いているけど面白い。今の日本の大学という制度は時代に即していないと先生が言い切るのがすごいね。大学もお金を集めないとやっていけない現状、理論の専門家が企業に必要なのに大学が人材供給できていない現状とか色々あるだろうな。#もの数 講演会『ものづくりの数学』 https://t.co/8ijd5ko08g」 / Twitter

【2】先生のお話で面白かったのは、純粋数学や理論物理などの科学者の専門集団はパラダイムに囚われすぎていて、彼らだけに通じる基準と運用で維持し続けられているが、常にその存在意義の正当性を問われているという指摘だった。
自分も大学で数学の研究に従事していた時があったので、その雰囲気がそういう観点で見られているのが斬新だった。

ものづくりの数学のすすめ 技術革新をリードする現代数学活用法』にかかれているトーマス・クーンのパラダイム論の解釈を読むと、科学者という専門集団は真理を追いかけているように見えるが、すごく閉鎖的な集団なんだよ、という意見に聞こえてしまうのが不思議だった。

akipiiさんはTwitterを使っています: 「問題解決者よりも問題定義者が重要。学会はパラダイムに囚われすぎている。ビジネスの現場で抱えている問題は既存の学会や理論で解決できるとは限らず、むしろ無い場合が多い。現場の問題に忠実に認識してその問題を数学で分解して定義し、その一つを大学へアウトソースして解決してもらうとか #もの数」 / Twitter

一方、ビジネスマンは企業の現場で解決したい問題がすでにある。
その問題は理論や学術面で意義は小さいかもしれないが、その現場ではすごく価値がある。
そういう問題を解くのに現代数学という理論を使うとより効果的だよ、と。
そして、大学での理論研究と企業の現場の違いを認識して上手く利用したほうがいいよ、と。

akipiiさんはTwitterを使っています: 「ビジネスと理論のような大学の場の双方を知るような人材をどうやれば育てられるか?先生曰く。ビジネスマンは大学の弱点や問題点を知るのが大事。そんな話を聞くと、日本の大学は時代に即していない感じがするね。 #もの数」 / Twitter

特に、理論と技術の間にはタイムラグがある。
このタイムラグはいわゆる、死の谷、魔の川、ダーウィンの海に相当する。
すると、理論を研究したり使う時も、その技術がビジネスに使えて実際に威力を発揮できるには、いくつかのハードルを越える必要がある。

akipiiさんはTwitterを使っています: 「#もの数 フィリップスを作ったカシミールの考え方。科学と技術は違う。資本主義企業が科学を引っ張るというモデルを経営者は持つがそうではない。量子力学が生まれた時、ビジネスとも関係なく、半導体やコンピュータのビジネスに繋がることは誰も知らなかった。」 / Twitter

【3】なぜ現代数学の理論が企業の技術者やIT技術者に求められるのか?
その理由は、現場の問題を解決しようとする時、既に知られている技術や小手先の知識だけでは対処できず、20世紀以後の現代数学の理論を最終的に使わないといけない場面が出てきているからだろう。

例えば、線形代数の利用シーンが連立方程式や固有値計算だけではなく、代数・幾何・解析・確率論などの色んな場面で使われている。
特に、線形代数の理論は、ニューラルネットワークや機械学習のモデルの計算ではよく使われている。

akipiiさんはTwitterを使っています: 「先生曰く。現代数学は線形代数化している。現代数学は幾何学化している。代数幾何学も線形代数にすぎない。色んな所で線形代数が出てくるのにどの書籍にも解説していない。だから出版した、と。 #もの数」 / Twitter

akipiiさんはTwitterを使っています: 「平鍋さん曰く。行列はAIや機械学習で解きたいデータを表現していて、それを線形代数の理論で解くものと思っていた。なるほど、そういう見方で考えれば画像認識技術にAIが使われる意味が分かる気がする。 #もの数」 / Twitter

先生の話では「位相」という言葉がよく出てきて、どういう意味で使っているのか、当初は理解しにくかった。
ものづくりの数学のすすめ 技術革新をリードする現代数学活用法 | 松谷茂樹』を読んでみると、いろんな事象を分類する基準、その構造の近さを同値関係で表していると思った。

akipiiさんはTwitterを使っています: 「位相とは何ですか?という質問に先生曰く。数学者は点ではなく部分集合で考える。だから、関数単体で考えるのではなく、関数の集合で考えて、εδ論法でその構造の近さを同値関係で測定して、同じ・違うで分類するわけか。工業化学をやった人はこの考え方が分かってないと言われた。 #もの数」 / Twitter

代数幾何学が楕円曲線をドーナツの形で分類するように、いろんな事象を数学で捉える時、点ではなく部分集合でカテゴリ化して、εδ論法でその構造の近さを同値関係で測定して、同じ・違うで分類するという発想と思えた。
たぶん、現代数学を知らない人向けにそういう意味で使っているのかな、と想像した。

【4】『ものづくりの数学のすすめ 技術革新をリードする現代数学活用法 | 松谷茂樹』はとても良い本と思うけれど、現代数学の知識を適用する場所は、メーカーの現場の問題よりも、経済学に関する問題の方がよりインパクトがあるのではないかと僕は思っている。
なぜなら、数学者や物理などの科学者は1990年代頃から経済学や金融にシフトしていること、数学の理論を使えばIT技術と経済学や金融がすごく相性が良いことが分かってきたからだろうと思う。

講演会の参加者には、データサイエンスに詳しい方が割と多い気がしたけど、その人達のバックグラウンドはむしろ、経済事象やマーケティング事象などの社会科学の方が近い気がする。

IT企業が経済学者を雇い始めた理由が面白い: プログラマの思索

計量経済学における統計上の根本問題: プログラマの思索

みんなのPython勉強会#65の感想~社会変革の鍵はIT技術者にあるのかもしれない: プログラマの思索

経済学は信頼性革命や構造推定により大きく変貌している: プログラマの思索

機械学習で反実仮想や自然実験が作れる: プログラマの思索

経済数学の直観的方法の感想: プログラマの思索

「推計学のすすめ」「経済数学の直観的方法~確率統計編」の感想: プログラマの思索

僕の問題意識はちょっと別の方向にあるかもしれない。

| | コメント (0)

2022/02/09

テスラが従来の自動車メーカーと異なるところは工場までソフトウェア化すること

テスラが従来の自動車メーカーと異なるところは工場までソフトウェア化すること、というツイートを見つけたのでメモ。
自分は理解できていないので、疑問点も一緒に自分用のメモ。
以下は自分の直感を適当に書いたので、論理的ではない。

【参考】
akipiiさんはTwitterを使っています 「中島聡さんのメルマガでテスラの凄さをよく解説されてるがピンとこなかったが、このスレッドで意味がすこし分かる気がした」 / Twitter

ウミガメ@闘え日本の自動車メーカーさんはTwitterを使っています 「テスラ・イーロン真理教の人も、トヨタ・日本車信仰の人もまあみんな落ち着いて。相手を知らず自分の信じたい情報だけ見てても何の進歩もありませんよ。まず日本の自動車メーカーの何がすごいか理解しましょう。テスラの話はその後です。日本メーカーの強さは簡単に言うと、」 / Twitter

テスラが従来の自動車メーカーと異なるところ - Togetter

【0】中島聡さんのメルマガも合わせて考えると、テスラが自動車製造にソフトウェアを持ち込んだメリットは3つあると思う。

週刊 Life is Beautiful 2022年2月8日号:自社製チップと粗利益率 - まぐまぐ!

【1】1つ目は、メーカーにも関わらず、売上高粗利益率が圧倒的に大きいので、どんどん新設備に投資できる財務基盤があること。
普通の自動車メーカーの粗利益率は10%台であり、トヨタですら16%くらい。
一方、アップルは40%、テスラは30%の粗利益率を持つ。
ソフトウェア専業のマイクロソフトは80%の粗利益率らしい。

売上原価には、1台の自動車を作る部品、原材料、人件費、設備の減価償却も含む。
もちろん、外注した部品代金、外注した車載半導体、外注した車載プログラムの開発費用も含まれる。
ソフトウェアの売上原価は、所詮、電気代とサーバーの減価償却と人件費くらいなので、製造業に比べれば圧倒的に低い。

中島聡さんのメルマガによれば、テスラやアップルはハートメーカーでありながら、自社で製品設計して、その製品を圧倒的に安く作るために韓国や台湾の製造専業メーカーに製造委託する。
だから、圧倒的に安く作れるので、売上原価は小さい。
一方、自社では、M1チップ、あるいは、自動運転の学習エンジン専用の半導体まで製造する。

そこで、アップルなら自社のOSやiTuneプラットフォーム、テスラなら自動運転のソフトウェアをオプションで付けて、安いハードに付加価値を付けて高く売りつける。
ユーザは、その利便性を求めるし、顧客満足度を高めることにより、ブランド価値を高めて、ロイヤルティを持たせる。
だから、メーカーでありながら粗利益率が圧倒的に高い。

でも、財務基盤の仕組みが分かっていたとしても、ソフトウェアの技術力が高くなければ、そう簡単に真似できないだろう。
ソフトウェア開発は、優秀な人材に依存するものであって、マネーの資本を注ぎ込んでも規模の経済は働かないから。

【2】2つ目は、工場の生産ラインそのものもソフトウェアでバージョンアップしやすくすることで、生産性が圧倒的に高いことだと思う。

ウミガメ@闘え日本の自動車メーカーさんはTwitterを使っています 「イーロンは車両設計より工場の設計の方が100倍難しいと話すほどで、伝統OEMの常識から外れ、1-2年で主要設備を入れ替えたり、プラットフォームの大幅改善を行ったりします。発売時には既に数年古い技術の車となるOEMとは異なり、テスラからは常に最新の車が出てきます。参考: https://t.co/wA7liu1n1B」 / Twitter

ウミガメ@闘え日本の自動車メーカーさんはTwitterを使っています 「彼らのソフトの力がこうした離れ業を可能にしており、伝統OEMは全く理解できていません。VWも隣町にGiga Berlinが現れて初めて自社の生産性が完全にテスラに劣ると気づいたのですhttps://t.co/Rmbra4XoZN テスラは21年、トヨタを抜いて北米で最も生産性の高い工場になりましたhttps://t.co/QPx0tuLxa3」 / Twitter

ウミガメ@闘え日本の自動車メーカーさんはTwitterを使っています 「何年も同じラインのままの伝統OEMと1-2年毎にラインが進化するテスラ。既に上海工場はフリーモント工場より高い生産性を実現しており、車両の質までも上がってきています。そして来たるベルリン、テキサス工場…競争力のない工場をいくつも抱える伝統OEMと比べいかにテスラが筋肉質かわかります。」 / Twitter

ウミガメ@闘え日本の自動車メーカーさんはTwitterを使っています 「製造が進化する為、車両の質も日々上がり続けます。Model3の航続距離が突然伸びたり、価格が下がったりするのはこのためです。更に彼らはOTAを通じて購入後も常に車両性能を更新します。購入時既に古く、どんどん古くなる車と、買った時常に最新でその後も最新を維持するテスラ。どちらを選びますか。」 / Twitter

この辺りは僕は詳しくないのでよく分かっていない。
OEM生産といえば、スーパーがよくやるプライベートブランド商品を外部メーカーに委託する生産のイメージ。

テスラの生産ラインは1~2年でどんどん進化するらしいが、トヨタのような自動車メーカーの生産ラインは4~5年おきのように古いままなのだろうか?
今、スマート工場や工場のDXが叫ばれているが、日本の工場は古い製造ラインを数年も放置したまま製造しているのだろうか?
そんなに日本の工場はアナログなのだろうか?

このツイートが正しいならば、フォルクスワーゲンのようなドイツ企業、GMのようなアメリカ企業も同様に、彼らの工場の生産ラインは古くて生産性が低いのだろうか?

【3】3つ目は、EV製造に関わるソフトウェアは、いろんな事業とシナジー効果が大きいこと。
自動運転のソフトウェアの開発の為に、機械学習専用の半導体チップを製造したり、バッテリや充電施設を強化したり、果てはスペースXのような宇宙事業にまで、シナジー効果がある。

ウミガメ@闘え日本の自動車メーカーさんはTwitterを使っています 「こうした強さを支える根幹がソフトウェアです。ソフトの重要性を理解しているテスラは、工場のデジタル化はもちろん、半導体チップから内製し、自社で自動運転トレーニング用のスパコン(Dojo)まで開発しています。ここまでやってる企業は他にいません。Dojoの計算能力は日本のスパコン京を凌駕します。」 / Twitter

ウミガメ@闘え日本の自動車メーカーさんはTwitterを使っています 「また、80台ほどしか販売してないホンダレジェンドや試験走行のWaymoやCruiseと異なり、テスラは数百万台の実車両からのリアルデータが収集・学習され、より堅牢な自動運転ソフトウェアの開発に寄与しています。今や取り返しのつかないほどの差になってきています。1点彼らの自動運転思想の特徴として、」 / Twitter

ウミガメ@闘え日本の自動車メーカーさんはTwitterを使っています 「LiDARを廃しカメラのみで自動運転を実現しようとしている点があります。これについては賛否あり、私個人は難しいのではと感じています。いずれは低機能低価格のLiDARと組み合わせるなど妥協策が出てもおかしくありません。さて次はエネルギーです。手短にいきます(疲労)」 / Twitter

中島聡さんのメルマガでは、人間は2つの目というカメラで運転しているのだから、自動運転技術はカメラだけで十分であって、LiDARにまでコストを掛ける必要もない。
LiDARをつけたソフトウェア開発は余計に複雑になるから、と書かれていて、なるほど、と納得した。

ウミガメ@闘え日本の自動車メーカーさんはTwitterを使っています 「ソフトの強みは当然自動運転技術にも生きてきます。全部書くと長くなるので一例を紹介します。例えばラベリング。伝統OEMは未だに多額で外注したり、何ヶ月もかけて人の手で行なっていますが、テスラでは同じ規模のラベリングを自動で1週間ほどで実施してしまいます。悲しいほどの差です。」 / Twitter

このツイートもよく分かっていない。
OEM生産のラベリングとは、所詮、プライベートブランド商品に製造ラベルを貼り付けるだけだと思う。
自動車メーカーのラベリングは数ヶ月もかかるような手間がかかるものなのか?
ラベルを大量生産する仕組みを今まで作っていなかったのはなぜなのか?

【4】このツイートを読んで思うことは、ハードに対するソフトウェアのメリットは、プログラムの頻繁なバージョンアップによって機能強化できることにより、ユーザにとっては、古いハードであっても、いつでも新しい機能を使えて利便性が高まることだ。

つまり、ハードは一度リリースしたら変更できない。それは当たり前。
一方、ソフトは一度リリースしても、ファームウェアのアップデートやソフトウェアのバージョンアップによって、手持ちの製品がいつでも最新版の製品に生まれ変わることだ。
それにより、ユーザの生産性もどんどん上がる。

そういうソフトウェアの特徴を生かして、工場の生産ラインにも反映して、生産ラインを制御するソフトウェアをどんどん進化できるような仕組みを作っているのだろうと思う。
だから「工場も一つの受注製品」という主張が成り立つわけだ。

DevOpsやアジャイル開発では、コミュニケーションが大事とよく言われるが、僕はそんな所にイノベーションとか価値があるわけではないと思う。
むしろ、製造とリリース後の保守も含めて、全てをソフトウェアで一貫して制御することにより、1人のプログラマが全ての工程をコントロールできるようになったことが大事だと思う。

従来であれば、各工程の専門家による分業体制でしか製造できなかった製品が、たった1人あるいは数人のソフトウェア開発チームで製造できるようになったこと。
ビジネスモデルは、規模の経済からソフトウェアによる少人数のチーム開発へ変革された。
たぶんそこに、ソフトウェアが従来の製造業と異なる価値をもたらしているのだと思う。


| | コメント (0)

2022/01/30

tidyDataの考え方はデータモデリングの関数従属性排除に似ている

tidyDataの考え方はデータモデリングの関数従属性排除に似ているなと気づいたのでメモ。
とりとめもないラフなメモ。

【参考】
整然データとは何か|Colorless Green Ideas

整然データ(Tidy Data)とは何か?データ分析に必須の「型」を解説【データ分析力が上がる】

整然データ(tidy data)とは | IT工房|AI入門とWeb開発

16. 整然データ構造 | 私たちのR: ベストプラクティスの探究

僕の理解では、tidyでないデータは、ピボットテーブルで集計したデータ。
たとえば、変数に1月、2月のような時系列項目とか、オレンジ、アップルのような種類をばらした項目がある。
データモデリングならば、カラムに繰り返し項目が含まれているイメージ。

一方、tidyなデータは、ピボットテーブルでばらす前のデータ。
だから、Rのtidyverseライブラリには、pivot_widerでピボット集計できるし、pivot_longerでピボットテーブルを元に戻す操作がある。

そろそろ覚えるRで縦持ち横持ち変換?pivlot_loger、pivot_wider? - 医療職からデータサイエンティストへ

厳密にはデータモデリングの関数従属性排除とは異なるが、tidyでないデータには繰返し項目というカラムが含まれているので、カラムそのものを本来の項目でまとめて、関数従属性を排除していくイメージに似ていると感じた。

つまり、tidy dataという設計思想は、データモデリングにおいて、変数同士の関数従属性を全て排除して最小限の変数に正規化するイメージに似ているなと思った。
ちょうど、英語・数学・国語などの受験科目の得点分布のデータがあった時、受験科目を変数とみなし、その変数同士の相関関係を排除していったら、文系と理系の科目という2種類の変数に分類できる、みたいな感じに近い。

この発想を使うといろいろ脳内実験もできる。
人間の能力とは何か、を測定する時、英語、数学、国語、社会、理科のような科目、あるいは、知能診断で使うような暗記力、判断力、3次元の物体構想力、絵で捉えるイメージ力などの評価結果を、数多くの人からアンケートで収集し、それらの変数同士の相関関係や因果関係を見て、本来の知能の在り処を推定する、みたいなイメージ。

最初は、仮説は持っているだろうが、ある程度推測できる説明変数を数多くサンプルとして集めて、その変数の相関関係で関数従属性を排除していくと、最終的に本質的な説明変数が求まる、みたいなイメージかな。

tidyデータのアイデアは面白いし、そういう計算をR言語のtidyverseで簡単に操作できるのも面白そう。

R言語はやってみたいと思って取り掛かるものの、基本ライブラリは癖がある気がして、どうも慣れなかった。
やりたい目的はあるのに、そこにたどり着くために、APIの引数とかAPIの種類を覚えるのが苦痛で仕方なくて、自分は全然プログラミングの才能がないなあと思ってた。
でも、tidyverseライブラリのサンプルを見ていたら、これならようやく取りかかれそうと思った。

Rのtidyverseパッケージのパイプ演算子は、JavaやRubyのメソッドチェーンと同じだね。
Unixのパイプと同じ。
一時データを上書きすることなく、データをこねくり回すイメージ。
SQLの代わりに使いたくなってきた。

| | コメント (0)

2022/01/09

プログラミングしてる時はでっかいピタゴラ装置を作ってるみたいな感じ

「プログラミングしてる時はでっかいピタゴラ装置を作ってるみたいな感じ」というツイートを見つけたすごく共感した。

【参考】
Rui UeyamaさんはTwitterを使っています 「少数派の意見かもしれないけど、プログラミングしてるときはでっかいピタゴラ装置を作ってるみたいな感じで、数学が関係ある感じがあんまりしない。」 / Twitter

結城浩さんはTwitterを使っています 「@rui314 デバッグしてるときと証明読んでるときはなんか似てる。素直に読みつつ穴探ししてるみたいな感覚。」 / Twitter

英語勉強中さんはTwitterを使っています 「@rui314 めちゃくちゃわかります。僕は書いてるとき数学のことなんか考えてないです」 / Twitter

akipiiさんはTwitterを使っています 「プログラミングはこの感覚に近いな」 / Twitter

プログラミングは「ブロックを組み合わせる」感覚に似ている: プログラマの思索

「プログラミングのできる羊とできない山羊を区別する方法」の記事のリンク: プログラマの思索

「60%の人間はプログラミングの素質がない」記事のリンク: プログラマの思索

プログラマに必要なスキル: プログラマの思索

プログラムを書いている時、数学の知識を使っているかと言われるとそうではない気がする。
むしろ、APIやFWのライブラリをまずは頭に叩き込んでおき、自分が実装したい目標に対して、それらAPIをどうやって組み合わせて意図通りに動かすか、に注力している。
ちょうど、ブロックで巨大な積み木を組み立てている感じに似ている。

だから、「プログラミングしてるときはでっかいピタゴラ装置を作ってるみたいな感じ」にはとても共感するし賛同する。

たとえば、RDBでSQLをデータ抽出したり、機械学習や深層学習のライブラリを使って母集団を推定したり、マーケットを予測したり、Web上の通信を暗号化したりする時、数学の理論はAPIやライブラリの中に隠れてしまっている。
それらライブラリを呼び出すだけで、高尚な理論を使えるのは素敵だが、だからと言って、プログラミングが楽になっているわけではないと思う。

一方、やりたいことを実現するには、PythonやRDB、Webサーバー、Dockerなどの開発環境を揃えて、Githubで構成管理し、CIツールでビルド&デプロイできるようにして、Jupyter を動かせるようにしたり、IntelliJなどの開発環境を構築したり、とプログラミングの前準備がすごく多い。
普通の初心者はこの部分で挫折するのだろうと思う。

僕自身、新しい環境を揃えてプログラミングスタイルを覚える時は割と苦痛に感じる時もあった。
Ruby on Railsもそうだし、AWSでの環境構築、GNS3でのCiscoルータ&スイッチの環境構築の時もそうだ。
Python+Anacondaはまだマシだった。
プログラミングは奥が深い。

| | コメント (0)

2021/11/23

質的データの分析方法は統計処理が全盛の今でも使える

情報生産者になる (ちくま新書) | 上野千鶴子」を読んだらとても良かった。
卒論や修論を書く人にとっては論文の書き方を学ぶことができる。
それ以外に、プログラミング言語を使ったデータマイニングという量的データ分析ではなく、KJ法による質的データ分析の解説も非常に興味深かった。
気づきをメモ。

【1】社会科学の論文を書くには、アンケートや経済データなどで、大量データを統計処理する分析手法が流行りだ。
今なら、色んなプログラミング言語で統計処理ライブラリを使えば、いろんな観点で分析できる。
ビジネスの副産物として発生する大量データをクラウドのML基盤に乗せて、機械学習や深層学習をさせればいい。

しかし、「情報生産者になる (ちくま新書) | 上野千鶴子」では、そういう量的データ分析ではなく質的データ分析を好む、という一節があり、興味深かった。曰く。

第1に、質的データ分析は、相対的に少ないデータ量で数多くの発見が得られるから。
第2に、質的データ分析による帰納的データ分析の結果は、仮説を裏切る発見に至る確率が高いから、と。

量的データ分析では、平均の範囲に含まれないデータは外れ値として除外されてしまう。
しかし、質的データ分析では、外れ値や逸脱した現象は、他の大多数の類型を説明できる重要な対照サンプルになる。
この対照サンプルは、平均値である大多数の類型の特殊性を照らし出す意義がある。

この意見は面白かった。
サンプル数が少なくても、質的データ分析では意味ある仮説、主張を生み出せるわけだ。

【2】質的データ分析には、KJ法を使う。
僕は、「情報生産者になる (ちくま新書) | 上野千鶴子」を読んで、初めてKJ法の凄さを理解できた気がした。

質的データ分析の対象データでは、インタビュー記録、フィールドノートに書かれた観察データ、などの主観が入った文章だ。
まず、この文章データを、言説、つまり意味ある文体にばらす。
これを情報ユニット(単位)と呼んでいる。
情報ユニットはKJカードに1枚ずつ書き込む。
例えば、1時間のインタビュー記録で、情報ユニットのKJカードが100枚ぐらい作られるイメージ。

インタビュー記録に沿って作られたKJカード群は、その時系列に従って並べて写真かコピーを撮っておく。
後で比較するためだ。

次に、情報ユニットを脱文脈化するために、KJカードをばらばらにして、カテゴリ化する。
どうやらカテゴリはメタ情報であり、何らかの価値観に従って分類する。
このカテゴリが、たとえばユングの心理的類型みたいなものと思う。
このカテゴリ、メタ情報の名前付けが重要。

次に、集めたメタ情報(カテゴリ)を似ている、近い、遠いなどでKJカードで配置する。
マッピングと呼ぶらしい。

マッピングが終われば、チャートにする。
要因連関図というらしい。
メタ情報でグルーピングされた一次情報、メタ情報のKJカード同士で、因果関係、対立関係、相関関係で関係付ける。
このチャートを作ることで、メタ情報のストーリーを認識できる。

ここで、他と繋がりのない単独のメタ情報が生まれる時がある。
これを離れ小島、離れザルと呼ぶらしい。
KJ法は京都学派の霊長類学者がよく使っていたので、こういう概念が生まれたらしい。

ここまでで、1次情報の情報ユニット、2次情報のメタ情報が整理できた。
このチャートをもとに、ストーリーを組み立てる。
つまり物語化。
チャートの中に論理関係が含まれているので、それらの情報を元にした物語を作り、その物語が論文の本論部分になる。

【3】このやり方ですごいと思ったのは、質的データ分析にKJ法を使った論文では、論文の本論部分に1次情報である情報ユニットを下線部で引くと、ほとんどが引用された状況になっている点だ。
つまり、本論で示された事実や主張は、1次データから引用されているので、信憑性が高いことになる。

量的データ分析とは異なるが、こうやってKJ法を使って論文を書くのだ、という点は参考になった。

【4】「情報生産者になる (ちくま新書) | 上野千鶴子」ではKJ法の結果をさらに使い倒す。
基本はマトリクス分析だ。

たとえば、インタビューで何度も使われる同じ質問と、メタ情報のマトリクスを作る。
縦軸が、質問つまりケース。
横軸がメタ情報つまりコード。
ケースとコードのマトリクスを作る。

ケースとコードのマトリクスで表すと、特定の事例には出てくるが、他の一般事例には出てこないコードが出てくる。
この解釈には3つあると言う。

第1は、1次情報が不完全だった。
これは、もう一度1次情報を採集すればいい。

第2は、論理的にありえない。
第3は、論理的にはあり得るが経験的に登場しない。

ここで重要なのは第3のケースだ。
フーコーは、ある言説空間の中で、特定の言語は生産されるが、そうでない言説は原理的にありうるが登場しない可能性を示唆した。
つまり、あるテーマの現象に対し、その言説空間の歪みや傾向は、今までにない新しい仮説を生み出す可能性が高い。

他に、ケース分析、コード分析も行い、最後に報告会で分析結果を報告した時に、メンバーからコメントをもらう。
そのコメントという1次情報をKJカードで分類し、同じように分析する。
これはメタメタ情報と呼ぶらしい。
この内容が結論や主張に出てくる内容になりやすい。

【4-1】「第3は、論理的にはあり得るが経験的に登場しない」ケースは何か?
これが統計データの平均範囲に収まらない外れ値に相当する。
この外れ値という例外ケースを深く突き詰めると、新たな知見が得られる。

情報生産者になる (ちくま新書) | 上野千鶴子」ではこんな例があった。
医療現場の看護婦である研究者が、生体肝移植の成功可否とドナーの満足度について研究した考察がある。

医者は生体肝移植の手術しか興味はないし、患者以上に長く生きるドナーのその後の観察はない。
しかし、長期に渡る患者とドナーの関わりをたどると、自分の生きた臓器を提供したドナーの側に実は様々な問題が残っている、ということが分かったらしい。

マトリクス分析すると、生体肝移植が成功してドナーも肯定的なケース、生体肝移植が失敗してドナーも否定的なケースは想像可能な当たり前のケースだ。
一方、生体肝移植が失敗したけれど、ドナーは肯定的に捉えたケースがあったという。
さらに、生体肝移植が成功したけれども、ドナーは否定的というレアケースもあったという。
これらのケースがまさに「第3は、論理的にはあり得るが経験的に登場しない」ケースに相当する。

著書にはこれ以上書かれてないけど、想像すると、生体肝移植が失敗したけれどドナーは肯定的に捉えたケースは、自分はよくやった、尽くしたかった、というドナーがいたのだろう。
一方、生体肝移植が成功したけれども、ドナーは否定的というレアケースでは、ドナーの方が体調を崩し、自分の寿命を縮めてしまって否定的に捉えた、とか、患者とドナーの関係が著しく損なわれた、ということが推察される。

そういうケースがなぜ発生したのか、インタビューを元にKJ法を洗い出してくれるわけだ。

【5】ここまで来たら、後はこの分析結果を元に、きみは何を言いたいのか?をまとめる。
ここが研究の醍醐味だろう。

研究者は、データに語らせる、としばしば呼ぶが、本来は、データに代弁させるように使わなければならない。

【6】以上が質的データ分析のやり方だが、質的データの分析方法は統計処理が全盛の今でも使えると思う。
特に、インタビューや観察データが1次情報の場合に有効だろうと思う。
この使い方についてもいろいろ考えてみたいと思う。

| | コメント (0)

2021/10/10

計量経済学における統計上の根本問題

Rによる計量経済学 第2版を読んでいたら、興味深いことが書かれていたので、考えたことをメモ。

【1】経済学の実証が物理や科学の実験と異なる点は、経済現象は実験室で観察できないこと。
社会や人間をこちらの指示通りに配置したり、再現性があるように何度も繰り返し実験することができない。
採取できた政府の統計データすら、すでにバイアスが紛れ込んでいる。

また、取得できるデータは受け身になっている。
自分たちから積極的にデータを採取することは、昨今のSaaSやSNSのおかげで、大量のデータをビジネスの副産物として採取できる。
しかし、それらはまだ一部に限られていて、世の中にあふれているデータを元に、自分で収集して分析する場合も多い。
すると、それらのデータにはバイアスが紛れ込んでいて、そのままでは使えない。
パネルデータ分析に使おうとするなら、その前提に合うようにデータを精製しなければならない。

Rによる計量経済学 第2版で最も考えさせられたことは、経済現象の分析にあたって、誤差が古典的最小二乗法でおかれる仮定を満たさない場合が多いということだ。
よって、生データのままでは、回帰分析すら行えなくなる。

実際、新聞やネットニュースでいろんな統計データを元にした意見や主張が出てくるが、そもそも古典的最小二乗法を満たさない場合の考慮を踏まえて、正しい推定が行われているのか、疑問に思える場合がかなり多い気がする。
奥村先生のツイートを読んでいると、そう感じる時がある。

(3) Haruhiko OkumuraさんはTwitterを使っています 「RT @M123Takahashi: 通常の最小二乗法では,誤差項の正規性の仮定が満たされていなくても,中心極限定理により,大標本なら統計的推測に問題は起きないとされています.具体的に標本がどれぐらい大きければよいかについて,この論文では1変数あたり観測値10以上あればよいとしています.(続く)」 / Twitter

【2】古典的最小二乗法の仮定は下記の5つがある。

1・誤差はプラス側やマイナス側に偏らない
2・誤差同士の大きさに関係がない。(自己相関なし)
3・誤差の大きさの平均は一定。(均一分散)
4・誤差と説明変数の大きさに関係がない
5・誤差は正規分布に従う

しかし、経済現象を考えると、この5つの過程を満たさない具体例が簡単に見つかる。

1・誤差はプラス側やマイナス側に偏らない

生産における投入と産出の関係を分析する時に発生する問題。
投入量と産出量には物理的関係がある。
生産プロセスでは何らかのロスが発生するので、物理的生産可能量を基準にすると、回帰分析の誤差はマイナス側だけ発生する。

2・誤差同士の大きさに関係がない。(自己相関なし)

時系列データを分析する時に発生する問題。
データの発生に順番があるので、過去データが直近であるほど現在のデータに影響を与えてしまい、後のデータの誤差に影響を与える。
指数平滑法を連想する。

経済活動では瞬時に終了することはないので、一定期間が必要になる。
そのため、前期のデータが後期のデータに影響し、自己相関の現象が発生しやすい。
経済学では時系列データが多いので、自己相関をいかに排除するか、に注力しているように思える。

3・誤差の大きさの平均は一定。(均一分散)

クロスセクションデータを扱う時に発生する問題。
たとえば、ある国のデータを集めると、大国と小国では規模が異なるので、大国の方が誤差が大きくなる。
つまり、誤差分散の大きさは一定ではない。
経済学では、大国と小国、大企業と中小企業などのデータが混じっていて比較するから、不均一分散の考慮も重要になる。

たとえば、パネルデータ分析では、仮定2と3、つまり、自己相関なしと均一分散の仮定を満たす必要がある。

4・誤差と説明変数の大きさに関係がない

連立方程式体系の経済モデルを扱う時に発生する問題。
市場の分析では、需要関数と供給関数が均衡を決定する時にお互いに影響し合うので、誤差と説明変数に影響が出てしまう。

たとえば、需要均衡など市場で数量と価格が決定される場合など、経済が複数の関数で表現される構造を保つ場合、回帰式に現れる誤差の大きさは、様々な影響を受けて決定される。
その結果、説明変数との間に関係を持ってしまうので、古典的最小二乗法では正しい推定ができない。
つまり、回帰分析に正当性がなくなる。

5・誤差は正規分布に従う

正規分布は左右対称であるが、定性的尺度(働く=0、働かない=1)、比率(耐久財の普及率)ではそのままでは満たさない。

【3】僕は計量経済学の知識不足だが、古典的最小二乗法の仮定を満たさない場合にどこまで推定できるのか、古典的最小二乗法を部分的に満たすような場合はどこまで推定できるのか、を直近30年くらいで研究が進められているように思える。

信頼性革命や構造推定は、たぶんそういう流れの研究ではないか。

経済学は信頼性革命や構造推定により大きく変貌している: プログラマの思索

そんなことを考えると、大量データをクラウドやプログラムで簡単に統計分析できる現在、計量経済学は非常に面白い分野になっていると思う。
IT技術者は積極的にこの分野に関わってもいいと思う。
なぜなら、IT技術者はすでにツールを持っているので、実際の生データを片っ端から分析してみることで、統計学を習得できるからだ。小難しい理論は後から理解すればよい。
具体例をたくさん経験した後で、統計学の本を読み直せば、自分の経験を整理するだけで簡単に理論を生身の知識として理解できるからだ。

今は面白い時代になっているのだろうと思う。

| | コメント (0)

より以前の記事一覧