統計学

2017/02/05

第53回IT勉強宴会「深層学習の概要とドメインモデル」の感想

第53回IT勉強宴会で、能見さんの「深層学習の概要とドメインモデル」を聞いてきた。
すごくワクワクして、面白かった。
自分は初心者なので、理解できたことをラフなメモ書き。
間違っていたら後で直す。

【参考】
深層学習の概要とドメインモデル<第53回IT勉強宴会> : ATND

深層学習の概要とドメインモデル<第53回IT勉強宴会> | IT勉強宴会blog

【1】昔流行したニューラルネットワーク理論と深層学習の深い関係

僕の一世代上の人たちから見ると、ニューラルネットワークがすごく流行して冬の時代になったのを知っているので、理論は既に知っているが、本当に使い物になるのか、という思いがあるみたい。

単純パーセプトロンで、0または1に分類するのは、回帰直線による相関分析。
でも、そのままでは当然解けない問題もある。

多層パーセプトロンにすれば、非線形な問題は活性化関数を用いて線形分離できるように変換すればいい。
シグモイド関数が有名だし、それ以外にも色々ある。

多層パーセプトロンのボトルネックは、学習コストを最小化する関数を求める時、真の極小解ではない極小解に落ち込んでしまって、そこから脱出できなくなる点。
誤差逆伝播法で、勾配を少しずつ計算して、誤差をフィードバックして、鞍点にはまらないように学習していく。

でも、過学習の問題も出てくる。
この辺りは、人間が、スポーツや勉強をあるパターンだけで進んでいくと頭打ちになり、いくら努力してもそれ以上伸びない、という症状によく似ている。
他にも、教師あり学習とか、強化学習は子供の躾、ペットの躾に似ているとか、すごくアナロジーしやすい。

そういう時代を過ぎて、2012年に深層学習が画像認識の精度を大きく上げるブレイクスルーが起きて、深層学習が流行し始めた。

講演で最も興味深かった点の一つは、「なぜ、学習の構造はDeep(深層)なのか」。
「なぜディープラーニングが、これほど世の中の多くの問題にうまく適用(特に認識)できるのか?」
「Linの仮説」というものが説明しようとしているが、その理由は、まだ理論として結果は出せていないらしい。

深層学習は 世界をどのように変えられるのか - IBISML

能見さんの「直観的な理解:対象の階層的な構造をうまく取り込めるから」という話を聞くと、人が物事や現象を理解しようとする時、ツリー構造で概念を分解して理解しようとする方法と上手くマッチしているから、と理解している。
たぶん、深層学習の仕組みは、人間の脳の仕組み、人間が物事を考える仕組みの本質に触れているからこそ、プログラムで実装してその威力を発揮できているのだろうと推測する。

【2】深層学習はどこまで知性に近づいているのか

深層学習はニューラルネットワークをプログラムで実現しているので、まさに人の脳の神経回路のシミューレションに近い。
では、深層学習はどこまで人間の知性に近づいているのか?

話を聞く限り、2017年始め時点では、画像認識などの分野で人よりも認識の精度は高いが、全ての分野で置き換えられているわけではない。
まだ知性まで追いついていない。

渡部幸三さんが質問したように、深層学習が画像認識の処理をした後で、「美しさとは何か」という問いに対して、その特徴量、その評価基準が知りたい。
しかし、現時点の深層学習のフレームワークでは、中間パーセプトロンの中身はいちおうトレースできるが、「美しさ」の特徴が何であるか、明示しているわけではない。
深層学習の処理結果として、入力した画像を犬か、猫か、ゴッホの作品なのか、とフィルタリングしているだけ。

深層学習による画像処理において、ある風景写真をゴッホ風にアレンジする、というシミュレーションした絵があって面白かった。
ちょうど、昔のセピア風、プリクラ風の写真の加工に似ている。
では、ゴッホの絵の美しさの特徴は何なのか、と抽象的な概念で言い表して欲しいが、それは明確ではない。

なぜ、美しさの特徴を知りたいのか?
やはり、人間なので、その結果に至る道筋、ロジック、原因が知りたい。
もしそれが完全に判明したとしたら、プラトンのイデア論を立証できることになる気がする。
つまり、美しさの本質はこれこれです、と明確に言えるならば、全ての人の心にはそれが宿っているので、お互いに理解し合えるのだ、というロジックで言いたい。
最終的には哲学の性善説に行き着く気がするが、現時点の深層学習はそこまで人間の心理の本質まで迫っているわけではない。

現在、深層学習をベースとした人工知能の研究は、アメリカと中国で相当激しく進んでいるらしい。
また、東京での人工知能や機械学習の勉強会は、すぐに定員いっぱいになるぐらい人気があるらしい。
今はブームが始まったばかりで、深層学習のどのフレームワークが生き延びて集約されるのか、分からない状態なので、面白いみたい。

| | コメント (0)

2017/02/03

「推計学のすすめ」「経済数学の直観的方法~確率統計編」の感想

推計学のすすめ』と『経済数学の直観的方法』の確率統計編がとても素晴らしくて、すごくはまった。
以下、ロジカルでないラフなメモ書き。
間違っていたら後で直す。

【参考】佐藤信、1968、『推計学のすすめ』 - しょうもないことかきました

直観でわかる統計学 - 講義のページにようこそ

『経済数学の直観的方法 確率・統計編』(その1) 長沼伸一郎著 - ケスケラの読書と旅の日記

『経済数学の直観的方法 確率・統計編』(その2) 長沼伸一郎著 - ケスケラの読書と旅の日記

Amazon.co.jp: 経済数学の直観的方法 確率・統計編 (ブルーバックス)の Nogisuさんのレビュー

【1】統計的仮説検定は正直わかりにくい。
なぜ、わざわざ、主張したい仮説を否定した仮説を立てた後、統計処理を行って否定した仮説を棄却して、主張したい仮説が正しい、というロジックを使うのか。

その理由は、統計的仮説検定は「確率的背理法」の考え方に基づいているから。
つまり、仮で立てた仮説が5%未満でしか確率的に起こり得ない、ということは、ほとんど起こらないだろうから、仮で立てた仮説は成立せず、元々の仮説が正しい、というロジックの流れ。
すなわち、完全な背理法ではなく、95%の確率の正しさで背理法を使った考え方、と思った方がいい。

推計学のすすめ』には、この考え方による統計的仮説検定の事例をたくさんあげて、いろんな統計分布を使った話が載せられていて、とても分かりやすい。

正規分布、t分布、F分布、χ^2分布などをどんな場面で使って、どんな意図で用いるのか、という事例が分かりやすい。
上記Blogの感想に全く同意だが、1960年代に書かれた本なので、その事例に出てくる現象が時代的に古いように感じるのもすごく良い。

(引用開始)
この本はすごい。
1968年に出てるというのがもっとすごい。
筆者の佐藤さん、国税庁醸造試験所に長年勤めていたというのも、ギネスで働きながらスチューデントの筆名で論文出してたゴセットと似ていてかっこよい。
(中略)
推測統計の発想の根本を、懇切丁寧な解説と、豊富な例示とで示してくれるとてもありがたい本。
(中略)
t検定とかF検定とかχ2検定とか、Z標準化とか、なんとなく知ったかぶりでスルーしたけど、結局何なの?どれをいつ使うの?おいしいの?などの疑問がこの本でたいてい氷解する。
推測統計やるなら絶対にまずはじめの一冊。そのあと小難しい本に入っても、混乱したらこの本に戻るといいと思う。とにかく手元に1冊あるとよい。
さすがに60年代の本だけあって、例や言葉遣いが古いがそれがなおさらよい。
(引用終了)

【2】一般に、確率統計はすごく分かりにくい。
サイコロやコインの確率が、なぜそんなに奥深いのか?

【2-1】統計学を生み出したガウスの本来の思想は、確率論ではなく、誤差論だった。
「バラつき=トレンド+ボラリティ」という考え方があり、ボラリティは正規分布の形になる。

では、どうして現実の物事は正規分布に従うのか?
経済数学の直観的方法~確率統計編」によれば、正規分布のイメージはパチンコと同じ。
つまり、パチンコに無数の球を落とすと、パチンコ台の下に積もった球は正規分布の形をなすイメージ。
これがボラティリティに相当する。

しかし、この正規分布の曲線が「exp^(x^(-2))」であるために、その微分・積分が高校数学では扱えないので、多くの人がトラウマになっている、ということらしい。
つまり、パチンコ台に有限個の球を落とすと2項分布になるが、その極限が正規分布の曲線になるという計算は、高校生では解けない。
すなわち、確率分布の計算が複雑怪奇になっていて、とても分かりにくいのは、そこに理由があるのかもしれない。

【2-2】しかし、すべての物事が正規分布に従うという理論はやはり腑に落ちにくい。
たとえば、人の学力は正規分布に落ち着く、というのは本当に正しいのか?
真面目にコツコツ勉強しても間違って暗記した人、要領よく勉強して高得点な人、そんないろんな選択を正規分布は飲み込んでいるのか?

経済数学の直観的方法~確率統計編」によれば、その答えは、中心極限定理が解決してくれる。
実際は、色んなパターンの確率分布の曲線が発生するが、それら様々な確率分布を全て合成して極限に持っていくと、中心極限定理によって、その結果が正規分布になる、と。
つまり、中心極限定理は、二項分布の極限が正規分布になる、というだけでなく、様々な確率分布が合成されて極限に持っていくと正規分布になる、と主張している。(言いすぎかも)

中心極限定理のメリットは、心理学・経済学・社会学のような分野に適用して、それら予測に使えるからだ。
たとえば、株式市場では、政治状況や人々の心理状況などのパラメータに起因するたくさんの確率分布があるが、全て合成して極限に持っていくと、正規分布に落ち着くので、逆に扱いやすくなる。
つまり、株式市場のパラメータがたくさんあったとしても、逆に全ての確率分布を合成するほど、正規分布に近づくので、正規分布の特徴さえ分かれば、株価を予測できるようになる。

【2-3】株式市場への貢献としては、オプション価格の計算に使われたブラック・ショールズ理論がある。
このブラック・ショールズ方程式はとても難しく、経済学部の学生もつまずくものらしい。

ブラック・ショールズ方程式の背後には、ウィーナー過程という考え方がある。
株価のバラつきは理論物理のブラウン運動に似ている。
ブラウン運動では、時間が経つとボラティリティが増大する。
そのボラティリティは時間の平方根に比例する、つまり、「ボラティリティは√tに比例して拡大する」という法則があり、これがウィーナー過程と呼ばれる。

ウィーナー過程は正直分かりにくいが、ブラウン運動でボラティリティが増大する原因は、時間というよりもジグザグ回数が増えることと同じ。
この発想を株式市場に生かすと、株価のボラティリティ(バラつき)は株取引回数が時間と共に増えることであり、それが時間の平方根に比例する。

つまり、ボラティリティが大きいほど、株価は高くなる確率になるので、その時に売れば儲かる。
金利差や価格差を利用して売買して利鞘を稼ぐ裁定取引、いわゆるサヤ取りがこれに相当する。
また、株や国債は長期で保持した方が儲かる、という理由も、ここにあるのかもしれない。

【3】上記のAmazon感想にこんな感想があって、すごく同意した。

(引用開始)
私はいわゆる理系出身で、工業用のセンサ開発に関わっている。
私の働く業界では、本書でいう「ボラティリティ」を最小に抑え込み、「トレンド」を除去することで、品質を一定に管理することに腐心している。
このため、ボラティリティから何等かの「益」を得るという発想を持っていない。
この発想そのものが目から鱗の驚きであった。
(引用終了)

【3-1】製造業の品質管理では、完成品のバラつきを一定の範囲内に閉じ込めるように、厳しくチェックして出荷する。
つまり、たとえば、あるボトルネック工程で部品の歩溜まりが低い、と言った問題点は改善策を用いて解決して、「トレンド」となるバラつきを取り除く。
また、たとえば、全数検査でなく一部しか検査できないために観測できない誤差といった、「ボラリティリティ」のバラつきは最小限に押さえ込む。
たぶん、管理図の手法を使っているのだろう。
それによって、一般消費者は、品質が安定した大量製品を安価に買うことができる。

【3-2】一方、株売買、原油の先物取引のような金融取引では、ハイリスク・ハイリターンなので、ボラティリティが大きいほど、儲けが大きくなる。
なぜなら、ファイナンスの世界では、リターン=期待値、リスク=バラつき(偏差)という関係があるからだ。
つまり、ハイリスクで成功すればハイリターンが得られる。

昨今なら、トランプ現象のおかげで、株売買で儲けた人もいるのではないか。
つまり、「ボラティリティから利益を得る」という発想があるのだ。

ブラック・ショールズ方程式では、金融商品のボラティリティを数学的に求めて、金融商品のオプション価格としてあらかじめ算出することに成功した。
そのおかげで、金融取引市場が成立したわけだ。
その背景には、ウィーナー過程の考え方、つまり、「ボラティリティが√tに比例して拡大する」という考え方がある。

【3-3】この辺りの話はイマイチ分かりにくいが、以前、簿記1級を受講していた時、先生からこんな話を聞いたことがある。
本来の株式市場では、100株1000万円のような株を買いたい場合は、普通は手持ちのお金がなければ買えない。
しかし、ノーベル経済学賞を取った偉い学者(ブラックさん?)のおかげで、株式市場に、ある一定の入場料を支払えば、「株を将来買う権利」「株を将来売る権利」という形で、株の売買に入場できるようになった、と。
つまり、株式市場で金融取引を行うための入場料が、ブラック・ショールズ方程式で求められるオプション価格なわけだ。

そのおかげで、株式市場にもっと大量の人が簡単に入場できるようになり、株の売買がより一層活発になる、というメリットが生まれる。
日本政府がNISAなどを導入して、株式市場を活発化させたい、という意図はそんな所にも関連しているのだろうと思う。
株価が上がれば、NISAなどに投資した人にもお金が行き渡り、日本人の収入向上に役立つから、という流れなのだろう。

最終的には、企業はランダムな世界でも物事の連動性に注目して適切に意思決定することにより、ボラリティリティから利益を得ることが可能という事実から、企業は恒常的に利益を上げ続けることができる、という流れ。
この発想の類推から、マクロ経済学における経済成長理論につながるのだろう。

【4】こういう確率統計の理論の本を色々漁ってみると、チケット駆動開発の時と同じような匂いを感じる時がある。

【4-1】たとえば、従来の統計学では、計算力不足のために、大量データがあっても簡単に計算することができなかった。
昔は、数学的理論で確からしさは保証されているのに、コンピューティングパワーが不足していたから、その理論を使った実地検証がしづらかったわけだ。

しかし、今は、強力なコンピューティングパワーが安価で誰でも手に入るようになったので、統計学の理論をバックにプログラミングを縦横無尽に使って、文系理系を問わず、従来の自然・工学分野だけでなく、心理・社会・経済のような分野に適用して、色んな知見が得られるようになってきた。
たとえば、「ワーク・ルールズ」の本のように、Googleが自社の人事施策に統計理論を使っているように。

つまり、自然科学や工学で使われている従来の理論に対し、その適用分野を心理・社会・経済へ変えることで、別の新たな知見を見出だせる。
たとえば、理論の使い道をちょっと変えるだけで「ボラティリティを押さえ込む」のではなく「ボラティリティから利益を引き出す」という発想が生まれるわけだ。

【4-2】最近の人工知能も、その流れに似ている。
深層学習の背景にあるパーセプトロン、ニューロン、確率降下法という考え方は既に1960年代頃から理論として構築されていた。
だが、当時はコンピューティングパワーが不足していて、そもそも意味ある計算を実現できなかった。
しかし、今は違う。

その気になれば、PythonやR、AIのOSSのフレームワークを使えば、プログラムでいくらでも計算して、応用できる。
つまり、昔の数学や物理の理論を知らなくても、プログラミングできるならば、実際にプログラムで計算実行させて、意味ある応用結果を導ける。
その計算の後に、そのプログラムの背後にある諸理論を勉強しなおせば、実際の具体例をたくさん知っているのだから、理解しやすくなるだろう。
抽象的な理論ばかり勉強しても、その理論を武器に実際に使えなければ無意味だから。

今の時代は、数学や物理の理論からトップダウン的に勉強するのではなく、まずはプログラムを書いて動かして、たくさんの具体例を経験した後で理論を勉強し直す、と言うボトムアップ的な勉強方法の方が向いている気がする。
そんな流れがあるから、日本の小学生もプログラミングに慣れましょう、という方向に傾いているのかもしれない。

| | コメント (0)

2017/02/02

経済数学の直観的方法の感想

『経済数学の直観的方法』のマクロ経済学編確率統計編がとても素晴らしくて、すごくはまった。
下記の感想記事もとてもすばらしい。
以下、ロジカルでないラフなメモ書き。
あやふやな理解で間違っているかもしれないが、その場合は後で直す。

【参考】
『経済数学の直観的方法』 長沼伸一郎著 - ケスケラの読書と旅の日記

『経済数学の直観的方法 確率・統計編』(その1) 長沼伸一郎著 - ケスケラの読書と旅の日記

『経済数学の直観的方法 確率・統計編』(その2) 長沼伸一郎著 - ケスケラの読書と旅の日記

【1】『経済数学の直観的方法』を読むと、現代経済学が、現代数学や現代物理学並みに難解になっている事実が良く分かる。
ミクロ経済学では、消費者の消費行動、企業の購買活動を最小化する・最大化するという文言が多いけれど、それを精緻に理論化するには、解析力学が必要なわけだ。

物理学では、解析力学で使う変数XとXドットは、位置と速度、速度と加速度のように事前に決まる場合が多い。
一方、経済学では、解析力学の前提となる変数がうまく当てはまる場合は少ない。

昔に見つけられたモデルは、消費と消費の変化率から最適成長経路を導出するラムゼイ・モデル。
それ以外の経済モデルはなかなか見当たらなかった。

しかし、著者によれば、ルーカスの合理的期待形成仮説によって、経済事象とその事象を変化させる要素の二つのペアを解析力学の変数とみなすことで、動学的均衡理論が生まれた、というストーリー。
そして、リアルオプションという経済理論が作られて、ノーベル経済学賞を取った。

たとえば、マクロ経済学では、失業率とインフレ率は負の相関であるというフィリップス曲線の理論が出てくるけれど、その理論がそもそも成り立たない場合が現状でよく見られる。

その理由は、インフレを皆がすでに織り込み済みで行動するから、期待通りの経済政策の効果が出ない、というストーリーみたい。
そこで、インフレ率とインフレ変化率の二つを解析力学の変数とみなすことで、経済政策の効果を最大化するようにシミュレーションできるというストーリーなのだろう。

だから、最近の日銀は、国民が織り込み済みの行動を取らないように、故意にサプライズと称した経済政策を次々に打ち出すわけだ。
よって、中央銀行のインフレターゲット政策では、動学的均衡理論が必須のスキルであるということなのだろう。

【1-1】ここで、動学的均衡理論が現代経済学の寵児となった理由は、この理論によって、論文が大量生産されるようになったからだ、と著者は言う。

つまり、ルーカスの合理的期待形成仮説によれば、経済法則は経済事象のパラメータだけでなく、その事象を変化させる要素も考慮しなければならない。
そこで、経済事象のパラメータとそのパラメータを変化させる要素(つまりパラメータの微分)の二つのペアを解析力学の変数とみなすことで、数多くの経済現象の理論をモデル化できるわけだ。
その最たる例が、インフレ期待理論であり、中央銀行がデフレ対策としてその理論を駆使しているわけだ。

但し、著者は、このような優れた理論の価値は認めているが、これによって論文が大量生産される事象については皮肉っぽく言っているように聞こえる。
理論を生み出した超一流の天才と、その理論を拝借して論文を大量生産する一般の学者の違いはそこなんだよ、と。

【2】そんな流れを読むと、文系だから経済学部に行く、という考えは浅はかであり、理論物理学のスキルをマスターしておかないと、そういう最新の経済学に追いつけなくなっているわけだ。
経済学の知識は公務員になるなら必須知識みたいだが、最新の経済学を研究するには、さらに理論物理学のスキルまで必要となると、正直大変なのだろう、と推測する。

物理学のラグランジュアンやハミルトニアンもイメージしにくいが、その概念を経済学で置き換えた場合、どのように考えることができるか?

物理では、ラグランジュアンは最小作用の原理を実現するための概念、ハミルトニアンはエネルギーやポテンシャルみたいな保存則を満たすような概念イメージ。
経済学では、ラグランジュアンは経済政策の成果の最大化やコストの最小化に用いる概念、ハミルトニアンは総資産かGDPみたいなイメージかな。

そう思うと、現代経済学は、既に知られている数学や物理学の理論を片っ端から適用しまくって、その中から上手くいった結果だけを見せているだけなので、そんな背景を知らない理系・文系の人にとっては、本当にチンプンカンプンなのだろうと思う。

以上は自分のもやもやしたアイデアを書いただけなので、もう少し精緻化していく。

| | コメント (0)

最尤推定法とベイズ推定法の違いの記事のリンク

「従来の推定法とベイズ推定法の違い」の記事がとても分かりやすいのでリンクしておく。
以下はラフなメモ書き。

【参考】
従来の推定法とベイズ推定法の違い | Sunny side up!

心理学者のためのベイズ統計入門

ベイズ統計が最近流行っているらしい。
高校時代に、条件付き確率の計算として習ったが、それ以上の知識もなく、今までイマイチどこがすごいのかわかりにくかった。
また、従来の統計的推定では、故意に、主張したい仮説の逆の主張を前提にして、それを統計的処理で棄却する、というやり方を取るが、慣れないとこのロジックそのものが分かりにくい。
「統計的推定は、確率的背理法である」という言葉をどこかで拾って、ああなるほど、とようやく理解した覚えがある。

上記の記事は直観的で分かりやすい。

従来の最尤推定法では、真値が一つであると仮定して、サンプルを増やしたり回数を増やせば、その誤差は小さくなり平均値である真値に近づくはずだ、という考え方。
一方、ベイズ推定では、真値を確率分布としてとらえて、サンプルを増やしたり回数を増やすごとに、真値の分布を最新化していく、という考え方。

(引用開始)
信頼区間(confidence interval)と信用区間(credible interval)の違いは、ベイズ主義と頻度主義の考え方の違いを顕著に示しているといえます。

頻度主義では真値は一つと考えるので、「信頼区間の中に95%の確率で真値がある」という言い方は間違いになります。確率的に変動するのはデータのほうなので、「何度も同じサンプルサイズのデータを取ると、真値が95%の確率で信頼区間内に入る」という意味になります。

一方、信用区間はベイズ主義に基づくもので、仮に真の値を考えると「95%の確率でその範囲に真値がある」という解釈になります。
(引用終了)

ベイズ統計が使いやすい分野はたとえば、計量経済学があるだろうと思う。
何らかの経済政策の効果を測定する時に、最小のコストで最大のメリットを得るには、どんな方法でどれだけ予算を投入すべきか、という発想に使いたいから。
つまり、ある前提条件を仮で置いて、その投資対効果を求める時に使うのだろうと推測する。

たとえば、子供向け政策、高齢者向け政策、公共事業の政策の投資対効果の測定・評価など。
今流行りのベーシックインカム、少子高齢化の政策も同様だろう。
東京五輪のように、昨今は経済政策では投資対効果やコスト削減がうるさいので、こういう手法が必要とされるのかな、と思ったりする。

上記の記事では、従来の心理学の実験には統計的推定が使われていたが、ベイズ推定を使うのも可能性があるよ、と話されている。
確かに、ある前提条件を仮で置いて、ベイズ推定でどんどん仮説の精度を高めていく方法は、経済学でなくても心理学でも有効だろうと思う。

この辺りの考え方も整理していく。

| | コメント (0)

2017/01/08

「ワーク・ルールズ」の感想

Googleの人事施策に関する本「ワーク・ルールズ」が面白かったので、感想をメモ。
ラフなメモ書き。
書きなぐりなので論理的整合性は無視。

【1】Googleという世界で一番優れたIT企業の人事施策はすごく興味はある。
博士課程ばかりの出身のプログラマが多くて、大学の研究室のような雰囲気で、仕事はプログラミングに没頭できる環境。
そういう人と環境がいる場所で、業績管理や報酬制度、動機付けはどのようにコントロールされているのか?

Googleが他の企業と比べて面白い点は、自社の人事施策においても、アンケートなどのデータを収集し、検定や相関関係を調べることで因果律を見出し、その結果を次の人事施策に反映して、どんどん改善している点だ。
実際に、本の中にも、報酬の数値、相関関係の数値などもあり、非常に興味がそそられる。

僕が興味を持った部分は第7章の業績評価制度、第8章の能力評価制度、第10章の報酬制度、そして第13章。

特に第13章では、高潔であろうと思われるGoogle社員ですらも、無料カフェテリアが既得権益と見なされて、醜い行動をする社員もいる、という事実をはっきり書いている所は、非常に真摯に感じた。

知的に優れている人であっても、無料カフェテリアが当たり前の権利になってしまうと、食べ物を容器に詰めて持ち帰ったり、土曜日のハイキングのために水のボトルやお菓子を大量にバックパックに詰め込んだりする行動を取る人もいる。
もちろん、その後、社内にその状況がフィードバックされて、問題も解消されたらしいが、そういう話を読んで、逆に、Google社員も人の子なのだ、と改めて、ホッと感じる。

当たり前の権利は、知的に優れている人も慣れてしまって、既得権益となり、逆に発展の阻害要因になる。

【2】業績管理と人材育成は明確に分ける。
業績によって昇進や昇給を提示する時期、その人のスキル向上やOJTなどを計画・評価する時期は明確に分ける。
昇進や昇給を約束する外発的動機を導入すると、学ぶ意志や能力が低下してしまうから。

これは、ハーズバーグの衛生要因・動機づけ要因を思い出させる。

チームには2個の尻尾(テール)がある。
ごく一部の優れた最高の社員であるトップテール、最低の社員であるボトムテール。
人間の能力の分布は、正規分布ではなく、「べき分布」で考えるべきだ。

普通の企業は正規分布を使って社員を管理する。
現実の個人別成績は正規分布とみなす。
すると、ほとんどの社員は平均に分類されてしまう。

しかし、実際は、組織で人が発揮するパフォーマンスは、べき分布になる。
ごく一部の優れた優秀な社員が、圧倒的な業績を上げることで影響力を行使する。

但し、べき分布は、正規分布の一種。
正規分布が古いというわけではない。

【3】プロジェクトにマネージャは必要か?
Googleでは、良いマネージャであっても、技術面に疎すぎる中高年の応募者を落とすことが多かったらしい。

しかし、良いマネージャは重要である、と。
そして、その職務特性は8つあった。
そして、チェックリストを作ったり、育成プログラムを作ったりした、と。

【4】googleで面白いのは、人事施策の良し悪しを自社のアンケート結果を元に統計処理して、その相関関係などを調査分析している点だ。
「世界中の情報を整理する」ミッションを自社の人事施策にも生かしている。

この本に書かれている内容が貴重であると思うのは、まさにその実験データと結果が記載されているからだ。
ここまで赤裸々に書いた本はないはず。

学習する組織、最高の人材を集める、など、それらのやり方を逐一実施した内容を全て統計処理している。
その分析と改善策が面白い。

もちろん、彼らは、統計データがアンケートという質問形式に依存しているために、バイアスがかかっていないか、相当気にして対処している。


| | コメント (0)

2016/12/18

Pythonの記事のリンク~道具が理論にようやく追いついてきた

最近のバズワード「ビッグデータ」「機械学習」が知りたくて、Pythonの記事のリンクをメモ。
自分用の参照記事。
ラフなメモ書き。

【参考1】
Pythonでプログラミングを始めよう:新刊ピックアップ|技術評論社

(引用開始)
「もしコンピュータ言語をひとつも知らないのなら,まずPythonを学ぶことを勧める」。これは『How to become a hacker』(Eric S. Raymond著)の一節です。なぜ,Pythonを勧めるのか,それには様々な理由がありますが,筆者の経験や,世の中の動向を踏まえて説明してみます。
(中略)
工学系のエンジニアにとっても,プログラミングのスキルは設計作業に必要不可欠です。筆者もメーカーに勤務するエンジニアですが,入社以来様々な言語を使ってきました。シェルスクリプト,sed,Perl,C言語,C++,MATLAB/Simulink,Octave,Scilab,Mathematicaなど,作業内容に応じて使い分けています。テキストデータの整形をsedで行ったのち,C言語のプログラムから読み込んで処理し,その結果をMATLABで解析・可視化する,といった具合です。
(中略)
このような状況を変えつつあるのがPythonです。Pythonは,テキストデータの整形も,数値計算とその結果の可視化も得意です。すべての作業でPythonを使えば事足りる,という場面が多いのです。そのため,Pythonを使って設計をする機会が,日増しに増えています。

また,エンジニアにとって大切なことは,自分の設計内容や検討内容を完全に把握しておくことです。その点,MATLABのような有償のソフトを使うと,ライブラリのソースコードが公開されていないことが問題になる場合があります。Pythonと,Pythonの主要なライブラリの場合は,ほとんどがオープンソースプロジェクトです。そのため,すべてを自分のコントロール下に置いて,開発を進めることが可能です。
(引用終了)

(引用開始)
ディープ・ラーニングとビッグデータ解析での活用

次に,Pythonが実際に活用されている場面を見ていきます。

AlphaGoの快挙を支えたPython
ぶつからない車もPython!?
ビッグデータ解析でもPython
(引用終了)

【感想1】
R言語を色々触ってみたが、何か使いづらい。
たぶん関数型言語の特有の考え方に僕が慣れていなからだろう。
Pythonなら、RubyやJavaにも似ているので書きやすそう。

データの統計処理だけでなく、ファイル読み込み、グラフ表示、正規表現も一つの言語で処理できるのは便利。
プログラミングは歴史や英語のような暗記は不要だけど、APIの使い方とかテクニックは最終的には覚えるしか無い部分がある。

「エンジニアにとって大切なことは,自分の設計内容や検討内容を完全に把握しておくことです」という指摘は同意する。
「すべてを自分のコントロール下に置いて,開発を進める」ことが重要だから。
自分が使っている道具の特徴、癖を知っておかないと、自分が解決したい問題に適用する時に、落とし穴に落ちる時があるから。

道具の制約が、問題解決の可能性を制限する。
道具の制約が、問題解決の発想、アイデアの範囲や質を制限するから。

【参考2】
akipiiさんのツイート: "「断片的な情報を地図にまとめて大局的な視点を持つ」「人に何かやって貰いたい時は具体的に指示をだす」「今あるものを工夫して新しい道具を作り出す」といったエンジニアにとって大事なことがストーリーに織り込まれています。ルビィのぼうけんhttps://t.co/OaZHqw2E0w"

ルビィのぼうけん」のAmazon書評コメント欄に、下記のコメントがあってすごく納得した。

Amazon.co.jp: ルビィのぼうけん こんにちは! プログラミングの deko-papaさんのレビュー

(引用開始)
翔泳社の特設サイトで見つけて、帰宅途中で書店にて購入。10歳の娘に買って読ませてみました。
 夢中になって読んで、あっという間に前半のストーリー部分は読破。後半の練習問題は、夜遅かったので翌日へ。さらに寝るまでお母さんに読み聞かせを強請っていました。

 私はさわりの部分しかまだ読んでいませんが、それでも「断片的な情報を『地図』にまとめて、大局的な視点を持つ」「人に何かやって貰いたい時は、具体的に指示をだす」「今あるものを工夫して新しい道具を作り出す」といったエンジニアにとって大事なことがさりげなくストーリーに織り込まれているのが分かります。

 さらに、絵の中にさらっとプログラミング言語のキーワードが描かれています。もちろんそれについての説明は一切ありませんが、将来プログラミングに触れたとき、「あ!見たことある!」とこの絵を思い出す子どもが大勢いることでしょう。
(引用終了)

【感想2】
「プログラミングは実現したいことの手段に過ぎない」意見もあるが、僕はむしろ、プログラミングという道具が思考方法を規定してしまう側面の方を強く感じる。
既に確立した理論はあり、その理論の内容を実現したいのに、プログラミング言語やそのライブラリが貧弱であれば、やりたいことを表現するのにすごく手間がかかって、イライラしてしまう。

たとえば、配列やハッシュにデータを一時的に退避するとか、ファイルを読み込んで文字列を正規表現でマッチする部分を抽出するとか、そういうコンピュータの基盤に近い部分の処理は手短に書きたい。
そして、理論が本来言いたい部分をプログラミング言語で的確に表現したいのだ。

プログラミングにおいて、「断片的な情報を地図にまとめて大局的な視点を持つ」考え方は、理論で本来実現したい結果を得るための登山ルートを詳細に具体化する能力に対応するのではないか。
「今あるものを工夫して新しい道具を作り出す」考え方は、プログラミング言語とライブラリという「道具」で工夫して、理論で実現したい結果を得るためのアルゴリズムを作りだすのに使う、ことに相当するのではないか。

つまり、今ある道具を工夫する手間が少ないほど、コンピュータレベルではなく、もっと高次のレベルで物事を思考することが容易になるはず。

たとえば、統計学の理論は基礎数学で確立しているけれど、経済学者や心理学者は「大数の法則」「中心極限定理」「正規分布」などの定理や概念を数学的に証明するのに使いたいわけではない。
それらの定理や概念という道具を使って、経済現象や人間の心理現象を分析して、問題を解決したり、新たな観点をもたらしたいのだ。
昔は計算能力が貧弱だったので、統計処理はいかに簡便な手計算でやるか、という技術の説明をする本ばかりだったけれど、今は、優れたプログラミング言語やライブラリは揃っているから、計算処理はコンピュータに任せることが楽になった。

すると、理論がどのプログラミングのモデルに適用できるか、理論をどのプログラミングのモデルに適用すると手短にたどり着けるか、という考え方に発展するだろう。
つまり、問題のレベルが、単にプログラムが書ける、というレベルではなく、プログラムが表現するモデルが理論や現象を上手く説明できているか、というレベルに上がるだろう。
そこが面白くなってくる。

【参考3】
いまさら聞けないDeep Learning超入門(1):ニューラルネットワーク、Deep Learning、Convolutional Neural Netの基礎知識と活用例、主なDeep Learningフレームワーク6選 (1/2) - @IT

(引用開始)
 筆者がデータ解析に従事し始めた2010年ごろ、Deep Learningという言葉は一部のアカデミックな分野では流行していましたが、ユーザー企業でその言葉を聞くことはあまりありませんでした。

 今あらためて、Deep Learningの歴史をひも解いてみると、その歴史は決して明るいものではなかったことが分かります。Deep Learningの構成要素である、ニューラルネットワークとそれを単純に多層に組み合わせたものに関しては、それこそ1980~1990年代前後から盛んに研究されていました。しかし、その精度や処理量の問題から、同じく分類推定モデル構築によく利用される機械学習ロジックである「ベイジアンネットワーク」「サポートベクターマシン」の裏に隠れてしまい、冬の時代が長く続くことになったのです。

 再び脚光を浴びるようになったのは2000年代に入ってから。2006年にDeep Learningが発表され、その後2012年にトロント大学のHinton氏が「ImageNet」と呼ばれる画像セットを用いた画像識別コンペティションでDeep Learningを用いて2位以下を大きく引き離す精度を記録したことがきっかけです。このあたりからグーグルをはじめ、マイクロソフトやフェイスブックなどが注目し、ビッグデータのブームやGPUサーバーなどのハードウエア面の進化も伴ってDeep Learningは広くデータ解析者に広がっていきました。

 Deep Learningの最大のウリは何といっても、「人手で特徴量を抽出する必要がない」という点です。
(引用終了)

深層学習(ディープラーニング)を素人向けに解説(前編)―基礎となるニューラルネットワークについて

(引用開始)
ディープラーニングとは、適切な特徴抽出能力を持つ教師なしニューラルネットワークを多層にして構築したものです。
(中略)
まず、ディープラーニングを理解するためには、ニューラルネットワークを理解しなければなりません。逆に、ニューラルネットワークを理解してしまえば、ディープラーニングの概要自体はかなり分かりやすくなります。

ニューラルネットワークと言うのは、人の神経を模したネットワーク構造のことです。それを踏まえて、そう言う構造を持った人工知能のこともそう呼びます。このニューラルネットワークでは、神経細胞を模したパーセプトロンと言う小さな計算機をたくさん用意し、一つの計算を協力して行わせるように作られています。
(引用終了)

【感想3】
最近、囲碁でコンピュータが人間に勝ったニュースが流れたが、Deep Learningのアルゴリズムはニューラルネットワークであることは初めて知った。
30年以上前にニューラルネットワークは流行したけど、なかなか実用に至らなかった、という話は随分聞いた。
僕は、Deep Learningのアルゴリズムはベイズ統計かなと思っていたので、意外だった。

そんな話を聞くと、昔に確立した理論が、ようやく時代に追いついて花開いた、と感じる。
今ようやく、プログラミング言語の科学技術ライブラリ、統計処理ライブラリ、クラウドなどの開発基盤がそろってきたから、ニューラルネットワークのような理論が実際にプログラム上で実現できたわけだ。

ニューラルネットワークの理論は僕も詳細は知らないけど、古くから研究されて確立している理論なので、その理論をバックにした技術はそう簡単には廃れないだろうと直感する。
今後も、たくさんの応用用途も見つかるだろう。

実際、Deep Learningは、車の自動運転、顔認証システムなどにも使われている。
アイデアさえあれば、もっといろんなことが出来るはず。

技術の背後に数学の理論があると廃れない: プログラマの思索

数学や物理は背景にある思想を知らなければ理解できない: プログラマの思索

【感想4】
僕は「新しいアイデアとは、古いアイデアを新しい場所に置いたアイデアのこと」という言葉が好き。
既に知られた理論や知見(例:統計学、ニューラルネットワーク)は、新しい場所(例:人工知能、深層学習、自動運転、顔認証)で使われると、新たな発見を呼び起こす。
そういうことをやってみたい。

| | コメント (0)

2016/11/12

日本の品質管理がISO9001やシックスシグマに変わっていった歴史

最近、日本の製造業の品質管理に興味を持って、色々あさっている。
TQM品質管理入門」を読んだら、日本の品質管理がISO9001やシックスシグマに変わっていった経緯が書かれていて分かりやすかった。
以下、自分の理解でラフなメモ書き。
メモなのでロジカルでない。

【参考1】
今、あらためて、日本自動車産業の「ものづくり」について考えよう | 住商アビーム自動車総合研究所 自動車業界コンサルティング

(引用開始)
日本型ものづくりの基礎に貢献したのはW・エドワード・デミング博士だろう。
彼は統計学者として戦後初の1951年国勢調査計画立案に携わる傍ら、品質管理技術の専門家として日本科学技術連盟の招待を受け、日本の製造業経営者に対し統合的品質経営(TQM)を説いて歩いた。こうして日本のものづくりは体系化され、力を付けた。

1980年代、日本の製造業、特に自動車産業が勢いを増す中、米国マサチューセッツ工科大学(MIT)が中心となり、日本の自動車産業における生産方式を研究し、その成果を再体系化・一般化し、「リーン(=痩せぎす)生産方式」(LPS)と命名した。その後、LPSの概念は欧米製造業に浸透し、ゆくゆくは日本本国に逆輸入された。

1990年代末、日本にてバブル経済、金融不況と苦境が続いた後、再度、自動車産業を中心に日本の製造業が徐々に復活を見せた。この時、日本は、単なる製造を超えた日本古来に由来する日本の強みと伝統の象徴とすべく「ものづくり」と命名し、「ジャパンブランド」の一つの軸に位置付けた。

斯様な歴史を経て、「ものづくり」の概念は今日に至ったが、特にリーマンショック以降、それを取り巻く環境諸般が著しく変化する中、またもや、大きな転機に差し掛かっているものと考える。

リーマンショック前後より電機関連領域における日本の製造業の地盤沈下が起こった。
続いて2010年以降、自動車産業においても大規模なリコールが発生し元来の「品質神話」に疑問符が付いた。
更に昨今では、消費者の「モノ離れ」とか、「モノからコトへ」とまで言われる。「モノ=所有文化=時代遅れ」という感じすらある。
一方で、欧米では、IoTとか、インダストリー4.0とか新しい概念が生まれ、GEをはじめ「製造業の復活」と言われている。

こうした一連を見るに、「『ものづくり』とは一体何だろう」と改めて問題提起をし、皆様と一緒に考える契機を作りたい。(後略)
(引用終了)

【1】引用元のURLを忘れたが、下記のような解説があった。

(引用開始)
 品質管理のさまざまな新しい方法の開発によって、統計学は大量生産時代の必須の技術として定着していきます。第二次大戦後の日本の品質向上は、米国ではミラクルと考えられた時期がありますが、1980年代のMITのレポートでは、日本の産業界が統計的方法を活用していることを一つの原因としています。
 これについては、デミングが1950年に日本で行った講義以来、石川馨(特性要因図)、田口玄一(ロバストパラメータ設計)、赤尾洋二(品質機能展開)、狩野紀昭(狩野モデル)といった新たな管理技術を開発した日本の先生方の貢献が大ということができるでしょう。
(引用終了)

(引用開始)
品質管理は管理図に始まり、管理図に終わる
(引用終了)

つまり、製造業の品質管理は、大量生産する時に製品の品質のバラつきをなくすために、管理図や特性要因図などのQC7つ道具を編み出し、それら技法を洗練させてきたのだ。
品質管理の技法の背後には、統計学、特に検定や回帰分析の理論がある。
だから、品質管理の技法は、統計学の理論がバックにあるので、廃れないし、理論的に強固なのだと思う。

そして、日本の「品質管理の総本山」は「日科技連」。
高校生の頃に日科技連の数学の本を読んだら、普通の数学と違うなあ、と思っていたが、その理由は、僕が統計学を知らなかったので、違和感があったのだろうと思う。

しかし、今ではこういう製造業の品質管理の技法が普及しているとはあまり思えないのは何故だろうか?

【2】「TQM品質管理入門」を読んだら、日本の品質管理がISO9001やシックスシグマに変わっていった経緯が書かれていた。
どうやら1980年代のアメリカで、日本の製造業の品質管理を徹底的に研究し、アメリカ独自の理論に発展させていったみたい。
それが、シックスシグマらしい。

TQM品質管理入門」を読むと、アメリカのシックスシグマと日本のTQMの違いは、アメリカはトップダウンによる標準化であり、日本はボトムアップによる教育。
たとえば、品質管理の技術者をグリーンベルト~ブラックベルトのようにレベル分けする点は、CMMIに似ている。
「特性要因図の目的の一つは教育」と言われるように、日本企業ではOJTによる社員教育を重視してきたが、昨今の成果主義制度のために、OJTが機能しなくなっているように思える。

最近、職場で「OJT」が機能しないのはなぜなのか?(中原淳) - 個人 - Yahoo!ニュース

もう一つの流れはISO9000シリーズ。
品質管理をきちんとやっています、という国際的な免許が公開され、グローバルスタンダードになってしまったために、日本の製造業も取得せざるを得なくなった。
ISO9001の中身はTQMと同じだが、日本企業では、ISO9001の維持のために膨大な管理人員が割かれているデメリットが大きいのではないか。

【3】一方、欧米では、日本の製造業の品質管理を徹底的に研究し、シックスシグマやISO9000シリーズを生み出しただけでなく、ソフトウェア開発においても「アジャイル開発」という概念を編み出した。

アジャイル開発の源流には、日本の製造業の品質管理があると聞くが、その理由が知りたくて、今も品質管理の文献をあさっている。
個人的には、製造業の発想とソフトウェア開発の発想は全く違うと思っているので、どうしてもそれが密接に関連しているという理由が腑に落ちないからだ。
欧米人がどのように文脈を変えてきたのか、という観点で今も読んでいる。


| | コメント (3)

要因と原因の意味は違う

最近、日本の製造業の品質管理に興味を持って、色々あさっている。
「要因と原因の意味は違う」という記事が分かりやすかったのでメモ。
メモ書きなので主張なし。

【参考】
「要因と原因の意味の違い」 「要因と原因の使い分け」について:時間管理術研究所 □□ 仕事と生き方、幸せの研究所 □□

正しい「なぜなぜ分析」と、だましの「なぜなぜ」:(と「要因と原因」の違い):時間管理術研究所 □□ 仕事と生き方、幸せの研究所 □□

特性要因図 - Wikipedia

特性要因図~品質管理の知識

【1】日本の製造業の品質管理で、問題の原因分析をする時、なぜなぜ分析がよく使われる。
なぜを5回も繰り返して、問題の真因を見つけ出す。

テスト管理のコミュニティで聞いた所では、なぜなぜ分析をやるとすごく疲れるらしい。
なぜの5段階目は「油断」「不注意」など人の心理まで行き着くので、精神的にしんどいらしい。

そんな「なぜなぜ分析」では、症状→要因1→要因2→・・・のように三角形のように広がっていく。
症状→要因が一直線になることはほとんどない。

普通は、問題の症状に対し、数多くの要因が考えられるからだ。
なぜなぜ分析は、数多くの要因を網羅するようにあぶり出し、その「要因」を検証していって、真の「原因」を見つけ出すという点が重要なポイントになる。
つまり、たくさんの要因があったとしても、問題を改善・解決させる場合、とても効果が上がる原因はかなり限定されるわけだ。
問題と要因が一直線になる場合、分析の能力不足と言える。

この辺りはパレートの法則を暗示させる。

【2】このような問題分析の手法の一つとして、特性要因図が使われる。
僕のイメージでは、マインドマップみたいなものだ。

特性=問題となる事象として、問題を発生させる要因を魚の骨のようにどんどん書き出す。
それら要因の中で、問題の真因となる要因が「原因」となるわけだ。

【3】国語辞典では「要因=主要な原因」と解釈しているらしいが、製造業の品質管理では、「要因」と「原因」は上記のように明確に区別されている。
このように、日本の製造業の品質管理では、「要因」と「原因」の区別を厳しく指導されるらしい。

【4】そういう話を聞くと、日本人も品質管理という技法を知識体系として洗練させてきたのだ、と感じる。
しかし、今ではこういう製造業の品質管理の技法が普及しているとはあまり思えないのは何故だろうか?

| | コメント (0)

2016/09/03

Excel2010を使ってABテスト結果に対しt検定を行う方法のメモ

Excel2010を使ってABテスト結果に対しt検定を行う方法が紹介されていたのでメモ。[
特に主張はなし。

【参考】
やってみよう分析! 第5章:Excelの分析ツールとソルバーの活用(回帰、最小2乗法) - Qiita

【1】自分は統計初心者だが、色々書籍をあさって、t検定の意味がようやくわかった。
t検定を使う場面としては、「サンプルの平均値は母集団と同じか?」「2つのサンプルの平均値が同じ母集団から出ているのか?」があるだろう。
たとえば、前者は工場における製品の品質管理、後者はABテストなどで使われているだろう。

t検定の例は下記が分かりやすい。

平均値の検定

(引用開始)

和歌山の某梅干し工場では,塩分7%の梅干しを生産している.品質をチェックするため,30個の梅干しをピックアップし,検査したところ,平均は7.2%,標準偏差は0.6だった.
(引用終了)

では、某梅干し工場の梅干しの品質は良いといえるか?
言い換えれば、サンプルで抽出した数値から、梅干しの塩分の平均の目標値7%とほぼ同じであり、バラつきは誤差の範囲内、と言えるか?

(引用開始)
帰無仮説:7%である
対立仮説:7%ではない

母集団の分散が未知のケースの式に数値を代入すると,
t=((7.2-7)*√30)/0.6=1.826

この例では7%から高くても低くても製品としては不合格なので,両側検定を考える.自由度29(=30-1),有意水準5%のtの境界値はt.inv.2t関数を用いて
=T.INV.2T(0.05,29)=2.045 なので,「検定統計量(の絶対値)<境界値」より,
帰無仮説は5%の有意水準で棄却されない,つまり帰無仮説が採択され,梅干しの塩分濃度は7%である,という結論を得る.
(引用終了)

【2】t検定、F検定、カイ二乗検定で使われる仮説検定の考え方も分かりにくい。
「」を読んだら、「仮説検定で、帰無仮説を置いて、p値よりも発生する確率が低いから捨てて、対立仮説を採用する、という方法は、確率的背理法と言ってもいい」と記載があって、この文章でようやく理解できた。

中学数学では、「√2は無理数である」という証明に背理法を使っている。
そのやり方を統計検定で採用した場合、前提となる仮説が発生する確率は5%未満だから当初立てた仮説は否定していい、というロジックで評価するわけだ。

知っている人にとっては当たり前なのだろうが、こういう所でつまずいていたので。
上記の例は、t検定の流れと少し違うけれど。

個人的には「推計学のすすめ」という本がすごく分かりやすかった。

【3】B2CのWebサービスならば、ABテストを実施している所も多いだろう。
その場合、ABテストの結果に対し、有意味な差があるかどうか、簡単に評価するには、t検定を実施すればいい。

Excel2010を使って t検定 で新手法と旧手法の差を統計的に調べる zuqqhi2のIT日記

つまり、画面にA機能とB機能を乗せていて、どちらが反応があったか、その反応の差は有意味であるか、という評価に使える。
ロジックの流れとしては、「機能Aと機能Bは、どちらも反応が同じ」という帰無仮説を置き、採取したログからExcelでt検定の結果を出力したら、実際は、その仮説が発生する確率は5%未満だった。
だから、「機能Aと機能Bは、どちらも反応が同じ」という仮説は棄却されて、「機能Aと機能Bは反応に有意差があり、機能Aの方が反応が良い」という仮説が導かれるわけだ。

このやり方を応用すれば、ABテスト以外にも、アンケート処理などの心理学、消費データの解析などの経済学、関連購買の分析などの販売分析、製品の品質管理などへ適用できるわけだ。
今や文系の学問ですら、統計処理がなされていないと、その研究の確からしさや正当性を主張できない、という話は理解できる。

日本の製造業の品質管理が優れていると言われる理由は、こういう統計学的手法をいち早く取り入れて、製品の品質のばらつきを抑える手法を色々と編み出したのだろうと推測する。
そして、そのやり方を同じようにソフトウェア開発にも適用して、ソフトウェア工学の観点に持ち込んで、ソフトウェアの品質を定量的に評価したい、という流れがあるのだろう。

【4】Excelで検定する以外に、R言語を使えば、採取した数値を元にプログラムで検定結果を色々出力できる。
ECサイトの日別・商品別・ユーザ別の売上分析、アンケートの相関分析など色んな使い道がある。
Apacheのログ、政府の統計情報のように、データは既にいくらでもある。

確かにやってみるとすごく面白い。
この辺りの知識もまとめてみたい。

| | コメント (0)