« Redmineのワークフローをバリューストリームマップで描いてみるとどう改善できるか | トップページ | Redmineの口コミ評判の記事のリンク »

2019/07/10

前処理大全の良いところ~SQLとRとPythonで対比できる

「前処理大全」の感想をラフなメモ書き。自分のための参考記事をリンクしておく。

【参考】前処理大全[データ分析のためのSQL/R/Python実践テクニック]:書籍案内|技術評論社

『前処理大全』のサンプルコード

Community Blog - 『仕事ではじめる機械学習』&『前処理大全』著者対談(Part 1)

Community Blog - 『仕事ではじめる機械学習』&『前処理大全』著者対談(Part 2)

Community Blog - 『仕事ではじめる機械学習』&『前処理大全』著者対談(Part 3)

Community Blog - 『仕事ではじめる機械学習』&『前処理大全』著者対談(Part 4)

データ分析初心者は「前処理大全」でデータ前処理を学べ | リーマンエンジニアのブログ

前処理大全は機械学習に関わる人の必需品 | Tamanyan.me | たまにゃんのエンジニアブログ

RとSQLを対応付けてみた - あらびき日記

R初心者はこれを見ろ!便利なパッケージまとめ!入門編 - Qiita

dplyrを使いこなす!基礎編 - Qiita

「前処理大全」はサラリと読んだだけのレベル。Rで少しずつ書きながら、こんな使い方をするのか、と初心者レベルから理解している。

R言語は以前からやりたい、と思っていたが、なかなか慣れなかった。SQLは分かるので、「前処理大全」のおかげでSQLと比較することで、R言語の書き方を覚えられる。「前処理大全」には、RよりもSQLの方が短く書ける場合もある、という事例が新鮮だった。

dplyrライブラリのおかげで、SQLのようなデータ操作をUnixパイプみたいに書けるのが快適。データ加工をバラし、試行錯誤しながら、データの特徴を分析できるのが楽しい。ggplotも使えば、データ分析結果をいろんなグラフで表示できるのもいい。

「前処理大全」の面白さは、SQLとRとPythonのプログラムを比較できる点にある。SQLのメリット、Rのメリットがどんな利用シーンであるのかよく分かる。

ちょうど、古代に書かれた聖書で、古代ギリシャ語とラテン語、コプト語を対比した書物みたいな感じ。SQLとRで、ニュアンスの微妙な違いが面白い。

但し、「前処理大全」はあくまでも、機械学習やデータ分析の前処理だけに特化しているので、それだけでは十分でないことは分かっている。本当の面白さはその先にあるから。

|

« Redmineのワークフローをバリューストリームマップで描いてみるとどう改善できるか | トップページ | Redmineの口コミ評判の記事のリンク »

プログラミング」カテゴリの記事

統計学」カテゴリの記事

コメント

コメントを書く



(ウェブ上には掲載しません)


コメントは記事投稿者が公開するまで表示されません。



« Redmineのワークフローをバリューストリームマップで描いてみるとどう改善できるか | トップページ | Redmineの口コミ評判の記事のリンク »