tidyDataの考え方はデータモデリングの関数従属性排除に似ている
tidyDataの考え方はデータモデリングの関数従属性排除に似ているなと気づいたのでメモ。
とりとめもないラフなメモ。
【参考】
整然データとは何か|Colorless Green Ideas
整然データ(Tidy Data)とは何か?データ分析に必須の「型」を解説【データ分析力が上がる】
整然データ(tidy data)とは | IT工房|AI入門とWeb開発
16. 整然データ構造 | 私たちのR: ベストプラクティスの探究
僕の理解では、tidyでないデータは、ピボットテーブルで集計したデータ。
たとえば、変数に1月、2月のような時系列項目とか、オレンジ、アップルのような種類をばらした項目がある。
データモデリングならば、カラムに繰り返し項目が含まれているイメージ。
一方、tidyなデータは、ピボットテーブルでばらす前のデータ。
だから、Rのtidyverseライブラリには、pivot_widerでピボット集計できるし、pivot_longerでピボットテーブルを元に戻す操作がある。
そろそろ覚えるRで縦持ち横持ち変換?pivlot_loger、pivot_wider? - 医療職からデータサイエンティストへ
厳密にはデータモデリングの関数従属性排除とは異なるが、tidyでないデータには繰返し項目というカラムが含まれているので、カラムそのものを本来の項目でまとめて、関数従属性を排除していくイメージに似ていると感じた。
つまり、tidy dataという設計思想は、データモデリングにおいて、変数同士の関数従属性を全て排除して最小限の変数に正規化するイメージに似ているなと思った。
ちょうど、英語・数学・国語などの受験科目の得点分布のデータがあった時、受験科目を変数とみなし、その変数同士の相関関係を排除していったら、文系と理系の科目という2種類の変数に分類できる、みたいな感じに近い。
この発想を使うといろいろ脳内実験もできる。
人間の能力とは何か、を測定する時、英語、数学、国語、社会、理科のような科目、あるいは、知能診断で使うような暗記力、判断力、3次元の物体構想力、絵で捉えるイメージ力などの評価結果を、数多くの人からアンケートで収集し、それらの変数同士の相関関係や因果関係を見て、本来の知能の在り処を推定する、みたいなイメージ。
最初は、仮説は持っているだろうが、ある程度推測できる説明変数を数多くサンプルとして集めて、その変数の相関関係で関数従属性を排除していくと、最終的に本質的な説明変数が求まる、みたいなイメージかな。
tidyデータのアイデアは面白いし、そういう計算をR言語のtidyverseで簡単に操作できるのも面白そう。
R言語はやってみたいと思って取り掛かるものの、基本ライブラリは癖がある気がして、どうも慣れなかった。
やりたい目的はあるのに、そこにたどり着くために、APIの引数とかAPIの種類を覚えるのが苦痛で仕方なくて、自分は全然プログラミングの才能がないなあと思ってた。
でも、tidyverseライブラリのサンプルを見ていたら、これならようやく取りかかれそうと思った。
Rのtidyverseパッケージのパイプ演算子は、JavaやRubyのメソッドチェーンと同じだね。
Unixのパイプと同じ。
一時データを上書きすることなく、データをこねくり回すイメージ。
SQLの代わりに使いたくなってきた。
| 固定リンク
「統計学・機械学習・深層学習」カテゴリの記事
- 統計学の考え方をastahでまとめた(2023.05.28)
- ランダム化比較試験はなぜ注目されて利用されるようになったのか(2023.04.08)
- ChatGPTで起きている事象の意味は何なのか(2023.04.02)
- 過学習に陥った人間や社会の事例は何があるのか(2023.01.09)
- 計量政治学と計量経済学の考え方の違い(2022.10.02)
コメント