分析の種類
データ分析にはパターンがあり、知りたいことや与えられるデータによって、分けられます。
いろいろ学んでいくうちに、各パターンの具体的なイメージはついてくると思いますが、最初に、大枠の全体像についても把握しておくと、学びやすいかもしれません。
まずは、目的変数(簡単にいうと、値を予測したい変数のことです。)がある場合と、目的変数がない場合の2つに分けられます。
目的変数がある場合の分析
例えば、Kaggleのコンペページからダウンロードできるtrainデータや、Webのログデータから成型したユーザー毎のWeb行動データがあり、これを分析してみる。というシチュエーションを想定します。
その際の分析の目的は、「結果を予測出来るようになる」ということになります。
このために、「まず分析する対象(人、商品、不動産等)があって、その対象が持つ属性としての、目的変数と説明変数の関係を調べる」ということをします。
ここで、目的変数は、予測したいなんらかの変数(生死結果、価格、CVしたかどうか等)であり、説明変数は、目的変数の予測の手がかりになるその他の変数(人の年齢性別、居住地、商品のカテゴリ等)です。
いくつか例を挙げると、下記の通り。
タイタニック号沈没事故による乗客の生死を予測する(Kaggleのコンペ)
※過去の事実のデータを、2分割し、一方のデータで残りのデータを予測するということをやるため、"予測"という言葉を使っている。
Titanic: Machine Learning from Disaster | Kaggle
分析対象:タイタニック号の乗客
目的変数:事故による生死結果
説明変数:名前、年齢、性別、乗船場所、部屋のランク、等
意義:この場合、予測すること自体にはあまり意味はない。生死の結果の要因を明らかにすることで、今後の対策に活かすなどの意義がある。
不動産の売却値段を予測する(Kaggleのコンペ)
House Prices: Advanced Regression Techniques | Kaggle
分析対象:ある地区内の不動産
目的変数:各不動産の売却値段
説明変数:エリア、広さ、不動産カテゴリ、面する通り、等
意義:将来の不動産価値を予測できるようになり、不動産ビジネスで優位に立てる。売る側としては、値段の要因を明らかにすることでより高い値段で売却できるような改善を行える。
Web行動データからCV有無を予測する
分析対象:Webサイトユーザー
目的変数:CVの有無
説明変数:閲覧ページ、セッション数、PV数、アクセス日時、流入元、年齢、性別、等
意義:CVし易いユーザーを予測し積極的に集客する。サイト内の改善点を見つける。
つまり、「目的変数がある場合の分析」とは、「(目的変数の)結果を予測出来るようになる」ための分析ということです。
目的変数がない場合の分析
目的変数がない場合の分析は、主に、分析するサンプル間の関係や変数間の関係を明確にすることが目的となります。
また、複数の変数を新しい変数で説明する(要約する)場合もこれに含まれます。要約した後に、変数の因果関係が判明し、目的変数と説明変数に分かれる場合もあります。
具体的には、Web行動データからユーザーを興味関心カテゴリで分類するとか、アンケートデータの要素を整理するとかがあります。
変数の種類について
上記の目的変数及び説明変数については、それぞれそれが量的変数なのか質的変数なのかで、使う分析手法が異なります。
量的変数とは、読んで字のごとく何らかの量を表す変数のことで、例えば、体重とかPV回数とか値段とかです。
質的変数は、量的変数でない変数のことで、例えば、居住地とか、5段階評価のアンケート回答とか、性別とかです。
この量的変数と質的変数は、分析の時の扱いが異なるので、常にその変数がどちらに属するのかを意識しながら分析手法を考えることになります。
多変量解析について
先述までの分析は、全て多変量解析を想定した話になります。厳密に言うと、これ以外に、単変量解析、2変数解析という分析が存在しますので、これについても一応言及しておきます。
多変量解析というのは、使う変数が3つ以上の分析手法のことです。
それより変数が少ない場合、1変数のみを単変量解析、2変数のみを2変量解析といいます。
1変数のみの単変量解析は1次元の値の分布を把握し、2変量解析は2変数間のみの関係性をみていくことになり、多変量解析の前にざっくり変数の性質を把握するための分析となります。
多変量解析と2変量解析の大きな違いは、説明変数同士の相関性を考慮できるかどうかという点になります。
例えば、商品購入有無が目的変数で、客の性別、年齢が説明変数だった場合、2変量解析で年齢と商品購入有無だけみていた場合に相関性がない場合でも、性別という説明変数を取り入れ、性別毎に、年齢と商品購入有無を見ていくと、実は相関性があるようなケースは、2変量解析だけでは十分でなく、多変量解析が必要なケースとなります。
多変量解析のまとめ
分析の全体像としては、下記のような感じになります。
各分析の分類方法はこれまで説明した通り。それぞれの手法は、名前だけメモしておいて必要になった時に都度確認して習得していけばよいです。徐々にできる分析の幅が広がっていくことになるかと。
課題に遭遇したら、まずは、何をしたいのか(予測か分類か要約か)と、登場する各変数は何か(量的か質的か)を把握すること。それが整理できれば、あとはその場合の手法が何かを調べていけば万事OK。となります。
多変量解析まとめ(目的変数あり)
目的変数 | 説明変数 | 分析手法 |
---|---|---|
量的変数 | 量的変数 | 重回帰分析 |
量的変数 | 質的変数 | 数量化I類 |
量的変数 | 質的変数 | 分散分析 |
量的変数 | 量的変数、質的変数混合 | 共分散分析 |
質的変数 | 量的変数 | 判別分析 |
質的変数 | 質的変数 | 数量化II類 |
質的変数 | 量的変数、質的変数混合 | 共分散分析 |