目次
1本記事を書いた編集者の意図- 2本記事でわかること
- 3回帰分析の種類と評価方法まとめ
- 4まとめ
1:本記事を書いた
私は、データ分析を担当している「文系」人材です。一生懸命、業務に利用する内容を1つ1つ調べながら「なんちゃって」分析でのりきってきました!!
そうなると、よくあるのが「見よう見まねでやったが説明できん・・・」。
今回は、回帰分析で本当によいのか?と聞かれて困ったのである程度調べた基本事項をまとめて記載した。
こんな方に読んでほしい:
分析初心者の方(特に、営業など普段のメイン業務でない方!!)
理論だけ知っており実践経験のない学生の方
2:本記事でわかること
本記事では、各種回帰分析の種類・特徴・評価方法の3点セットがわかります。
また、実例としてExcelでの単回帰分析・重回帰分析/Pythonでの回帰分析方法を記載しております。
3:回帰分析の種類と評価方法まとめ
各種回帰モデル
1:線形単回帰分析:1つの説明変数(X)で1つの目的変数(Y)の値を予測する手法
例)夏の気温(X)とアイスクリームの売上(Y)を予測する
式:Y=ax + b
【メリット】
・簡単でエクセルでも実施できる
・1対1の関係であるため、結果の説明が用意
【デメリット】
・1つの要因しか加味されないため、複数の要因にて成り立つ結果を説明できない。
売上(Y)を商品価格(X)以外にも、競合状況からプロモーション結果など様々な要因が想像できるにもかかわらず、1変数でしか評価できない。
【評価方法】
・指標:決定係数(R²) 0~1の範囲をとり1に近いほど説明力が高いといえる
2:線形重回帰分析:複数の説明変数(X₁,X₂,X₃・・・)で1つの目的変数(Y)の値を
予測する手法
例)事業部の売上(Y)を予測するため、広告費(X₁)と商品価格(X₂)に加えて、
景気動向(X₃)を予測するなど。
式:Y=a1X1+a2X2+a3X3+b
【メリット】
・複数の要素を加味できるため、ビジネスに利用しやすい
・要素の影響度を考える(何が結果に最も影響しているのか)さいに利用できる
【デメリット】
・モデルの説明力を高めないとミスリードをする
・説明変数が多すぎるとオーバーフィッティング(過学習)がおきる
・説明変数同士が相関してはいけない(多重共線性)
【評価方法】
・補正R²値 0~1の範囲をとり1に近いほど説明力が高いといえる
・P値 0.05以下なた有意差がある(影響があると捉える)
3:ロジスティック回帰分析:目的変数(Y)が2値(Yes or No / 成功 or 失敗など)に
用いる。
説明変数(X)に基づき目的変数(Y)の確立がどの程度変化するのかが可視化される。
式:logit(p)=ln(1−pp)=aX+b
【メリット】
・シンプルに確立で表現されるため解釈が容易
・2値の分類問題の代表的手法である
【デメリット】
・説明変数のスケール(範囲)が大きい場合は標準化や正規化が必要
・2値の分類以外には利用できない。
【評価方法】
・AUC:0.5~1の間値をとり、0.5~0.7が不良、0.7~0.9は適合、0.9~は良好。
・疑似R²値:R²のようなものであり、絶対的にこれがよいと判断するものではない。複数のモデルを相対的に評価する際に利用する。
4:ランダムフォレスト:決定木とアンサンブル学習を組み合わせたモデル。回帰にも分類問題にも適用できる。過学習を避けやすいモデルなので、一つランクアップしたい方にはとてもおすすめ。
【メリット】
・回帰にも分類にも適用できるので覚えると便利
・過学習になりずらいのでビジネスシーンに利用しやすい
【デメリット】
・Excelでは非対応(Pythonなどの知識が必要)
・計算コストが高い(時間がかかる)
【評価方法】
・AUC:同上
・正解率(適合率)
まとめ
今回は、基本的な回帰分析関連をまとめてみました。
そんなの知っているよ!って方もここまで読んで振り返りになったのではないでしょうか?
初心者の方も、読んで実践・そしてまた戻ってきてもらうえると私もうれしいです!