もうすぐクオンツの投資日記

もうすぐで大学生活を終えようとする理系慶應大学院生の備忘録です。プログラム、金融、データ分析、就活に関して書こうと思います。ちなみに来年度からは三菱系サラリーマンですね。

【第2章】記述統計学基礎【データの散らばりと関連性】

復習と定義

適当にまとめます。

文字の定義

まず文字の定義をしておきます。

X:一次元データ配列

xi::データXのi番目の要素

X:2次元データ配列

xij:2次元データ配列Xのi,j要素

n:データ数

平均値(Mean)Average

Mean(X) = 1/n×Σxi

中央値(Median)

 Median(X)

最頻値(Mode)

Mode(X)

 

データの散らばり

分散(Variance)

分散は平均値からどの程度データにばらつきがあるのかを定量的に示すものです。

Variance=1/n×Σ[xi-Mean(X)]^2

標準偏差(Standard deviation)

分散も標準偏差もばらつきを示すものですが、単位系をそろえるため、より分かりやすいような形で示すために、標準偏差を用いることは多いです。

Sd(X)=Variance^(1/2)=[1/n×Σ{xi-Mean(X)}^2]^(1/2)

 

データの関連性

共分散(Covariance)

共分散は2つのデータセットどうしがいかにばらついているかを示したものになります。

Covar(X,Y)=1/n×Σ[xi-Mean(X)][yi-Mean(Y)]

相関係数(Correlation coefficient)

 相関係数は2つのデータセットの直線関係の強さを測るものです。

Cor(X,Y)=Covar(X,Y)/[Sd(X)Sd(Y)]

 

共分散と相関係数の違いと注意

どちらもデータ間の関係性を示す指標です。相関係数は-1から1の範囲で値を取り、絶対値が大きいほど相関があることを示しています。共分散も大きいほど相関が大きくなりますが、共分散には傾きの情報も入ります。たとえば、データXとYのデータがY=Xの直線状にピッタリ乗っているとします。この場合、相関係数は1です。共分散はデータの絶対量によって変わるので、この情報からだけは決定しませんが例えば6とします。一方で、同じようにデータXとYのデータがY=8Xの直線状にピッタリ乗っているとします。この場合、先ほどと同じ相関係数は1です。共分散は先ほどより大きくなります。このように共分散はデータ間の直線関係の傾きの情報を含んでいます。

注意ですが、相関が強いからと言って、因果関係があるわけではありません。

たとえば、ビールの売上げとアイスの売上げには相関があると言われています。でもこれって因果関係あると思いますか?例えば、ビールの売り上げを上げることができればアイスも売れるのでしょうか?

勘のいいひとは気づいているかもしれませんが、気温が関係していると考えられます。気温が高いとビールもアイスも売れそうですよね?だからビールとアイスに相関があるわけです。でもそこに因果関係はありません。(あるかどうかわかりません)