もうすぐ三菱エンジニアの投資日記

もうすぐで大学生活を終えようとする理系慶應大学院生の備忘録です。プログラム、金融、データ分析、就活に関して書こうと思います。ちなみに来年度からは三菱系サラリーマンですね。

【第1章】記述統計学基礎【データの種類と代表値】

文字の定義

まず文字の定義をしておきます。

X:一次元データ配列

xi::データXのi番目の要素

X:2次元データ配列

xij:2次元データ配列Xのi,j要素

n:データ数

 

データの種類

まずデータは2大別されます。質的データ量的データです。

質的データはさらに2分類されます。名義尺度順序尺度です。

量的データもさらに2分類されます。間隔尺度比率尺度です。

質的データは、名前であったり、順位であったり、定量的な意味を持たないデータのことを指します。このうち名義尺度は名前であったり、数字であってもその数そのものに意味がないデータ(背番号とか)のことを指します。順序尺度は順位、何かの満足度とか順序が付くものです。

量的データは、日付、人口など、定量性を持つデータです。

このうち、間隔尺度とは足し算や引き算しても意味があるデータです。日付とかですね。その間隔には意味がある。一方で絶対値に意味がないものです。

比率尺度は、掛け算割り算に意味があるものです。人口とか、多くのデータがこれに当たると思います。

 

 

データの代表値

平均値(Mean)Average

Mean(X) = 1/n×Σxi

例えば下のような8つの数字から成る要素を持つ一次元データXがあったとします。

X

2

2

3

3

5

5

5

7

 

この時の平均値は Mean=1/8*(2+2+3+3+5+5+5+7)=4 となります。

 

最頻値(Mode)

最頻値はデータが一番集まっているところです。

先の例だと、5が3つで一番多いことが分かります。ということで最頻値は5です。データが少ないとうまく決まりません。例えば、例で3も3つあったら、5と3どちらが最頻値か決めることができません。

 

中央値(Median)

データがちょうど二分されるところです。

Median(X)=xi, i=(n+1)/2, if n is odd

Median(X)=(xi+xj)/2, i=n/2, j=n/2+1, if n is even

データ数が奇数の場合は(n+1)/2番目のデータです。 今回のようにデータが偶数の場合は、 n/2番目とその次、n/2+1番目のデータの平均値で示します。 というわけで今回の例では、4番目と5番目のデータの平均値で Median(X)=(3+5)/2=4 となります。

 

それぞれの特徴

平均値は、すべてのデータを考慮するため外れ値の影響を強く受けてしまいます。

中央値は、外れ値には強い一方で、ずば抜けた数値をうまく考慮できていません。

最頻値は、外れ値に強い、データが少ないと代表値としての正当性を保てない。

 

たとえば、だいぶざっくりですが、日本の平均年収は500万、中央値は400万、最頻値は200万-300万、と言われています。どれもデータを代表する数値としてよく使われますが、こんなにも違うのです。多くの人が平均値を盲目的に信じてしまいますがよくないですね。平均値は一部の富豪たちによって引き上げられた結果高くなってしまうわけです。20人いて、一人が年収1億、その他0円でもこの20人の平均年収は500万ですからね。それを代表的な年収とするかどうかは難しいということです。

 

 

ちなみに多くの場合、

最頻値<中央値<平均値

となることが経験的に多いとされています。この経験則をピアソンの経験則と言います。

 

ima.goo.ne.jp

 

次回はデータの散らばりについて書きます。

標準偏差とか、分散とか絶対偏差とかです。

keio-ob-k.hatenablog.jp