数Ⅰ 統計

【平均・分散・標準偏差】使う場面や本質、相加相乗平均など徹底解説

Today's Topic

$$平均\mu=\frac{x_1+x_2+x_3+\cdots+x_N}{N}$$

$$分散V=\frac{\left(x_1-\mu\right)^2+\left(x_2-\mu\right)^2+\cdots +\left(x_N-\mu\right)^2}{N}$$

(※見切れている場合はスクロール)

 

小春
楓くん!今回のテストは平均点よりも上だったんだよ!!
それはすごいね!ところで、分散とか標準偏差はいくらだったんだい?
小春
え。。。それはわかんないや。でもそれって必要なの?
実は平均っていうのはすごく怪しい数なんだ。分散や標準偏差をみることで、平均点の信頼性がわかるんだよ。
小春
え、そうなの!?詳しく教えて!

 

こんなあなたへ

「平均点って意味あるの?」

「分散や標準偏差の意味って何?」

 

平均の本質|平均の定義とその意味

 

あなたは平均の公式を覚えていますか?

平均値の求め方

\(x_1,x_2,x_3,\cdots,x_N\)の合計N個のデータがある。これらの値の平均値\(\bar{x}\)は、

$$\bar{x}=\frac{x_1+x_2+x_3+\cdots+x_N}{N}$$

で求められる。

このように算出された平均を相加平均ともいう。

 

そんな式簡単に覚えられているよ!

全てのデータを足して、データの個数で割ればいいんでしょ?楽チン楽チン!

と言った方は何人もいますが、その度に僕はいつも聞くのです。

結局平均は何を表しているの??
複数のデータの真ん中の値ってイメージがするんだけどなぁ
小春

 

具体的な場面で見ていきましょう。

例題

10人の生徒が50点満点数学のテストを受けたところ、

$$10,30,30,10,20,30,10,40,50,20$$

という結果であった。このときの平均を求めよ。

 

この5人の生徒の点数の平均を求めてみると、

\begin{align} 平均 &= \frac{10+30 +30 +10 +20 +30 +10 +40 +50 +20}{10}\\\ &= 25\\\ \end{align}

(※見切れている場合はスクロール)

となります。

 

この結果をもとに

みんなだいたい25点くらい取っているよ。

と言われてもなんとなくそんな感じがしますよね?つまりこのときはしっかりと”真ん中”として機能しているようです。

 

これから先の平均の考え方をわかりやすくするために、棒グラフ(ヒストグラム)を使って視覚的に平均を捉えてみましょう

ヒストグラム 

先ほどのデータを柱状グラフにするとこのようになります。

 

平均よりも上にある長方形と、平均よりも下にある長方形に着目すると、実はこんなことがわかります。

平均よりも上の長方形を、平均よりも下の長方形に分けてあげると、全ての長方形の高さが平均に揃うのです。

平均はヒストグラムの高さをならしたもの
こうやって分けると・・・
ヒストグラムは平均で揃う
ヒストグラムの高さが、平均でぴったりに揃うようになっているんだね!

 

このように平均は、柱状グラフ(ヒストグラム)の凹凸を平らにならす役割を持っています。

この感覚を持っていると、平均のメリットデメリットがよりわかりやすくなります。

 

平均の本質|平均値を使っても意味がない場面

平均が意味しているのは真ん中だ!

と答える方が非常に多いのですが、本当にそうなのでしょうか?

次の例題を見て、感覚的な”真ん中”かどうか考えてみましょう。

 

例題

10人の生徒が50点満点数学のテストを受けたところ、

$$10,5,3,10,5,3,2,1,1,50$$

という結果であった。このときの平均を求めよ。

 

少し極端な例かもしれませんが、この例題では平均が9となります。

この結果を受けて

みんなだいたい9点ぐらい取れてるね?

と言われたらどうでしょう。

あんまり納得いかないのではないでしょうか。

 

このように平均は極端に大きい値、もしくは小さい値に引っ張られるという弱点があります。

また先ほど同じように柱状グラフを見てみると、わかる通り

平均は値の大小に左右される
  • 高さ50の長方形は、大幅に高さがダウン
  • 高さが低い長方形は、高さが上昇しやすい

ということがわかります。

凹みが大きい分、そこに多くの面積を投じるため、最長の長方形の高さがダウンしてしまうね。

 

以上のことから、平均はデータの値の中に極端に大きな値や、極端に小さな値が混入していると精度が急激に落ちるということがわかります。

そのため平均を利用して何かを考察するときは、その平均を利用するデータの値のばらつき具合が小さいことを確かめて利用するようにしましょう。

 

平均の本質|有用な平均かどうかを判断するためには分散を使おう

小春
ところでその「データの値のばらつき具合が小さい」って、どうやって確かめるの?感覚?

 

データのばらつき具合を数量的に表した数が分散と呼ばれる値です。

簡単にいうと、『ばらつきレベル』を定義しものです。

ただその公式は、

分散の求め方

N個のデータ

$$x_1,x_2,\cdots,x_N$$

の平均が\(\mu\)のとき、分散\(V\)は次のように求める。

$$V=\frac{\left(x_1-\mu\right)^2+\left(x_2-\mu\right)^2+\cdots +\left(x_N-\mu\right)^2}{N}$$

(※見切れている場合はスクロール)

と少々複雑なように見えます。

 

そこで、分散の値がなぜこのような公式によって求められるのかを考えてみましょう。

この公式を導く過程での気持ちを理解すると、この公式の意味したいことがよくわかります。

 

分散の求め方

まずは感覚のお話。

例えば2つの資料があります。

資料1

$$3,5,7,5,6,3,4,1,6,4$$

平均:\(4.5\)

資料2

$$1,2,2,1,1,9,10,8,3,3$$

平均:\(4\)

 

見比べてみると資料2の方がばらつき具合が大きいような気がします。

小春
資料2には極端に大きな値と極端に小さな値が混在しているね。

 

平均に着目してみると、

  • 資料1はどのデータも、平均との差がそれほど大きくない
  • 資料2はどのデータも、平均との差が結構大きい

ような印象を受けますね。

 

つまりデータのばらつき具合を考える上で、平均との差に着目すればうまく数値化できそうです。

そこで『各データと平均の差』の平均を取ってみます。

要は『平均との誤差』の平均をとることで、大体の誤差を計ろうとしているよ。

 

資料1で考えてみると

\begin{align} \ & \ \ \ \frac{(3-4.5)+(5-4.5)+\cdots+(6-4.5)+(4-4.5)}{10}\\\ &= \frac{(3+5+\cdots+6+4)-4.5\times10)}{10}\cdots①\\\ &= \color{red}{\frac{(3+5+\cdots+6+4)}{10}}-\frac{4.5\times10}{10}\\\ \end{align}

(※見切れている場合はスクロール)

となりますが、

$$\color{red}{\frac{(3+5+\cdots+6+4)}{10}}$$

は平均を表す式となっています。

 

よって、

\begin{align} \frac{(3+5+\cdots+6+4)}{10}-\frac{4.5\times10}{10} &= 4.5-4.5\\\ &= 0\\\ \end{align}

(※見切れている場合はスクロール)

となり、ばらつき具合を求めることができませんでした。

 

ここでの問題点は負の値が出てきてしまうことです。

式①の分子に着目すると、

\begin{align} (3-4.5)+(5-4.5) &= -0.5+0.5\\\ &= 0\\\ \end{align}

というように互いに打ち消しあっている部分がいます。

 

そこで、負の値が出ないように全ての平均との誤差を2乗することにしましょう。

小春
なんか急に強引な気がするけど・・・。
マイナスを出さないためだ、仕方ない。

 

すると

\begin{align} \frac{(3-4.5)^2+(5-4.5)^2+\cdots+(6-4.5)^2+(4-4.5)^2}{10} &= \frac{28.5}{10}\\\ &= 2.85\\\ \end{align}

(※見切れている場合はスクロール)

のようになりました。

 

同様に資料2のときを求めてみると、

\begin{align} \frac{(1-4)^2+(2-4)^2+\cdots+(3-4)^2+(3-4)^2}{10} &= \frac{114}{10}\\\ &= 11.4\\\ \end{align}

(※見切れている場合はスクロール)

となりました。

 

よってばらつきレベルは

  • 資料1:2.85
  • 資料2:11.4

となるので、資料2の方が圧倒的にバラついていることが示せそうです。

つまり資料1の平均は信頼できるけど、資料2の平均は怪しいってことだね。

 

このように分散は、

  1. 各データの値と平均との差を求め、
  2. それらを2乗し、
  3. 2乗した値の平均を計算

することで求めることができます。

 

この気持ちを理解した上でもう一度、分散を求める公式を見てみましょう。

分散の求め方

N個のデータ

$$x_1,x_2,\cdots,x_N$$

の平均が\(\mu\)のとき、分散\(V\)は次のように求める。

$$V=\frac{\left(x_1-\mu\right)^2+\left(x_2-\mu\right)^2+\cdots +\left(x_N-\mu\right)^2}{N}$$

(※見切れている場合はスクロール)

 

このようにして求められる分散の値が小さければ小さいほど、平均は十分納得できる”真ん中”の数として理解できます。

学校によってはテスト返却の際、平均点と一緒に分散を掲載しているところもあり非常に優しい先生だなと感心させられていました(何様だよ。。)

 

標準偏差の求め方と意味

標準偏差とは、分散にルートをつけた値のことです。

標準偏差の求め方

N個のデータ

$$x_1,x_2,\cdots,x_N$$

の平均が\(\mu\)、分散\(V\)のとき、標準偏差\(s\)は次のように求める。

$$s=\sqrt{\frac{\left(x_1-\mu\right)^2+\left(x_2-\mu\right)^2+\cdots +\left(x_N-\mu\right)^2}{N}}=\sqrt{V}$$

(※見切れている場合はスクロール)

 

小春
なんで分散にルートをつける必要があるの?
実は分散にはある弱点があるんだ・・・。

 

分散を求める過程の中で、最も重要なのが

$$(各データ-平均)^2$$

を求めている点です。

 

これはデータのばらつきを求める上で、負の値を出すことを防ぐための対応でした。

ですがこの二乗は、単位に着目すると非常に気持ち悪いことになります。

 

例題

10人の身長のデータは以下の通り。データのばらつき具合を求めよ。

$$3,5,7,5,6,3,4,1,6,4$$

平均:\(4.5\)


分散を計算すると、2.85\(cm^2\)

 

身長のデータのばらつき具合を求めていたのに、出てきた「ばらつきレベル」の単位は\(cm^2\)となっていまい、

小春
身長のデータなのに、面積・・・?

と違和感が半端ないわけです。

 

そこでルートをつけることでこの二乗を取り払い、

標準偏差:\(\sqrt{2.85}=1.688\cdots cm\)

標準の単位に揃えるこができます。

 

平均の本質|色々な平均値

平均、と一言でいっても実はいろんな種類の平均があります。

ここでは3つの平均を紹介しますが、最初の度数分布表の平均以外はあまり使う機会がないかもしれません。

 

度数分布表の平均

$$15,6,19,13,1,3,26,26,11,3,2,12,13,18,27,30,15,27,13,20$$

(※見切れている場合はスクロール)

 

小春
え、なにどうしたの?
・・・、見にくくない?
小春
み、みに、くい、ね・・・?
階級 階級値 度数
以上 未満
0 5 2.5 4
5 10 7.5 1
10 15 12.5 5
15 20 17.5 4
20 25 22.5 1
25 30 27.5 5
  • 階級:ある一定の幅を設けた値の区間
  • 階級値:階級(設けた区間)の中央値
  • 度数:階級内に収まる数が出てきた回数

 

・・・・・・・・・
え、なに?
小春
見やすくない?
なんで黙ってるのよ!みやすいよ!
小春

 

このような表を度数分布表といいます。

データを羅列するよりも、どの区間の値が一番多いのかなど一目でわかるのでとても有用です。

 

しかし度数分布表を作成するにあたって、ある重要な情報を切り捨てています。

それはデータの値です。

例えばこの度数分布表から「11という数がいくつあったか」はわからないよね。

 

このとき、平均値を求めようとしても当然データの値がわからないわけですから正確に求めることはできません。

そこで、各階級の階級値と度数の積を求め、それらの値の平均を考えてみます。

すると、

\begin{align} \frac{(2.5\times4)+(7.5\times1)+\cdots +(27.5\times5)}{20} &= \frac{310}{20}\\\ &= 15.5\\\ \end{align}

(※見切れている場合はスクロール)

となりました。

 

度数分布表にする前のデータの羅列の平均を求めてみると、

\begin{align} \frac{15+6+\cdots +20}{20} &= \frac{300}{20}\\\ &= 15\\\ \end{align}

となり、その後さはわずか0.5ほどしかありません。

 

一般に生データと度数分布表の平均は一致しませんが、その誤差は無視できる程度のもの

平均の求め方の亜種として、度数分布表バージョンも覚えておきましょう。

度数分布表の平均

階級値 度数
\(x_1\) \(f_1\)
\(x_2\) \(f_2\)
\(\cdots\) \(\cdots\)
\(x_N\) \(f_N\)

度数の合計(\(f_1+f_2+\cdots+f_N\))が\(n\)のとき、度数分布表の平均は以下のように求める。

$$\frac{x_1f_1+x_2f_2+\cdots +x_Nf_N}{n}$$

 

相乗平均

相乗平均は、経済や人口の成長率などでよく用いられる平均値です。

2つのデータ\(x_1,x_2\)があるとき、普段よく使う平均は\(\frac{x_1+x_2}{2}\)を計算することで求めます。

 

しかし、この相乗平均は\(\sqrt{x_1\times x_2}\)で求めます。

相乗平均を求めるためには、2つのデータ\(x_1,x_2\)が正の値である必要があります。

 

相乗平均をあなたが実際に使う場面というのは、それほど多くないと思います。

人によっては全く使わないものでしょう。

しかし、相加相乗平均と呼ばれる数学の定理はよく使われます。

 

相加相乗平均

2つの正の値\(a,b\)に対して、

$$\frac{a+b}{2}≧\sqrt{ab}$$

ただし等号が成立するのは\(a=b\)のとき

文系数学で分数関数の最大値問題が出てきたら、十中八九こいつ使うね。
正の値、という制約は相乗平均の都合だね
小春

 

問題演習でよく出てくる相加相乗平均ですが、何も2つの正の値だけでなく、複数の正の値でも考えることができます。

参考

\(n\)個の正の数\(x_1,x_2,\cdots,x_n\)において、

$$\frac{x_1+x_2+\cdots +x_n}{n}≧\sqrt[n]{x_1x_2\cdots x_n}$$

 

相加相乗平均の例題

例題

\(x>0\)とする。このとき、次の最小値を求めよ。

$$\left(x+\frac{1}{x}\right)\left(2x+\frac{1}{2x}\right)$$

(慶應義塾大学)

文系数学では結構このパターンが多いよ。

 

解答
\begin{align}  & \ \ \ \left(x+\frac{1}{x}\right)\left(2x+\frac{1}{2x}\right)\\\ &= 2x^2+\frac{1}{2x^2}+\frac{5}{2}\\\ \end{align}
 
\(2x^2>0,\frac{1}{2x^2}>0\)より、相加相乗平均を用いると

\(\frac{2x^2+\frac{1}{2x^2}}{2}≧\sqrt{2x^2\times\frac{1}{2x^2}}=1\)

よって、
$$2x^2+\frac{1}{2x^2}+\frac{5}{2}≧2+\frac{5}{2}=\frac{9}{2}$$
ただし等号が成立するのは\(2x^2=\frac{1}{2x^2}\)かつ\(x>0\)のとき。
すなわち、\(x=\frac{9}{2}\)のときである。

小春
等号成立の時って必ず書かなきゃだめ?
そう、なぜなら場合分けだからさ。\(a≧b\)と言っても\(a=b\)になるとは限らないよね。等号成立の条件はしっかり考えておこうね!

 

調和平均

これを問題に出してくる人は相当正確悪いので、豆知識程度に知っておきたい人向けです。

 

調和平均は以下のように定義されます。

2つの数\(a,b\)の調和平均は、
$$\frac{1}{2}\cdot\left(\frac{1}{a}+\frac{1}{b}\right)$$

 

この平均は速度の平均を求める際に使うことがあります。

が、それよりもちょっと便利なのが以下の不等式です。

 

相加平均(いつもの平均)、相乗平均、調和平均には以下のような関係がある。

調和平均\(≦\)相乗平均\(≦\)相加平均

どこかで何かの役にたつかもね。いい問題あったら紹介しよ。
最後すごい適当じゃない?そんなに出てこないものなんだね・・・
小春

 

平均の本質|まとめ

最後にまとめをしよう!

 

まとめ

  1. 平均は柱状グラフの凹凸をならしているイメージ
  2. 平均は値のばらつきが多いと、信用できない
  3. 値のばらつきを求めるためには、分散を求めれば良い。
  4. 度数分布表の平均は、生データの平均とは一致しない。
  5. 文系数学の入試問題で出題される分数関数の最大最小値問題は相加相乗平均の可能性大

 

今回扱ったように、平均とは絶対に信用できる数値というわけではありません。

ここで大事なのは、だからこそ平均という情報を相手が提示してきたときに疑うということです。

データの表現方法は様々で、人間は自分の都合のいいようにデータを表現します。

そこで提示されたものが本当に適切かどうか、信用するに値するかどうかは受け取り手である私たちが判断しなければなりません。

 

塾の広告で、『塾生全員の期末テストが平均20点もアップしました!』と言われても、もしかしたら1点も上がっていない人がいるかもしれないよ。
平均という1つのデータだけじゃなく、分散とかいろんな値と一緒に見ることで情報の正確性を確かめられるんだね。
小春

 

以上、「平均の本質」でした。

\今回の記事はいかがでしたか?/

-数Ⅰ, 統計

© 2020 青春マスマティック Powered by AFFINGER5