Twitter で興味深い問題を観測したため、久々に記事を書きます。
今回のテーマは『箱ひげ図』。数学Ⅰで登場して直ちに忘れられ、共通テストで再会して受験生に絶望をもたらす、あの図です。基本的に第1・第3四分位数を読めたら正解できる設問が多いので、共通テストではそこを意識しましょう。
とはいえ、はたして箱ひげ図のパワーはそれだけなのでしょうか。もっと色々な情報を読み取れる場合もあるのではないでしょうか。数学を嗜む皆様としましては、そのように考えたくなりますね。えっ、ならない? 本当に? ……共通テストの作問者がそう考えている可能性は十分にありますので、皆様も少しは考えていたほうがよいと拝察いたします。お節介かもしれませんが。
では、情報を読み取ってみましょう。以下の問題をご覧ください。
次の箱ひげ図は15人が受験した数学のテストの得点を表しています。このとき、箱ひげ図から読み取れる事実として、以下の①②③はそれぞれ正しいですか。
① 平均点は35点よりも高い。
② ちょうど20点をとった人がいる。
③ 最下位の偏差値は35よりも高い。
ただし、四分位数の定義は文部科学省のそれに従うものとします。
▲非常にリアルな得点分布
元ネタは
数学共通テスト自作問題・入試問題演習
様が作問された
こちらの問題
です。「平均点」・「具体的な点数」・「偏差値」と、普段の箱ひげ図では滅多に見られない3要素が揃っています。箱ひげ図をじっくり見れば、こういった情報も浮かび上がってくるのでしょうか。
すぐ下に解答が載っているため、熟考したい方はここでスクロールを止めてください。
①②③はすべて正しい。
15人の得点を昇順に並べた数列を$a_i$とすると$(1 \leq i \leq 15)$、箱ひげ図より以下の事実が分かる。
$$ a_1=10,\, a_4=20,\, a_8=30,\, a_{12}=70,\, a_{15}=90$$
よって②は正しい。また、$a_i$の平均を$m$とおけば、$a_i$は広義単調増加であるから、
$$ \begin{align}
\dfrac{10\cdot 3+20\cdot 4+30\cdot 4+70\cdot 3+90}{15}\leq m \leq \dfrac{10+20\cdot 3+30\cdot 4+70\cdot 4+90\cdot 3}{15}
\end{align}$$より$\dfrac{106}{3}\leq m \leq \dfrac{148}{3}$を得る。よって①も正しい。
残るは③であるが、その前に以下の補題を示しておく。
$N$個の数からなる集合$G_N$があり、その平均は$M$である。いま、ここに$x$という数値を追加して$(N+1)$個の数からなる集合$G_{N+1}$を作る。このとき、$x$が$M$に近ければ近いほど、$G_{N+1}$の分散は小さくなる。
$G_N$の分散を$V_N$、$G_{N+1}$の分散を$V_{N+1}$とおくと、(分散)=(2乗の平均)-(平均の2乗)であるから、以下の式が成立する(左辺・右辺ともに$G_{N+1}$の要素の2乗和となる)。
$$ \begin{align}
(N+1)\left(V_{N+1}+\left(\dfrac{NM+x}{N+1}\right)^2\right)&=N\left(V_N+M^2\right)+x^2 \\
V_{N+1}&=\dfrac{N\left(V_N+M^2\right)+x^2}{N+1}-\left(\dfrac{NM+x}{N+1}\right)^2 \\
&= \dfrac{NV_N}{N+1}+\dfrac{N(x-M)^2}{\left(N+1\right)^2} \qquad\dots({\rm i})
\end{align}$$
$x$が$M$に近づくと、$({\rm i})$は明らかに小さくなる。これが示すべきことであった。$\blacksquare$
さて、$a_i$の分散を$s^2$とする。2以上14以下の自然数$k$を任意にとり、数列$a_i$のうち$a_k$の値だけを動かしてみよう。
この操作で$k$項目以外の$a_i$の値は不変であるから、補題1より、$a_k$が残り14項の平均$m'$に近ければ近いほど$s^2$は小さくなる。$\dfrac{106}{3}\leq m \leq \dfrac{148}{3}$を考慮すると、
$$ \dfrac{1}{14}\left(\dfrac{106}{3}\cdot 15-90\right)< m'<\dfrac{1}{14}\left(\dfrac{148}{3}\cdot 15-10\right)$$
すなわち$\dfrac{220}{7}< m'<\dfrac{365}{7}$と分かる。したがって、例えば$k=7$の場合、操作前は$20\leq a_k\leq 30$であり、$a_k=30$と置き換えたときの$a_i$の分散は$s^2$以下といえる($\because$ $m'>30$)。他の場合も同様に考えれば、
$$ a_2=a_3=20,\, a_5=a_6=a_7=30,\, a_{13}=a_{14}=70$$
のときに$s^2$が最小となることが分かる($\because$ $30< m'<70$)。
改めて$a_i$の平均が$m$であるという事実に注目すると、このとき$a_9+a_{10}+a_{11}=15m-490$である。この条件下では、$m$を固定したとき、$a_i$の2乗和が小さければ小さいほど$s^2$も小さくなる($\because$ 分散の定義)。
$$ \begin{align}
\left({a_9}^2+{a_{10}}^2+{a_{11}}^2\right)\left(1^2+1^2+1^2\right)
&\geq \left(a_9\cdot 1+a_{10}\cdot 1+a_{11}\cdot 1\right)^2 \\
&= \left(a_9+a_{10}+a_{11}\right)^2 =(15m-490)^2
\end{align}$$となるので($\because$ コーシー・シュワルツの不等式)、$a_9=a_{10}=a_{11}=\dfrac{15m-490}{3}$のとき、${a_9}^2+{a_{10}}^2+{a_{11}}^2$は最小値$\dfrac{(15m-490)^2}{3}$をとるといえる。以上より、平均が$m$という条件の下では、
$$ a_i=\left\{ 10,20,20,20,30,30,30,30,\dfrac{15m-490}{3},\dfrac{15m-490}{3},\dfrac{15m-490}{3},70,70,70,90\right\}$$が$s^2$を最小にする得点分布であることが示される。なお、このとき$s^2=\dfrac{(6m-245)^2+4615}{9}$である。
分散が小さければ標準偏差も小さくなり、1位の偏差値は高く、最下位の偏差値は低くなる。つまり、有り得るどのような$m$についても、$s^2$を最小化した場合に最下位の偏差値が35を超えているならば、③は正しいといえる。
ここで、数列$b_i$を
$$ b_i=\left\{ 10,20,20,20,30,30,30,30,\dfrac{15m-490}{3},\dfrac{15m-490}{3},\dfrac{15m-490}{3},70,70,70,90\right\}$$
と新たに定義し、数列$b_i$における$b_1 (=10)$の偏差値$D(m)$を考えよう。$\dfrac{106}{3}\leq m \leq \dfrac{148}{3}$の範囲で$D(m)>35$が成り立つことを確認したい。偏差値の定義より、$u=(6m-245)^2+4615$として
$$ \begin{align}
D(m)&=\dfrac{b_1-m}{s}\cdot 10+50=50-\dfrac{30(m-10)}{\sqrt{u}} \\
\dfrac{d}{dm}D(m)&=\dfrac{30(m-10)\left(\dfrac{d}{dm}\sqrt{u}\right)-30\sqrt{u}}{u}=\dfrac{300\left(111m-4994\right)}{u\sqrt{u}}
\end{align}$$であるから、この範囲における$D(m)$の増減表は以下の通り。
$\boldsymbol{m}$ | $\dfrac{106}{3}$ | $\cdots$ | $\dfrac{4994}{111}$ | $\cdots$ | $\dfrac{148}{3}$ |
$\boldsymbol{\dfrac{d}{dm}D(m)}$ | $-$ | $0$ | $+$ | ||
$\boldsymbol{D(m)}$ | $50-190\sqrt{\dfrac{2}{713}}$ | $\searrow$ | $50-10\sqrt{\dfrac{1942}{923}}$ | $\nearrow$ | $50-\dfrac{295}{\sqrt{451}}$ |
ゆえに、$D(m)\geq 50-10\sqrt{\dfrac{1942}{923}}>35$が常に成立する。よって③も正しい。
結局、①②③はすべて正しいのである。
Twitterの投票機能で正答者の割合を調べてみました。 ①と②の結果 ③の結果
① | ② | ③ | 全問正解率(推定) |
---|---|---|---|
26.5% | 58.7% | 39.3% | 5.2%~7.1% |
あれだけ長々と解説した③よりも①のほうが難しいようですね。ただ、「正しい」「正しくない」の2択から選んでいることを踏まえれば、どの問題もかなり誤答は多いと感じます。もっと箱ひげ図を信じてあげましょう。
未定の一語に尽きます。プライベートがやや多忙になったもので……。