(建议阅读最新版本)
示例:假设有一个概率分布 y = f(x)。它的
均值(数学期望)是 bar x = int_{-infty}^{+infty} xf(x) ,{d}{x},
方差为 ^2 = int_{-infty}^{+infty} (x – bar x)^2 f(x) ,{d}{x} = left(int_{- infty}^{+infty} x^2 f(x) ,{d}{x} right) – bar x^2 = {x^2} – bar x^2
标准差为 = sqrt{int_{-infty}^{+infty} (x – bar x)^2 f(x) ,{d}{x} }。
如果测量一个数据,这三个值可以用来衡量数据的特征。
但是如果平均测量 n 次,平均值显然比一次测量更可靠,{{bar x}} < {}。各种教科书都会给出 {{bar x}} = frac{1}{sqrt n }{} 或 {bar x}^2 = frac{1}{n}^2 .所以哪里这个公式是从哪里来的?
实际上,在上式中,{bar x}^2 的定义为
begin{align}&{bar x}^2 = int_{-infty}^{+infty} left(frac{1}{n}sum_{i=1}^n x_i – bar x right) ^2 f(x_1) f(x_2)dots f(x_n) ,{d}{x_1} dots ,{d}{x_n}&(1)\end {对齐}
根据这个定义平均数符号,我们证明了 {bar x}^2 = frac{1}{n}^2。
首先考虑两次测量的情况,即n = 2。连续获得的x_1、x_2的概率密度为f_2(x_1, x_2) = f(x_1) f(x_2)。证明归一化并不难:
begin{align}&iint f(x_1) f(x_2) ,{d}{x_1} ,{d}{x_2} = int f(x_1) ,{d}{x_1} int f(x_2) ,{d}{x_2} = 1 times 1 = 1&(2)\end{align}
首先看(x_1 + x_2)/2的平均值,令y = (x_1 + x_2)/2。
begin{align}&begin{} bar y &= iint frac{x_1+x_2}{2} f(x_1) f(x_2) ,{d}{x_1} ,{d} {x_2} \ & = int {{x_1} f(x_1) ,{d}{x_1} } int f(x_2) ,{d}{x_2} + int f(x_1 ) ,{d}{x_1} int x_2 f(x_2) ,{d}{x_2} \ &= frac{bar x}{2} + frac{bar x}{2 } = bar x end{}&(3)\end{对齐}
结论是平均数符号,通过取两次测量的平均值,数学期望是一次测量的数学期望。这个结论是符合常识的。
按照同样的方法,可以测出方差。
begin{align}&begin{} {bar x}^2 &= iint left(frac{x_1+x_2}{2} – bar x right) ^2 f(x_1) f( x_2) ,{d}{x_1} ,{d}{x_2} \ &= left({x^2} – bar x^2 right) = ^2 end {}&(4)\end{对齐}
所以 {bar x}^2 = ^2,并且 {bar x} = frac{1}{sqrt 2 }
对于 2″>n > 2 的情况,也很容易证明 {bar x} = frac{1}{sqrt n}