两个标准正态分布的和服从什么分布服从什么分布?

最近在家隔离,楼主就来写一个比较完整的回答吧。

  1. 首先,数据的分布可能多种多样。我们给两三个例子,均以直方图为例子。第一,数据可能是这样偏左分布的:

第二,数据可能是这样偏右分布的:

第三,数据的分布可能是或高或低的:

此外,在现实生活中,很多时候,数据可能是围绕着一个中心分布,不偏左、不偏右、也不或高或低,呈现一种中间高、两边低的趋势,我们称之为“正态分布”:

“正态分布”的形状类似于一个钟,又可以称之为“钟形曲线”

2. 生活中,有哪些数据通常是服从“正态分布的”?

第一,人类的身高;第二,机器制造的产品的大小;第三,测量误差;第四,血压;第五,考试分数。正是因为“正态分布”的数据在生产生活中经常出现,所以这是其备受重视的原因之一。此外,“正态分布”也叫“高斯分布”(纪念德国天才数学家高斯)。

3. 正态分布的简单性质。第一,平均数=中位数=众数;第二,关于中心对称;第三,50%的数据比平均数小,50%的数据比平均数大。

“正态分布”的性质示意图

4. 如何检验一批数据是否服从“正态分布”。第一,最简单也是最直观的方法,使用直方图:

如上图所示,如果直方图出现“中间高,两边低”的趋势,则我们可以说它近似服从正态分布。(这种做法简单有效,但是不严谨。)

如上图所示,如果QQ图中的数据点近似分布在一条直线附近,那么我们就说其近似服从“正态分布”。这种方法也是简单有效,不太严谨。

第三,量化检验方法一。量化检验方法分为两个学派,第一个学派就是我们说的频率学派(Frequentist tests)。常用的方法有:

  • (只有在零假设下,均值和方差已知才可用),
  • (基于KS检验, 从样本中估计均值和方差),

上述几种量化检验方法需要一定的统计学知识才能懂得其原理,此处不加以介绍。需要一定的编程基础,使用R、Python、MATLAB、SPSS等才可以实现。手工计算一般不太现实。其中皮尔森卡方检验是最常用的,其次是KS检验和Shapiro-Wilk检验。

第四,量化检验方法二。贝叶斯学派的检验(Bayesian tests)。计算slope和variance的整体后验分布的,会给出一个类似于Shapiro-Wilk检验的检验结果。

PS:借图说明一下偏态分布是什么概念。

事件A是一个随机事件,所有可能性汇总可以用正态分布函数N(μ,σ2)描述。其中μ是事件A在无限次触发下的结果的平均值(也叫数学期望,expectation);σ是这个事件的随机值的标准差(stand deviation)。标准差右边的2,是平方的意思(下同)。因为此处好像没有按钮让我打上标。

标准正态分布(Normal distribution),即N(0,1)的含义是,有一个随机事件B满足【无限次触发下,均值为0,且这些随机数们的标准差是1】。

对于函数P(X<10)的含义是,某个事件触发的结果在数字10以下的可能性的总概率是多少。P的含义是possibility。显然这个可能性的范围只会在[0,1]之间。

假设事件M服从标准正态分布N(0,1),写作M~N(0,1)。波浪线代表“服从”的意思。那么P(X<3)的意思就是事件M随机到3以下的数字的总可能性有多大。

对于这样的特殊事件M,因为我们已经知晓其~标准正态分布,所以如果我们若是画出标准正态分布的函数图像,就可以在图中用几何方法标识出P的具体大小。

标准正态分布的函数解析式为

标准正态分布的函数解析式

下图所示为标准正态分布的函数图像。图像上每一个具体的点的横坐标代表事件M本次触发的随机数,纵坐标代表本次触发的随机数的概率密度

值得一提的是,如果随机变量是离散的,任意一个点都不连续的,那么纵轴的单位是概率。譬如,某个事件C(事件C不服从正态分布)只会出现1,2,3,4这样四种情况,且4种情况等可能出现。那么,横坐标为1的点的纵坐标一定是25%。而且这样的事件C的函数图像在整个R上只有4个悬空的点,这4个点的横坐标分别是1,2,3,4。但如果随机事件D的触发值是连续的(比如我打翻一盆水,地上被我弄湿的面积),那么纵轴在量纲上就是概率密度了,因为整块函数与x轴包络的面积才代表概率。正态分布的初始研究是对于连续变量的研究,故而纵轴的量纲为概率密度。

图中,x=-3、x=-2、f(x)与x轴包络的面积表示的是随机事件触发结果值在(-3,-2)的可能性。比如我对着直角坐标系投掷飞镖,飞镖命中坐标后留下一个窟窿,窟窿的横坐标位置满足标准正态分布。如果我想计算砸出的窟窿所对应的横坐标正好位于-3到-2之间的可能性的大小(比如说砸1万次,有多少次横坐标在-3到-2之间),那么就根据函数解析式进行积分计算,可以求出这个可能性是2.5%,已在图中标注。

如果要计算飞镖的横坐标小于6的可能性,那么应当将函数从x=-∞到x=6的部分涂黑并计算其积分,黑色的面积大小即为所求的概率。

因为积分繁琐,故而现代常用excel中的正态函数公式计算。在计算机发明之前,数学家手工计算了标准正态分布的各个-∞到某个具体的x值所对应的面积,并汇总成表,交由工程师及物理学家进行生产实践。

《标准正态分布表》节选如下:

最左侧一列,代表的是x的前2位有效数字。最上面一行,代表的是第三位有效数字。比如我想知道标准正态分布从x=-∞到x=0.13之间的可能性,那么就在最左边一列里找到0.1所在的一行,在这一行里,找最上面是0.03的那个单元格。所以找到应该是0.5517。这个意思是,在标准正态分布下,从x=-∞到x=0.13之间的函数与x轴包络的面积是0.5517。换句话说,随机事件的结果小于0.13的概率是55.17%,写作P(X<0.13)=0.5517。

如果我想知道x∈(0.1,0.2)之间的可能性,那么就写作

可能你会奇怪为什么这张表没有列出x为负数的情况。是因为标准正态分布是一个偶函数,y轴左边的函数图像完全镜像于x>0的情况。故而,若是想知道P(X<-0.22)那么只需要计算P(X>0.22)即可,根据表格,这个概率应该是1-P(X<0.22)=1-0.9;

手握正态分布表可以让我们求出任意x对应的区间概率。也可以用概率反求x。比如我想了解,随机事件E服从标准正态分布,事件随机数从x=0.28开始,到x=多少之间,这区段的概率可以达到10%。换成数学符号,P(X<?)-P(X<0.28)=0.1,解得P(X<?)=0.1+0.3。然后我们再在表格中寻找0.7103会出现在哪里。观察发现?的值会在0.55到0.56之间,可以使用线性插值法进行进一步估算。

现实生活中,标准正态分布可遇不可求,大多是随机事件满足普通正态分布。即均值不为0,标准差也不会正巧等于1。事件A服从正态分布 N(μ,σ2),记A~N(μ,σ2)。

普通正态分布的函数解析式是:

普通正态分布函数解析式

显而易见,普通的对称轴是x=μ,标准的对称轴是x=0,那么初一小朋友都知道左加右减。而标准差σ在普通正态分布函数中决定了曲线的胖瘦。

如果对于一个服从普通正态分布N(μ,σ2)的事件A,我们想求出A无限试验下的PA(X<k),则可以借助标准正态分布函数来间接计算。

假设事件B满足标准正态分布,即B~N(0,1)。存在如下重要结论:

举例子,如果事件A服从普通正态分布N(5,4的平方)。也就是说,无限试验下事件B的均值是5,各个实验结果的样本标准差是4,事件A的结果触发值在理论上是连续的(但是样本100%是离散的!因为是随机点)。现在我想要计算事件A的触发值比10小的可能性,写作PA(X<10)。即k=10。

下面放出4个例题,供参考。其中的φ(t)就是标准正态分布的P(X<t)

普通正态分布概率计算例题
宜城教育资源网正态分布的期望和方差_标准正态分布Φ(x)公式_正态分布3σ原则_正态分布通俗解释_正态分布概率公式正态分布本词条由"科普中国"科学百科词条编写与应用工作项目审核。正态分布(Normaldistribution),也称"常态分布",又名高斯分布举一个身边的例子。我们先观察某中学男生的身高数据,从中指出身高最高和最矮的同学,或者算出他们身高的平均值。之后,如果我们想要知道男生身高数据的分布情况,比如

我要回帖

更多关于 两个标准正态分布的和服从什么分布 的文章

 

随机推荐