数学公式:九选一重复概率是11%,那九选四重复概率呢?

一、你跟她有没有机会?

假设,你暗恋单位某个异性同事,也知道她没有男友,很想向她表白。

可你的单位是比较保守的国企,员工流动性很小,同事关系复杂,还有不少喜欢传小话的无聊大妈,万一被拒绝,以后的同事关系就比较难相处了。

不能轻易开口,怎么办呢?

你可以设计一系列恰到好处的暗示,并通过概率分析,判断她接受你的可能性,来决定要不要向她正式表白。

比如说,你可以在工作上请她帮一个忙,然后以感谢的名义请她吃饭,看看她的反应。

很多人觉得,这个方法根本看不出什么结果:她就算答应吃饭,不代表她对你有意思,她就算不答应吃饭,也不代表她不喜欢你。

只是找个由头请她吃饭,确实得不到明确的结论,却可以通过一个特殊的计算方法,知道“你们俩有没有机会”的概率。

这就是“贝叶斯方法”,它是一种经验推理,可以评估一个走进商店的人最终购物的概率;也是机器学习方法,可以推测网络那边的人喜欢看什么视频。

这也不仅是一个方法,还是一种重要的思维方式,帮助你在千头万绪的状态下,作出合理的决策,所以我把它列为成为“99种思维模型”的第12篇:贝叶斯思维模型。

“贝叶斯方法”并不难,介绍的文章也很多,只是大部分都充满了复杂的数学符号,让人望而却步,本文中,我尝试只用图表,不用任何数学符号,介绍清楚最基本的“贝叶斯方法”。

首先,我们要设立一个“先验概率”——像你这样的同事的表白,她接受的概率是多少?

很多人可能觉得这没道理,如果我知道,那我还做什么测试?

没关系,“先验概率”就是凭感觉凭经验先估算一个概率,之后再慢慢向实际情况靠拢。

如果说,你觉得她对你好像有那么一点意思,但你又怕是自己自作多情,那就把“有机会”的概率定为60%,“没有机会”就是40%,我用下图表示:

接下来,还要再设定两个条件概率,不同情况下,她接受邀请的概率是多少?

条件概率不同于先验概率,它需要有一定的依据,比如本例中,你要根据平时对她的观察给出结论

条件概率一:如果你俩实际上“有机会”,那么,她接受这个邀请的概率有多高?

一般而言,这个概率应该比较高,但考虑她有可能没理解你的意思,或者她近来心情不好,或者有其他不方便告诉你的原因,那么这个概率定为80%。

条件概率二:如果你俩实际上“没有机会”,那么,她接受这个邀请的概率有多高?

相信大部分情况下,她会拒绝,但因为邀请比较含糊,如果她没往这方面想,或者觉得你请她吃一顿也是应该的,她也有可能接受,所以,这个概率定为40%。

现在,我们就可以计算如下图所示的所有四种情况出现的概率了——

左上角:实际“没有机会”,却接受了你的邀请,这种情况的概率就是40%中的40%。即为:40%*40%=16%

左下角:实际“没有机会”,也拒绝了你的邀请,概率:40%*60%=24%

右上角:实际“有机会”,也接受了你的邀请,概率:60%*80%=48%

右下角:实际“有机会”,却拒绝了你的邀请,概率:60%*20%=12%

全部四种情况的概率加起来为100%,验算无误,接下来就可以看看结果了。

如果她接受了你的邀请,那么就排除了下面两种“被拒绝”的情况,只剩下上面两种,16%和48%,结果就很明确了:

如果接受的话,“实际上有机会”的概率为:48%/(16%+48%)=75%

如果她拒绝了你的邀请,那么,她仍然对你有意思的概率有多大呢?

排除上面两种“接受”的情况,只剩下下面两种,24%和12%,结果就很明确了:

如果拒绝的话,“实际上仍然有机会”的概率为:12%/(24%+12%)=33.3%

发出类似的邀请,如果她接受邀请,“你俩有机会”的概率就上升到75%;

如果她拒绝,“你俩有机会”的概率就下降到33.3%。

可这两个概率有什么用呢?你还是不知道她实际的想法啊?

请她吃饭,正是为了继续设计下一步的动作,可以通过多次信号让这个过于主观的信号越来越接近实际情况。

当然,也可能有人觉得,那三个先验概率的设定太过随意,其结果根本没有参考价值。实际上,在“贝叶斯算法”的大多数商业应用中,这三个先验概率是可以事先大致确定的。

我们先暂时放下“暗恋同事”的案例,看一个“贝叶斯算法”的商业应用。

三、咨询客户的成交概率

一位顾客走进商店,看了看货架,向你询问了某商品的情况,请问,从当前的动作看,这个顾客最终买单的概率有多大。

要用“贝叶斯算法”算出成交概率,你需要三个先验概率和条件概率:

转化率,即“成交客户/所有进来的人”,假设为20%

成交客户的询问率,即“先询问的成交客户/所有成交客户”,假设为70%

未成交客户的询问率,即“先询问的未成交客户/所有未成交客户”,假设为40%

这三条都可以从销售历史数据中得到,也可以由经验丰富的销售员的经验中大致判断,而且比较稳定,所以最终结果也非常接近实际情况。

四种情况的概率分布如下图:

要判断一个咨询客户的成交率,可以排除下面两个概率,只计算上面两类行为的概率:

成交且咨询在所有客户中的概率为:20%*70%=14%

未成交且咨询在所有客户中的概率为:80%*40%=32%

结果,在咨询客户中,最终成交的概率为:14%/(14%+32%)=30.4%。

所以,一位走进商场的客户,当他开口咨询时,他的成交概率就从20%上升至30.4%,有经验的销售员就应该注意这条销售线索。

一个销售老手的每一步都在收集信息,进行概率判断,比如,有经验的销售员接下来不是干巴巴地介绍产品,而是进一步询问客户的需求,原因在于,需求为A和“非A”两种情况,分别对应着不同的成交概率。

那么,可以继续使用“贝叶斯算法”,判断客户的成交概率,决定花多少时间去向客户推销,选相应的推销重点,并且决定给出多大的折扣把客户拿下。

虽然“贝叶斯算法”一开始都是一些不太准的先验概率,但通过多次使用,通过去掌握更多的信息,这个概率会越来越高,或稳定地接近实际情况。

理解了这一点,我们就可以再回到文章主题案例。

请她吃饭,正是为了继续设计下一步的行动,但你还需要设定一个目标概率,通过下一步设计的“贝叶斯方法”,计算出概率,对照目标,决定下一步行动,分为三类:

结果1:上升到85%(达到最终目标),→行动1:正式表白;

结果2:下降到15%以下(达到最终目标),→行动2:彻底放弃;

结果3:继续在15~85%之间(未达到最终目标),→行动3:继续设计下一步行动。

当然,你还需要利用一些信息。比如,在吃饭聊天时,你知道她喜欢去撸猫咖啡馆,你可以趁机发出下一个邀请,刚好开了一家很有意思的猫咪咖啡馆,要不要周末一起去?

为什么选咖啡馆呢?相对于这次请客,去咖啡馆没有任何缘由,更能探测出她的真实意图;而相对于“看电影”这种过于明确或唐突的表白,被拒绝也不至于过于尴尬。

更重要的是,这个邀请可以通过“贝叶斯算法”改变概率,以接近实际目标概率。

由于现在已是第二次“贝叶斯计算”了,现在的先验概率不再是之前的60%,而是上一次计算后的75%。

然后再评估一下这两个结果的条件概率,如下图所示:

如果你俩“没有机会”,因为这是一个意图更明确的邀请,所以设定她接受邀请的概率下降到30%;

如果你俩“有机会”,也因为这是一个意图更明确的邀请,所以她有可能现在还有点犹豫,则设定她接受邀请的概率下降到60%。

“实际上没有机会,但接受邀请”的概率为:25%*30%=7.5%

“实际上有机会,并接受邀请”的概率为:75%*60%=45%

结果:如果最后她接受了邀请,此时实际结果为“有机会”的概率上升到:45%/(7.5%+45%)=85.7%

耶!达到“目标1”,你可以下一次在猫咪咖啡馆里正式表白了。

不过,如果你是一个谨慎的人,可能觉得之前的先验概率太过主观,结果刚好卡在85%超过一点点。

你可以以85.7%为先验概率,再设计下一次邀请,再测试一次,如果结果仍然在85%以上,你再去表白,更稳妥一些。

即使先验概率比较主观,不一定准,你也可以通过多次“贝叶斯计算”让结果更符合实际。

有一些事情,要么发生,要么不会发生,它的计算次数越多,结果越接近100%或0%,但在“你俩有没有机会”这件事上,却更可能是0%到100%之间的一个值,说明她也没有完全想好要不要接受你。

对于这一类事情,“贝叶斯计算”更重要的作用是——让事情发生。

你在判断概率的时候,也是给对方一个改变接受度的机会,又不需要挑明,立刻给出结果,等待结果变成高于85%或低于15%。

五、人工智能与社交能力

再回到那个销售案例,对于一个经验丰富的销售员而言,从客户进商店,他的每一个动作对应着一个成交概率,可以采取相应行动,提升最终的成交概率。

这个数据,并不是有人告诉他的,而是在以往大量的销售实践中,渐渐总结出来的,这个过程非常类似“贝叶斯算法”。

1. 有客户来,先根据一些迹象主观判断成交的先验概率

2. 设计一些行动,观察客户的行为,设定更多的先验概率

3. 最终的结果与贝叶斯概率核对,修正先验概率

4. 有新客户,重复1的过程

有经验的销售员,就是积累了大量的“客户行为的先验概率”的人。

所以,当贝叶斯算法把大量模糊的认知量化后,就成了机器学习的算法,《生活大爆炸》中有一集,谢尔顿就用到了贝叶斯定理。

以抖音快手一类视频App的推荐算法为例,它先根据初始画像,给男生推荐军事,给女生推荐美妆,再根据你的反馈加大其他内容的推荐比例,再根据和你喜欢同一内容的人的喜好,给出更多的推荐,并根据打开概率不断修正你的浏览偏好,最终稳定在一组推荐概率上。

而人脑的“贝叶斯计算”,只是一种模糊的感觉,销售员可能自己也不知道是如何判断的。

回到暗恋同事的案例中,很多人觉得不需要搞得这么复杂,直接表白,行就行,不行拉倒——但这样往往给自己给对方造成很大的困扰,是一种没有情商的表现。

事实上,高情商本质上就是拥有大量的“人际关系的先验概率”,知道自己的每一步行为会产生什么样的结果——就算有不知道的,也知道用什么方法去得到。

而人际关系的学习也是一个需要大量数据处理、不断试错的过程,积累的经验函数可能多到远超抖音的大数据算法,现实生活中,如果只靠自己试错,成本极高,必须长期观察周围其他人的行为。

社交能力强的人,往往是受家庭环境的影响,他们的父母本身有较多的高质量的人际交往,这些人从童年时就积累了各种“先验概率”,避免了大量的试错成本。

所以,社交能力不但是一个机器无法取代的能力,甚至是一个很难在成年后再提高的能力。

特点:题量多,分值大,难度小。属于复习中的“低投入”,考试中的“高产出”。建议放在首位复习。

考试要点:比与比例、行程问题、工程问题、浓度问题、容斥问题、方程与不等式。

特点:题量不多,难度小。复习时需要掌握基本的解方程式的方法。

考试要点:解方程、根的判别式、韦达定理、根的分步、解不等式、恒成立。

特点:公式多,注意总结方法,形成体系。

考试要点:等差数列、等比数列、等差等比综合、数列递推。

特点:这类题目难在对题意的理解。题意不理解清楚,就可能用错公式,选错答案。快看看这类题是不是总有一个诱惑你的错误选项等着你!建议把排列组合的概念、计算、分步和分类等再好好复习建立体系。

考试要点:排列组合概念计算、分类分步综合、分步的 3 大模型、独立重复事件模型。

特点:概念简单,但是考的灵活性大,可以通过历年真题对比做一下。

考试要点:不确定方程、奇数偶数、质数合数、公约数公倍数。

特点:涉及数形结合,对称思维,灵活性大,注意基本方法。

考试要点:去绝对值符号、非负性、绝对值图像、三角不等式。

特点:立方公式是近年考察重难点,比较灵活。

考试要点:基本公式、因式定理、分式方程与不等式。

特点:本章容易跟其他的章节出综合题,出题灵活,是必考点和难点!

考试要点:二次函数的最值。

九、均值、方差、图表问题

特点:题量不多,但就是要考。均值不等式是难点,方差只需记结论。

考试要点:算术/几何平均值、均值不等式、方差、图表。

特点:只考察概念和表面积、体积、对角线的计算(灵活、计算量偶尔大)。

考试要点:长方体、正方体、柱体、球体。

特点:掌握必备的 5 个必考公式,注意数形结合基本上可以解决一大半的问题(线性规划)。

考试要点:直线、圆、线性规划。

点、直线、圆的位置关系

概率论是用于表示不确定性陈述的数学框架,即它是对事物不确定性的度量。

在人工智能领域,我们主要以两种方式来使用概率论。首先,概率法则告诉我们AI系统应该如何推理,所以我们设计一些算法来计算或者近似由概率论导出的表达式。其次,我们可以用概率和统计从理论上分析我们提出的AI系统的行为。

计算机科学的许多分支处理的对象都是完全确定的实体,但机器学习却大量使用概率论。实际上如果你了解机器学习的工作原理你就会觉得这个很正常。因为机器学习大部分时候处理的都是不确定量或随机量。

随机变量可以随机地取不同值的变量。我们通常用小写字母来表示随机变量本身,而用带数字下标的小写字母来表示随机变量能够取到的值。例如,  和  都是随机变量X可能的取值。

对于向量值变量,我们会将随机变量写成X,它的一个值为。就其本身而言,一个随机变量只是对可能的状态的描述;它必须伴随着一个概率分布来指定每个状态的可能性。

随机变量可以是离散的或者连续的。

给定某随机变量的取值范围,概率分布就是导致该随机事件出现的可能性。

从机器学习的角度来看,概率分布就是符合随机变量取值范围的某个对象属于某个类别或服从某种趋势的可能性。

很多情况下,我们感兴趣的是某个事件在给定其它事件发生时出现的概率,这种概率叫条件概率。

我们将给定时发生的概率记为,这个概率可以通过下面的公式来计算:

先看看什么是“先验概率”和“后验概率”,以一个例子来说明:

假设某种病在人群中的发病率是0.001,即1000人中大概会有1个人得病,则有: P(患病) = 0.1%;即:在没有做检验之前,我们预计的患病率为P(患病)=0.1%,这个就叫作"先验概率"。 

再假设现在有一种该病的检测方法,其检测的准确率为95%;即:如果真的得了这种病,该检测法有95%的概率会检测出阳性,但也有5%的概率检测出阴性;或者反过来说,但如果没有得病,采用该方法有95%的概率检测出阴性,但也有5%的概率检测为阳性。用概率条件概率表示即为:P(显示阳性|患病)=95%

现在我们想知道的是:在做完检测显示为阳性后,某人的患病率P(患病|显示阳性),这个其实就称为"后验概率"。

而这个叫贝叶斯的人其实就是为我们提供了一种可以利用先验概率计算后验概率的方法,我们将其称为“贝叶斯公式”,如下:

贝叶斯公式贯穿了机器学习中随机问题分析的全过程。从文本分类到概率图模型,其基本分类都是贝叶斯公式。

这里需要说明的是,上面的计算中除了利用了贝叶斯公式外,还利用了“全概率公式”,即:

在概率论和统计学中,数学期望是试验中每次可能结果的概率乘以其结果的总和。它是最基本的数学特征之一,反映随机变量平均值的大小。

假设X是一个离散随机变量,其可能的取值有:,各个取值对应的概率取值为:,则其数学期望被定义为:

假设X是一个连续型随机变量,其概率密度函数为则其数学期望被定义为:

概率中,方差用来衡量随机变量与其数学期望之间的偏离程度;统计中的方差为样本方差,是各个样本数据分别与其平均数之差的平方和的平均数。数学表达式如下: 

在概率论和统计学中,协方差被用于衡量两个随机变量X和Y之间的总体误差。数学定义式为:

0-1分布是单个二值型离散随机变量的分布,其概率分布函数为:

几何分布是离散型概率分布,其定义为:在n次伯努利试验中,试验k次才得到第一次成功的机率。即:前k-1次皆失败,第k次成功的概率。其概率分布函数为:

二项分布即重复n次伯努利试验,各次试验之间都相互独立,并且每次试验中只有两种可能的结果,而且这两种结果发生与否相互对立。如果每次试验时,事件发生的概率为p,不发生的概率为1-p,则n次重复独立试验中发生k次的概率为:

高斯分布又叫正态分布,其曲线呈钟型,两头低,中间高,左右对称因其曲线呈钟形,如下图所示:

若随机变量X服从一个数学期望为,方差为的正态分布,则我们将其记为:。其期望值决定了正态分布的位置,其标准差(方差的开方)决定了正态分布的幅度。

指数分布是事件的时间间隔的概率,它的一个重要特征是无记忆性。例如:如果某一元件的寿命的寿命为T,已知元件使用了t小时,它总共使用至少t+s小时的条件概率,与从开始使用时算起它使用至少s小时的概率相等。下面这些都属于指数分布:

  • 奶粉销售的时间间隔 

指数分布的公式可以从泊松分布推断出来。如果下一个婴儿要间隔时间t,就等同于t之内没有任何婴儿出生,即:

如:接下来15分钟,会有婴儿出生的概率为:

日常生活中,大量事件是有固定频率的,比如:

  • 某医院平均每小时出生3个婴儿
  • 某网站平均每分钟有2次访问
  • 某超市平均每小时销售4包奶粉 

它们的特点就是,我们可以预估这些事件的总数,但是没法知道具体的发生时间。已知平均每小时出生3个婴儿,请问下一个小时,会出生几个?有可能一下子出生6个,也有可能一个都不出生,这是我们没法知道的。

泊松分布就是描述某段时间内,事件具体的发生概率。其概率函数为:

P表示概率,N表示某种函数关系,t表示时间,n表示数量,1小时内出生3个婴儿的概率,就表示为 P(N(1) = 3) ;λ 表示事件的频率。

还是以上面医院平均每小时出生3个婴儿为例,则;

那么,接下来两个小时,一个婴儿都不出生的概率可以求得为:

同理,我们可以求接下来一个小时,至少出生两个婴儿的概率:

【注】上面的指数分布和泊松分布参考了阮一峰大牛的博客:“泊松分布和指数分布:10分钟教程”,在此说明,也对其表示感谢!

对于一般的求极值问题我们都知道,求导等于0就可以了。但是如果我们不但要求极值,还要求一个满足一定约束条件的极值,那么此时就可以构造Lagrange函数,其实就是 把约束项添加到原函数上,然后对构造的新函数求导 。

对于一个要求极值的函数 ,图上的蓝圈就是这个函数的等高图,就是说  分别代表不同的数值(每个值代表一圈,等高图),我要找到一组 ,使它的 值越大越好,但是这点必须满足约束条件

也就是说和相切,或者说它们的梯度▽和▽平行,因此它们的梯度(偏导)成倍数关系;那我么就假设为倍,然后把约束条件加到原函数后再对它求导,其实就等于满足了下图上的式子。

最大似然也称为最大概似估计,即:在“模型已定,参数θ未知”的情况下,通过观测数据估计未知参数θ 的一种思想或方法。

其基本思想是: 给定样本取值后,该样本最有可能来自参数为何值的总体。即:寻找使得观测到样本数据的可能性最大。

举个例子,假设我们要统计全国人口的身高,首先假设这个身高服从服从正态分布,但是该分布的均值与方差未知。由于没有足够的人力和物力去统计全国每个人的身高,但是可以通过采样(所有的采样要求都是独立同分布的),获取部分人的身高,然后通过最大似然估计来获取上述假设中的正态分布的均值与方差。

求极大似然函数估计值的一般步骤:

  • 2、对似然函数取对数;
  • 4、令导数为0解出似然方程。

最大似然估计也是统计学习中经验风险最小化的例子。如果模型为条件概率分布,损失函数定义为对数损失函数,经验风险最小化就等价于最大似然估计。

信息论是应用数学的一个分支,主要研究的是对一个信号能够提供信息的多少进行量化。如果说概率使我们能够做出不确定性的陈述以及在不确定性存在的情况下进行推理,那信息论就是使我们能够量化概率分布中不确定性的总量。

1948年,香农引入信息熵,将其定义为离散随机事件的出现概率。一个系统越是有序,信息熵就越低;反之,一个系统越是混乱,信息熵就越高。所以说,信息熵可以被认为是系统有序化程度的一个度量。

如果一个随机变量X的可能取值为,其概率分布为,则随机变量X的熵定义为H(X):

两个随机变量X和Y的联合分布可以形成联合熵,定义为联合自信息的数学期望,它是二维随机变量XY的不确定性的度量,用H(X,Y)表示:

在随机变量X发生的前提下,随机变量Y发生新带来的熵,定义为Y的条件熵,用H(Y|X)表示:

条件熵用来衡量在已知随机变量X的条件下,随机变量Y的不确定性。

实际上,熵、联合熵和条件熵之间存在以下关系:

  • 第二行推到第三行的依据是边缘分布P(x)等于联合分布P(x,y)的和;
  • 第三行推到第四行的依据是把公因子logP(x)乘进去,然后把x,y写在一起;

相对熵又称互熵、交叉熵、KL散度、信息增益,是描述两个概率分布P和Q差异的一种方法,记为D(P||Q)。在信息论中,D(P||Q)表示当用概率分布Q来拟合真实分布P时,产生的信息损耗,其中P表示真实分布,Q表示P的拟合分布。

对于一个离散随机变量的两个概率分布P和Q来说,它们的相对熵定义为:

两个随机变量X,Y的互信息定义为X,Y的联合分布和各自独立分布乘积的相对熵称为互信息,用I(X,Y)表示。互信息是信息论里一种有用的信息度量方式,它可以看成是一个随机变量中包含的关于另一个随机变量的信息量,或者说是一个随机变量由于已知另一个随机变量而减少的不肯定性。

互信息、熵和条件熵之间存在以下关系: 

H(X,Y),此结论被多数文献作为互信息的定义。

最大熵原理是概率模型学习的一个准则,它认为:学习概率模型时,在所有可能的概率分布中,熵最大的模型是最好的模型。通常用约束条件来确定模型的集合,所以,最大熵模型原理也可以表述为:在满足约束条件的模型集合中选取熵最大的模型。

前面我们知道,若随机变量X的概率分布是,则其熵定义如下:

式中,|X|是X的取值个数,当且仅当X的分布是均匀分布时右边的等号成立。也就是说,当X服从均匀分布时,熵最大。

直观地看,最大熵原理认为:要选择概率模型,首先必须满足已有的事实,即约束条件;在没有更多信息的情况下,那些不确定的部分都是“等可能的”。最大熵原理通过熵的最大化来表示等可能性;“等可能”不易操作,而熵则是一个可优化的指标。

我要回帖

更多关于 多次独立重复试验概率公式 的文章

 

随机推荐