关于概率分布理论的原理分析的一些讨论，以及经典概率分布的应用场景，以及概率统计其在工程实践中的应用

8773 0 0

作者:Han Zheng, Researcher of Computer Science, Alibaba Cloud Corp, China

1. 随机变量定义

0x1：为什么要引入随机变量这个数学概念

在早期的古典概率理论研究中，人们基于随机试验的样本空间去研究随机事件，也发展出了非常多辉煌的理论，包括著名的贝叶斯估计在内。

但是随着研究的不断深入，遇到问题的不断复杂化，科学家们发现面对的问题也不仅仅是抛色子，口袋里摸球、抛硬币伯努利试验这样的简单问题，而是更加复杂的问题，例如

多个随机试验的组合问题：例如考虑n个伯努利随机试验中某个事件发生次数的随机变量
非实数型的样本空间：例如气候分析、水文模拟与预测等复杂问题，显然，这个时候样本空间就不一定都是数集了

继续使用随机事件样本空间这种集合论数学工具进行问题分析和定量研究遇到了越来越多的困难。

为了能对更复杂的问题进行抽象建模，进行定量的概率公式化处理，因此，通过引入随机变量，将样本空间这个集合概念转化为一个无量纲的数集（函数概念），使得能统一地处理各种随机现象。

同时因为随机变量本质是函数范畴体系内的定义，因此还可以借助函数分析相关的数学工具展开对随机事件的定量分析，这使得概率论的发展又跨了一个大的台阶。

需要注意的是，对于随机变量来说，样本空间中的样本不一定是等概的。在实际工程中，非等概模型才是更加普遍和一般的情况，随机事件的样本集空间中不同元素的发生概率一般不可能都是等概的。等概摡型只是离散型随机变量里一个特例。

0x2：随机变量的抽象定义

在随机试验E中，Ω是相应的样本空间，如果对Ω中的每一个样本点w，有唯一一个实数 X(w) 与之对应，那么就把这个定义域为Ω的单值实值函数 X=X(w) 称为(一维)随机变量。

函数 X(w) 的的定义域对应于随机变量的样本空间，记作，，当然，随机事件只会在一些区间内有概率的定义，在其他区间上概率为0。

站在试验前的立场看，我们不知道试验结果将出现样本空间Ω中的哪个样本点，即不知道随机变量将会取中的哪一个数。从这个意义上说，随机变量的取值是随机的。

概率论的一个基本任务就是研究随机变量取值的统计规律性，而引入概率分布函数的目的也是为了更好地研究统计规律的数学特性。

0x3：随机变量的分类

从严格理论定义上来看，随机变量可分为：

离散型随机变量：如果1个随机变量只可能取有限个或可列无限个值（即它的值域是1个有限集或可列无限集），那么便称这个随机变量为(一维)离散型随机变量。
非离散型随机变量：连续型随机变量的取值充满了数轴上的一个区间（或某几个区间的并），在这个区间里有无穷不可列个实数，因此当我们描述连续型随机变量时，用来描述离散型随机变量的分布律就没法继续使用，需要改用概率密度函数来表示。

在非离散型随机变量中，连续型随机变量是最常见也是占比最多的，我们本文主要讨论连续型随机变量。但读者要明白的是，并不是只有离散和连续型随机变量这两种。

Relevant Link:

《概率论与数理统计》同济大学数学系 第二章 - 第一节

2. 随机变量的概率密度与概率分布

0x1：为什么要研究随机变量的概率密度与概率分布PDF

1. 现实世界不是确定性的，而是概率性的 - 上帝会掷色子

现实世界中大量复杂问题其状态受到大量内在和外在因素的影响，想要彻底掌握这类事物的内在规律并对未来可能发生的状态变换作出预测，就需要数据科学家通过数据分析、概率建模等方式，寻找一个或一组概率分布公式。

那为什么一定是概率分布函数呢？而不能是一个像爱因斯坦质能方程那样的精确性的映射函数呢？

理解这个问题，需要回望一些历史，自从混沌理论和非线性动力学理论问世以来，动力学系统“内在随机性”的存在，使得确定论不再占统治地位，它与随机方法论之间的鸿沟已经逐步填补。从辨证唯物自然观来看，确定论的数学模型只是纷繁复杂的大自然现象因果规律的一种理想化描述。在现实世界中，“量”的方面的数学的无穷性，比起“质”的方面的无涯无尽性来说，是极为粗浅的。无论怎样复杂的方程式都不可能是实际现象的无限复杂性的等价反映，它们充其量不过是相对精确或相对逼真地描述了现象，而不是现象本身的全部写照。

接下来的问题就是，如何找到这种“概率分布函数”呢？或者说如何找到这个“上帝”呢？这就是接下来要谈的概率密度估计。

2. 概率密度估计 - 寻找概率分布函数的方法

对于给定的一个数据集合，我们认为这个数据集合来自于某个随机变量，并且这个随机变量具有某种概率分布P(X)。找到这个概率分布P(X)的过程叫做密度估计（density estimation）。

需要注意的是密度估计问题是一个很困难的问题，因为世界上的概率密度函数不计其数，能够近似拟合概率密度函数也是如此之多。选择一个合适的P(X)是模型选择问题，在机器学习领域经常遇见。

当然，这仅仅是生成式模型学派需要头疼的问题，如果忽略这些细节，通过设计深度神经网络得到一个判别式模型，只要关心最终的结果效果是否好，泛化能力是否强即可。

0x2：离散型随机变量的分布律与概率分布

1. 离散随机变量的概率(质量)函数（probability density function, PDF）/分布律

要掌握一个离散型随机变量取值的统计规律(即分布)，除了必须知道它的样本空间值域外，还需要知道它取各个可能值的概率，其实就是函数分析中的定义域和值域分析的概念。

设随机变量X的值域为，对于每个 i = 1，2，....，X的取值为ai的概率为：

按照概率的定义与性质，p1，p2，.... 需要满足下列性质：

非负性：
样本空间完备性：

我们称为随机变量 X 的概率(质量)函数或分布律。

2. 离散随机变量的概率分布函数

一般地，对一个随机事件E来说，对样本空间中任意一个子集合S，有：

上述计算公式本质上由概率的加法公式推出，因为诸事件{X =ai}(i=1，2，...)是两两互不相容的。

离散随机变量的分布函数就是离散分布律在某个样本集区间上的累加，只是这个样本区间是一个形如[-∞，Smax]的区间。

设X是一个随机变量，对于任意实数x，称函数为随机变量X的分布函数。

对任意的两个实数，有

因此，只要已知X的分布函数，就可以知道X落在任一区间 (a，b) 内的概率，可以看到，分布函数可以完整的描述一个随机变量的统计规律性。

相比于概率密度，分布函数度量的是区间的累计概率，是一个事件集合的总体发生概率。

可以看到，概率分布函数本质上是概率密度函数的积分，所以也叫累计概率函数（cumulative distribution function，CDF），也可以简称概率分布函数。

反过来，概率密度函数也是概率分布函数的导数。

3. 离散随机变量概率分布函数性质

我们通过一个例子来说明离散随机变量概率分布函数的性质。

设一个盒子中装有10个球，其中：

5个球上标有数字1
3个球上标有数字2
2个球上标有数字3

从中任取一球，记随机变量X表示为“取得的球上标有的数字”，求X的分布函数F(x)。

我们先来求其离散分布律，知道离散分布律后就可以自然得到分布函数。

根据题意可知，随机变量X可取 1，2，3，这个问题相对比较简单，摸球是一个等概事件，因此由古典概型的计算公式，可知对应的随机事件的概率值分别为：

取到数字1的球：0.5
取到数字2的球：0.3
取到数字3的球：0.2

接下来，分布函数的定义为F(x) = P(X <= x)，因此有：

x < 1：P（X <= x）= 0
1 <= x < 2：P（X <= x）= P（X = 1）= 0.5
2 <= x < 3：P（X <= x）= P（X = 1）+ P（X = 2）= 0.5 + 0.3 = 0.8
x >= 3：P（X <= x）= P（X = 1）+ P（X = 2）+ P（X = 3）= 0.5 + 0.3 + 0.2 = 1

F(x)的图形如下图所示，python生成代码为：

# -*- coding: utf-8 -*-

from pylab import *


if __name__ == '__main__':
    x = linspace(-2,8,200)

    y = []
    for i in x:
        if i<1:
            y.append(0.)
        elif (i>=1 and i<2):
            y.append(0.5)
        elif (i>=2 and i<3):
            y.append(0.8)
        else:
            y.append(1.)
     
     print y

    plot(x,y),show()

它是一条阶梯型的曲线，在X的每个可能取值处 1，2，3 处有连续的阶跃点，每次跳跃的高度就是X在该取值点的累计概率。

具体来说，任一分布函数F(x)有如下性质：

0 ≤ F(x) ≤ 1，
F(x)是单调不减的，即当x1 <x2 时，F(x1)≤F(x2)
F(x) 在 (-∞，∞) 上每一点处至少右连续

4. 常见离散型随机变量的概率密度函数（分布律）

由于概率分布函数刻画了一个离散型随机变量取值的统计规律性，因此，物理世界中存在的概率分布函数可以说是无穷无尽的。科学共同体内的科学家根据自己的专业领域知识，寻找并建立了不同的概率解释模型，对本专业的实际物理现象进行解释以及预测。

笔者在这章会讨论一些常见的离散型概率分布函数，并简单讨论其在工程中的应用，对于在更复杂工业场景中概率分布函数的应用的讨论笔者会放在之后的章节中。

1）二项分布

1.1）二项分布数学定义

二项分布考察的是多次原子随机事件整体呈现出的统计概率特征。

设单次随机试验为伯努利试验（实验结果只有2种对立的可能，即样本空间只有2个元素），在n重独立伯努利试验中，设随机变量X表示n次试验中事件A发生的次数，所以有，X的概率密度函数（分布律）为：

称这个随机变量X服从参数为n，p的二项分布，记作，其中 0 < p < 1。二项分布函数的形态完全由（n，p）两个参数决定。

笔者认为，二项分布抽象的是这样一类事物：某系统的时域或空域状态由一系列的子步骤组成，每个子步骤都符合一个特定的二元对立的概率密度函数（即只有两种可能，且发生的概率固定），我们设这两个对立事件为事件A和事件B。现在假设系统在时域或空域上经过了n步，二项分布需要评估的是在这n步中，事件A和事件B分别发生了多少次，即这两个对立事件对最终系统状态的贡献度分别是多少。二项分布评估的是某系统达到某种状态时，各个基础随机事件的贡献比，不考虑内部过程，只看结果。

1.2）二项分布的函数分析意义

二项分布密度函数（分布律）是离散型分布，概率密度直方图是跃阶式的。

我们可以从二项式的平方公式分解的角度来看二项分布的分布律。

例如，p=q=1/2，各项的概率可写作：

上式就是二项分布分布律的累加式。

设p表示事件发生，q表示事件未发生。

当p=q时：概率密度直方图是对称的，例如下面的杨辉三角

当p≠q时：直方图呈偏态：

p<q：直方图朝右边倾斜，表示p(事件发生)的密度较低，在n次伯努利实验中，总体结果更倾向于更少的p(事件发生)次数。

p>q：直方图朝左边倾斜，相反

如果n很大（当p<q且np≥5，或p>q且nq≥5），即使p≠q，偏态逐渐降低，最终近似等于正态分布，二项分布的极限分布为正态分布，可以用正态分布的概率作为近似值。关于这个结论的证明，我们在后面讨论正态分布的时候会详细说明。

1.3）二项分布的应用条件

各观察单位只能具有相互对立的一种结果，如阳性或阴性，生存或死亡等，属于两分类资料
已知发生某一结果（阳性）的概率为π，其对立结果的概率为1-π，实际工作中要求π是从大量观察中获得比较稳定的数值
n次试验在相同条件下进行，且各个观察单位的观察结果相互独立，即每个观察单位的观察结果不会影响到其他观察单位的结果。如要求疾病无传染性、无家族性等

1.4）二项分布的简单案例

题目为：从积累的资料看，某条流水线生产的产品中，一级品率为90%，今从某天生产的1000件产品中，随机地抽取20件作检查。试求恰有18件一级品的概率。

题目看起来文字挺多，其实无用的信息很多，我们抽象为随机事件，可以概括为：

设产品抽检结果为随机试验E，抽检结果为离散随机事件X，样本空间为{合格、不合格}，随机事件X的分布律为P(X=合格) = 0.9，P(X=不合格) = 0.1。现在基于随机试验E进行n重伯努利实验Y，即X~B(n，p) = X~B(20，0.9)，并求P(Y=18)的概率值。

根据二项分布概率公式可得：

2）超几何分布

2.1）超几何分布的物理意义

要讨论超几何分布的物理意义，首先需要先回顾下二项分布的物理意义，我们可以从不同的角度来看二项分布：

抽样实验角度：二项分布是建立在有放回抽样的基础上的，也就是抽出一个样品测量或处理完后再放回去，然后抽下一个
信号冲击响应系统：二项分布代表的是时移不变性的信号，也就是说，随着时间的进行（随机试验的进行），信息系统本身的性质（概率密度）不会发生变化

现在我们将问题复杂化，即进行无放回抽样（概率密度随着时移而改变）的随机试验，这时，传统的二项分布无法处理这种情况。

超几何分布就是这种背景下被提出，用来计算在无放回抽样情况下，概率密度和概率分布的建模问题。

2.2）超几何分布数学公式

设随机变量X，假定在 N 件产品中有 M 件不合格品，即这批产品的不合格率 p= M/N。从这批产品中随机地抽取n件作检查，发现有X件是不合格品，则 X 的概率密度函数为

则称这个随机变量X服从参数为（N，M，n）的超几何分布。

这种抽样检查方法实质上等价于无放回抽样，如果采用有放回抽样的检查方法，那么，超几何分布会退化为二项分布，即当 M = Np 时，有：

在实际的工程开发中，当总体的容量N不大时，要用超几何分布来计算，如果N很大而n很小（N ≥10n），不管是否是放回抽样，都可以用二项分布来近似计算，也就是可以将无放回抽样近似看出有放回抽样，因为当N远大于n时，不放回导致概率密度函数的变化小到可以忽略不计，这种近似转化的思想在数学里很常见，在面对复杂问题的时候尤其有用。

3）泊松分布

3.1）泊松分布数学公式

泊松分布是1837年法国数学家泊松（Poisson，1781-1840年）首次提出的。

设随机变量X的取值为0，1，....，n，相应的分布律为：

称这个随机变量X服从参数为λ的泊松分布，记作X ~ P (λ)，其中，λ > 0。

公式本身很简单，咋一看是一个完全新的概率公式，但其实泊松分布是二项分布在大数定律下的近似等价，是大数定律的最好体现（小数世界的随机性和大数据世界的统计规律性），我们接下来一起推导分析下。

3.2）泊松定理推导分析

让我们以某段时间内发生的交通事故次数为例。我们把这段时间记为[0,1)，取一个很大的自然数n（大数定理），将时间段等分为n段，记每段的区间为 $l_{i}$ =[ $frac{i-1}{n}$ , $frac{i}{n}$ )。

根据试验后验统计，在整个时间区间内共发生λ起事件，因此当n足够大时，可以假定在每段小区间内，发生一次事故的概率为λ/n。又因为n很大，所以可以假定在每段小区间内至多发生一次事故，因此就有p = λ/n，np = λ。

同时，每段小区间内是否发生事故是相互独立的。

以上条件说明该事件满足二项分布的成立条件，因此可以用二项分布进行推导。

设随机变量X为在 [0,1)时间段内发生事故的总次数，则有：

X~B(n，λ/n)，P(X=i)=

根据假定，令n $rightarrow infty$ ，则有如下近似等价式：

$c_{n}^{i}$ / $n^{i}$ = $frac{n!}{i!left( n-i right)!n^{i} }$ = $frac{1}{i!}$
$lim_{n rightarrow infty }{left( 1-frac{lambda }{n} right) ^{n} }$ = $lim_{n rightarrow infty }{x} left( 1-frac{1}{frac{n}{lambda } } right) ^{frac{n}{lambda }lambda }$ = $e^{-lambda }$ ， $lim_{n rightarrow infty }{left( 1-frac{1}{n} right) ^{n}=frac{1}{e} }$ ：级数求和公式。

代入上面二项分布公式，二项分布概率分布表达式即化为泊松分布概率分布表达式。

可以看到，相比于二项分布，泊松分布的计算量更小，在超大数据的情况下，往往采用泊松分布来近似等价二项分布的计算。

笔者自己的观点认为，泊松分布和二项分布本质区别就是先天经验先验和后天试验经验的不同视角的体现，具体来说就是：

在小数世界中，实验次数较少，我们主要依靠先天经验来设置先验概率作为随机事件的概率，这就是二项分布
在大数世界中，实验次数较多，我们可以更多地依靠后天试验的后验结果作为随机事件的概率，这就是泊松分布

3.3）泊松分布的简单应用

某台仪器，由1000个元件装配而成，根据大量历史经验，每一元件在一年工作期间发生故障的概率为0.002，且各元件之间相互独立，求在一年内有2个元件发生故障的概率。

设X表示“发生故障的元件数”，则X~B(1000，0.002)。

由于n=1000较大，p=0.002较小，且np=2大小适中，所以可用泊松分布来近似计算该二项分布的值

Relevant Link:

https://zhuanlan.zhihu.com/p/26433704

4）几何分布

4.1）几何分布数学定义

在伯努利试验中，记每次试验中A事件发生的概率P(A) = p（0<p<1），设随机变量X表示A事件首次出现时已经试验的次数，则X的的取值为1，2，....，n，....，对应的分布律为：

称这个随机变量 X 服从参数为p的几何分布，记为X~Ge(p)。

4.2）几何分布的无记忆性

由几何分布的概率函数得到：

因此有：

这个推导过程反映了几何分布的一种特性，即无记忆性。

0x3：连续型随机变量的概率密度函数与概率分布

1. 连续型随机变量概率密度函数

设E是随机试验，Ω是相应的样本空间，X是Ω上的随机变量，F(x)是X的分布函数，若存在非负函数f(x)使得：

则称X为(一维)连续型随机变量，f(x)称为X的概率密度函数。

2. 连续型随机变量的概率分布函数

密度函数f(x)与分布函数F(x)之间的关系如下图所示.现在，F(x) = P (X ∈ (-∞，x])，即f(x)在区间(-∞，x]上的积分。

3. 连续型随机变量的性质

连续型随机变量具有下列性质：

F(x)是连续函数，且当f(x)在x=x0 处连续时，F′(x0)=f(x0)
对任意一个常数c，-∞ < c < ∞，P(X = c) = 0，需要注意的是，这个性质对离散型随机变量是不成立的，恰恰相反，离散型随机变量计算的就是“点点概率”。
对任意两个常数a，b，-∞ < a < b < ∞，

4. 连续型随机变量概率密度和分布函数性质

按照连续型随机变量分布函数的特征性质，连续型随机变量密度函数必须满足下列两个条件：

f(x) ≥ 0，-∞ < x < ∞

这两个条件刻画了密度函数的特征性质，即如果某个实值函数f(x)具有这两条性质，那么，它必定是某个连续型随机变量的密度函数，理论上概率密度函数是无限的。

例如，当f1(x)，f2(x)都是概率密度函数时，只要c1，c2 ≥0，c1+c2 =1。则c1f1(x)+c2f2(x)也是一个密度函数，因为不难验证它是满足上述两个条件的。这表明概率密度函数是可以进行线性组合的，这大大加强了使用概率分布函数对物理世界的具体现象进行建模分析的能力。

5. 常见连续型随机变量的概率密度函数

1）均匀分布

1.1）均匀分布数学定义

设X为随机变量，对任意的两个实数a，b（a<b），概率密度函数为：

则称随机变量X服从区间（a，b）上的均匀分布，记为X~U（a，b）。

密度函数如下：

1.2）均匀分布概率分布函数

若X~U（a，b），则相应的概率分布函数为：

下图分别展示了均匀分布的概率密度函数与概率分布函数（导数与积分的关系）：

1.3）均匀分布的实际案例

2）指数分布

2.1）指数分布的概率密度与概率分布函数公式

如果随机变量 X 的密度函数为：

则称随机变量X服从参数为λ的指数分布，记为X~E(λ)。

相应的分布函数为：

密度函数和分布函数的函数图如下：

2.2）指数分布的无记忆性

因为，所以有下式：

因此可证，指数型随机变量满足无记忆性特征：

即条件概率值只与持续时间t有关，与起始点s无关。

2.3）指数分布和泊松分布公式的互相推导

一言以蔽之：泊松分布和指数分布都是评估单位时间内n次伯努利实验的统计概率性质的一种概率分布，但是它们的度量角度不同。在一段时间内，事件出现的次数问题，就是泊松过程；在一段时间内，两件事件发生之间要等待的时间问题，就是指数分布。

接下来我们通过泊松概率公式，推导得到指数分布的概率密度函数。

设随机变量 $X_{1}$ 表示在n重伯努利实验中，两次事件出现之间的时间间隔

$F_{X_{1}}(x)=P(X_{1} leq x)=1-P(X_{1}> x)$

我们先计算 $P(X_{1}> x)$ 的概率，其对应的泊松分布试验结果是，在时间 $x$ 内，事件A并没有出现。

换种说法是在 $[0,x]$ 时间段内，事件A出现0次。在一段时间内，事件出现的次数问题，就是泊松过程。则有：

$N(x)sim Poisson(lambda x),P(X_{1}> x)=P(N(x)=0)= frac{e^{-lambda x}{(lambda x )^0}}{0!}=e^{-lambda x}$ ，所以其反事件概率分布函数为：

$F_{X_{1}}(x)=P(X_{1} leq x)=1-P(X_{1}> x)=1-e^{-lambda x}$

得到了概率分布函数，求其积分，得到其密度函数

这就是参数为λ的指数分布。

2.4）指数分布的函数性质

指数分布中的λ代表整个区间中总共发生的事件数，如果λ越大，也就是说区间内发生的总事件数越多，那么两个事件发生之间的时间间隔必然越短。当λ较小的时候，例如λ=1，也就是说区间内总共只发生1次事件，那么两个事件发生间隔时间大于1的可能性就很大（下图是指数分布的概率密度函数的图像，对应的概率是曲线下面积）：

2.5）指数分布和泊松分布的数学期望对比

同一个n重伯努利实验，他们的期望分别为：

$Xsim P(lambda),quad Ysim Exp(lambda)\$

$E(X)=lambda,quad E(Y)=frac{1}{lambda}\$

可以看到，它们两者是倒数关系：区间内某事件发生的次数越多自然间隔时间越短，区间内某事件发生的次数越少自然间隔时间越长。

从某种程度上可以说，泊松分布和指数分布是同一个事物的正反两面。

2.6）指数分布和几何分布的互相推导

指数分布常常被用来描述电器产品或者生物的寿命等现象。

抽象来说，如果x服从指数分布，那么[x]就服从几何分布。[x]是x取整的意思。

简单来说，每一秒钟，电器坏的寿命都是相同的；每经过一秒，相当于扔了一次骰子，正面坏，反面不坏；直到扔出正面，这就是几何分布。

其实在概率分布函数中，这种互相推导转换的关系是非常普遍的，祭出一张非常经典图，有兴趣的读者朋友可以用草稿纸演算一遍。

Relevant Link:

https://www.zhihu.com/question/54525571 
https://www.zhihu.com/question/24796044

3）正态分布

正态分布是概率统计中非常重要的一种分布，是高斯（Gauss，1777-1855年）在研究误差理论时首先用正态分布来刻画误差的分布，所以正态分布又叫高斯分布。

3.1）正态分布数学定义

设X为随机变量，概率密度函数为：

那么，称这个随机变量X服从参数为μ，σ 的正态分布(或高斯(Gaus)分布)，记作X ~ N(μ，σ)，其中，-∞ < μ < ∞ ，σ > 0。

服从正态分布的随机变量统称为正态随机变量。

概率密度图和概率分布图如下：

3.2）正态分布的函数性质

正态分布概率密度函数有如下性质：

f(x) 关于x = μ对称，当x=μ时，f(x) 取到最大值
固定σ，改变μ的值，则曲线沿x轴平移，但不改变其形状，所以参数μ又称为位置参数
固定μ，改变σ的值，则曲线的位置不变，但随着σ的值越小，曲线越陡峭，所以参数σ又称为尺度参数

3.3）正态分布的应用场景

正态分布在理论上与实际应用中都是一个极其重要的分布，高斯在研究误差理论时曾用它来刻画误差的分布。

经验表明，当一个变量受到大量微小的、独立的随机因素影响时，这个变量一般服从或近似服从正态分布。

例如，某地区男性成年人的身高、自动机床生产的产品尺寸、材料的断裂强度、某地区的年降雨量，等等。

4）sigmoid概率函数

设随机变量为Z，则sigmoid是关于随机变量Z的概率函数，它的概率分布形式为：

函数图像如下：

可以看到，sigmoid不仅符合概率函数的基本性质，同时还有其他的函数性质，这使得sigmoid适合在机器学习中用作激活函数，将线性层的输出转化为概率值。

可以看到在趋于正无穷或负无穷时，函数趋近平滑状态，sigmoid函数因为输出范围（0，1），所以二分类的概率常常用这个函数，事实上logisti回归采用这个函数很多教程也说了以下几个优点

值域在0和1之间
函数具有非常好的对称性
函数对输入超过一定范围就会不敏感，对极端事件具备很好的鲁棒性

关于sigmoid损失函数的讨论，可以参阅这篇文章。

Relevant Link:

https://zlearning.netlify.com/computer/mlapp/mlappch2dot3-some-probability-distributions
https://www.cnblogs.com/LittleHann/p/10498579.html#_label2

3. 经典概率分布函数在工程分析中的作用

0x1：二项分布在心理学和教育领域中关于机遇问题的判断研究

所谓机遇问题，即指在实验或调查中，实验结果可能是受试者猜测造成的。比如，选择题中随便选择一个选项，对错判断中随便判断一个结果。

凡此类问题，教育工作者和研究人员的目标是：欲区分由猜测而造成的结果与真实的结果之间的界限区间，即在一张试卷中（多个独立题目组成），答对多少题及以上可以可以大概率证明受试者不是在随机蒙题。

特别要注意的是，在概率论中没有100%确定的结论，一切都是概率区间，按照假设检验的理论观点来重新阐述上面这句话，应该是：寻找猜测而造成的结果与真实结果之间的概率区间下界，即至少答对多少题才能达到至少95%的概率，与此同时，依然存在5%的置信区间（5%是常用的显著性检验的概率阈值），在这个5%概率区间中，真实情况与推测结论相反。

下面我们举具体例子，应用二项分布来解决机遇问题的判断。

已知有正误题10题，问答题者答对几题才能认为他是真会，或者说答对几题，才能认为不是出于猜测因素?

分析：对于蒙题的受试者来说，答对和打错的概率相同：

同时，

，故此二项分布接近正态分布：

根据正态分布概率，当Z=1.645时，该点以下包含了全体的95%。如果用原分数表示，则为

它的意义是，完全凭猜测，10题中猜对8题以下的可能性为95%，猜对8、9、10题的概率只5%。

因此可以推论说，答对8题以上者不是凭猜测，而是会答。

但应该明确：作此结论，也仍然有犯错误的可能，即那些完全靠猜测的人也有5%的可能性答对8、9、10道题。

Relevant Link:

https://baike.baidu.com/item/%E4%BA%8C%E9%A1%B9%E5%88%86%E5%B8%83

0x2：二项分布在工厂零件供应质量抽检评估中的作用

1. 问题场景说明

在很多工厂里，通常都会跟零件供应商约定供货合格率，并对每批供货进行抽检，就是所谓的IQC。

现在摆在面前的问题是这样的，实际的货物可能成千上万，你不可能逐一检测效果，而且像食品这种商品本身还是不能检测的，你难道要亲自吃一口看坏没坏？那我们怎么通过抽检的方法来判断这批货物的合格率有多高呢？

一个简单的想法是：随机从这批货物中抽取100个，逐一检测是否是次品，假如出现了5个次品，则这批货物的次品率就是95%。

现在问题来了，这么做合理吗？

显然不合理，反对的理由很简单，尽管抽样是随机的，但是单次的实验并不能代表真实情况，换言之，不具备概率统计性。

改进一下，我们多做几个实验，每次还是随机抽100个，连做10次，将10次的总次品数加起来取平均。这样做比之前的做法稍微更合理一些了，其内核也蕴含了一些概率思维，但是依然不够合理！因为可以问10次实验就够了吗？10次实验同样存在一定的抽样不均匀的概率，那接下来怎么办呢？继续扩大实验，100次、1000次、100000次？那多大的实验次数算合理呢？怎么量化的去评估所谓的合理性呢？

2. 通过二项分布数学模型正确评估和决策该问题 - 假设检验

现在我们将问题纳入二项分布的概率统计范畴内，使用假设检验的理论框架来解决这个问题。

总体思路是这样的：我们将次品抽检会出现的结果抽象为一个随机事件，先假设一个随机试验概率（即供应商承诺的合格率），这就是假设检验中的假设过程，然后进行n次伯努利实验，并根据实际的n次伯努利实验结果。

现在假设供货商承诺的合格率为97%，我们抽检10个货物进行次品检验，检验结果后发现了x个次品。

则有p=0.97，n=10，X~B(n，p) = X(10，0.97)，知道了概率分布的参数，实际上我们也就得到了概率密度函数P(X=x)。

接下来就是根据实际的试验结果，查询其对应在概率密度函数上的概率值，进行置信检验。

1）x = 1：发现1个次品

P(X=1) = 10 * 0.97^9 * 0.03 = 0.228

计算结果表明按照我们的假设概率，在10次抽检中出现1个次品的概率为0.228，也就是说我们有22.8%的置信度可以相信这个假设概率，这就是假设检验中的检验过程。

一般来说，22.%的概率不算低了，在实际的工业实践中，工厂一般会选择接受这样的检验结果，即认可供货商这批货的合格率是97%。

2）x = 2：发现2个次品

我们继续讨论实验结果，那抽出2个不合格的呢？同样可以算出

P(X=2) = 45 * 0.97^8 * 0.03^2 = 0.032

可以看到，概率非常小，只有3.2%，继续推广，抽出超过2个以上不合格品的概率会更小。因此决策者应该拒绝该假设，即不认可供货商提供了97%的合格率。

3. 根据假设检验得到决策依据

因此如果10个样品中有2个或以上的不合格品，则整批的零件合格率肯定达不到97%，可以整批退货。

推而广之，如果约定的合格率是99.5%，则出现0个、1个、2个不合格品的概率分别为0.951、0.0478、0.001，如此10个只要抽出1个不合格品就可以整批退货了。这里省略计算过程。

4. 如何评估和选择适合自己的业务场景的抽检方案

接下来我们继续思考前面提的一个问题，到底应该抽多少样本合适呢？每次抽100个？每次抽10000个？显然抽的越多代表性越好，但是显然我们不可能无限地增加，抽样是有经济损失的，我们需要找一个损失与收益能平衡最大化的标准。如何用概率的思维量化地评估这个数字呢？我们接下来讨论这个问题。

假设你与供应商约定的接收合格率是99%，即AQL(接收质量限)=0.01，本批的总数量是1000只，现在我们现在准备了3种抽检方案：

国际方案GB/T2828标准：抽样量为80，Ac=2，即抽到2个及以下不合格品可接收该批，抽到3个及以上不合格品则拒绝接收
方案一：限于财力，稍微少抽样一些，抽20个，不合格品为0接收，大于0退回
方案二：财力还可以，多抽样一些，抽50个，不合格品不超过1则接收，大于1则退回

接下来，我们开始抽检，接受者根据抽检结果进行决策的结果只有两个：

实际批合格率低于约定合格率，仍被接收：接受者承担的风险属于使用者风险
实际合格率高于约定，仍然存在拒收的风险，虽然这个风险并不大：生产者承担的这一类的风险叫做生产者风险

如果这批来料合格率只有98%，按照以上抽检方案，接收的概率分别为：

国际方案GB/T2828标准：0.784419
方案一：0.6676
方案二：0.7357

如果这批来料合格率高于约定合格率，如99.5%，拒收的概率分别为：

国际方案GB/T2828标准：0.007712
方案一：0.09539
方案二：0.026132

咋一看这三种方案性能差不多，在面对“实际合格率低于承诺”和“实际合格率高于承诺”这两种情况时，都有较大的概率能支持决策者作出正确的决策。

要解决这个问题，需要借助函数分析的思维方式，即不同的抽检方法底层是不同的二项分布概率密度函数，不同的概率密度函数具有不同的函数分布于函数性质。我们不单是评估各个抽检方案在单个点上的表现，而是要看各个抽检方案在整个可能样本空间上的整体表现。

每一种方案的两类风险，都可以画出OC曲线。如下：

图中横坐标为实际的批不合格率，纵坐标为接收概率，曲线下方为接收概率，上方为拒收概率。

可以看出即使来料不合格率远高于约定，接收的概率还是很大的。

黄色的矩形框称为理想曲线，理想的情况下，批不合格率低于约定肯定接收，而超过约定则肯定拒收，但这种理想曲线是不可能达到的，只能尽可能接近。

下面我们再看看三种抽样方案的OC曲线之间的对比。

可以看到，国标方案的下降趋势要比另外两种要快，更接近理想曲线。

笔者认为，概率论不是给人100%精确的答案的，相反，概率论中所有结果都是一个概率分布，一切皆有可能。概率论的主要目的是给出一个事物结果的发生概率区间，以及置信度，给决策者一个清晰明确的决策依据，至于最终如何决策，还需要决策者自己结合自身具体情况而定。

Relevant Link:

https://zhuanlan.zhihu.com/p/24692791

4. 在各个学科领域里概率分布函数的应用于变化

概率分布与数理统计不仅是在纯机器学习领域的一个理论研究成果，在各个具体的应用学科里也被广泛的时候，其中也包括笔者所在的网络安全领域。笔者这里列举一些典型的概率统计的应用场景。

0x1：统计语言模型

在统计语言模型中，通过统计每个词组的词频（words group frequency）得到词组的词频直方图，这个直方图本质上就是一个离散型随机变量X，随机变量X代表每个词组的词频权重。

统计语言模型通过词组词频随机变量来抽象概括输入文本的文本语言特征。

关于统计语言模型的相关讨论，可以参阅另一篇文章。

0x2：基于数理统计方法的地质模型不确定性评价

王鹏飞，高振南，李俊飞，等．基于数理统计方法的地质模型不确定性评价［Ｊ］．地质科技情报

0x3：关于气象灾害笼罩面积与出现概率的一个定理

论文的主要讨论重点可以总结为：

气象灾害(现象) x 的出现概率是可以从当地的多年气象资料的统计中得到的, 它是时间域的问题。
气象灾害(现象) x 在同一时刻在面积 S 上占有的面积问题是可以通过天气图的分析而得到的, 它是空间域的问题。
文章从概率分布上证明了这两个随机变量的概率分布是近似相等的，将时间域问题和空间域这两种含义不同的统计联系到了一起。
简单来说，如果 24h 内有降水的事件的出现概率在全国各地的平均值等于 0.3 (各地平均 3d 有一场雨), 那么雨区占全国总面积的百分比的时间平均值也应当是 0.3, 即平均而言雨区占总面积的 30%。
建立起这两个随机变量之间的近似等价关系之后，就可以进行 t检验，即已知一个随机事件的概率后，检测另一个对应等价随机事件同样也发生的置信度。
简单来说，就是，N 年一遇的灾害如果某年在全国发生的面积为 1/N, 那么这应当属于正常年份。如果受灾面积超过 1/N，则说明该年不正常。

0x4：一种基于概率分布的投标报价方法

论文的主要观点可以总结为：

作者通过对企业的历史项目招投标以及运营收益的数据收集，并进行统计分析。对项目成本、投标价格、项目利润收益期望这几个随机变量进行建模。最后通过计算利润收益期望的极值，得到一个“投标价格和企业收益的概率分布函数推导公式”，得到一个相对准确的投标报价模型。

使得投资者可以根据自己的报价预估可能的利润收益，同时也可以根据预期的利润收益反推应该采取的报价策略和措施。

0x5：概率统计与数理分析在各个学科场景中的应用

有一点笔者希望提出的是，在工程实践的复杂场景中，不要总想着用我们已知的一些经典概率统计模型去“套用”，例如说“我尝试用正态分布来对一个现象进行建模，也不管实际数据拟合程度如何，就强行硬套”。在很多时候，经典的概率分布函数也不足以描述事物的所有规律与变化，这时候需要提出新的概率密度函数，或者基于经典概率分布函数进行组合改造，使其更加符合实际的数据分布表现。

Relevant Link:

http://xueshu.baidu.com/s?wd=%E6%A6%82%E7%8E%87%E5%88%86%E5%B8%83%E5%87%BD%E6%95%B0%E5%9C%A8%E5%90%84%E4%B8%AA%E5%AD%A6%E7%A7%91%E9%A2%86%E5%9F%9F%E7%9A%84%E5%BA%94%E7%94%A8&tn=SE_baiduxueshu_c1gjeupa&ie=utf-8&sc_hit=1
http://xueshu.baidu.com/usercenter/paper/show?paperid=de08e07cdd644a2a4c90260a6056f011

5. 生成式模型和判别式模型的对立与统一

以概率分布函数为主的统计应用，主要是围绕生成式模型进行研究和开发，他们更注重了解事物的规律本身，以此来更好的指导决策。

另一方面，像深度神经网络这类机器学习算法，主要是围绕判别式模型进行研究和开发，他们更加注意数据和算法本身，主要的目标是获得一个泛化能力更好的模型，对模型的内部参数以及概率分布并不十分关心。

6. 基于系统在不同时域中的概率分布函数的状态变化进行异常检测

开题可行性调查：同一个系统，如果没有外力作用或内部状态发生巨变的情况下，特征函数应该稳定收敛为一个特定的概率分布函数上，相反，如果有异常发生，则该系统的特征函数会发生状态跃迁，具体的表现就是概率分布函数的参数发生变化。

具体的变换程度可以通过”变化显著性“进行量化度量。

相关话题讨论可以wechat或者emai和我交流。

内容来源于网络如有侵权请私信删除

标签：云计算

你还没有登录，请先登录或注册！

还没有人评论，欢迎说说您的想法！

关于概率分布理论的原理分析的一些讨论，以及经典概率分布的应用场景，以及概率统计其在工程实践中的应用

关于概率分布理论的原理分析的一些讨论，以及经典概率分布的应用场景，以及概率统计其在工程实践中的应用

1. 随机变量定义

0x1：为什么要引入随机变量这个数学概念

0x2：随机变量的抽象定义

0x3：随机变量的分类

2. 随机变量的概率密度与概率分布

0x1：为什么要研究随机变量的概率密度与概率分布PDF

1. 现实世界不是确定性的，而是概率性的 - 上帝会掷色子

2. 概率密度估计 - 寻找概率分布函数的方法

0x2：离散型随机变量的分布律与概率分布

1. 离散随机变量的概率(质量)函数（probability density function, PDF）/分布律

2. 离散随机变量的概率分布函数

3. 离散随机变量概率分布函数性质

4. 常见离散型随机变量的概率密度函数（分布律）

1）二项分布

1.1）二项分布数学定义

1.2）二项分布的函数分析意义

1.3）二项分布的应用条件

1.4）二项分布的简单案例

2）超几何分布

2.1）超几何分布的物理意义

2.2）超几何分布数学公式

3）泊松分布

3.1）泊松分布数学公式

3.2）泊松定理推导分析

3.3）泊松分布的简单应用

4）几何分布

4.1）几何分布数学定义

4.2）几何分布的无记忆性

0x3：连续型随机变量的概率密度函数与概率分布

1. 连续型随机变量概率密度函数

2. 连续型随机变量的概率分布函数

3. 连续型随机变量的性质

4. 连续型随机变量概率密度和分布函数性质

5. 常见连续型随机变量的概率密度函数

1）均匀分布

1.1）均匀分布数学定义

1.2）均匀分布概率分布函数

1.3）均匀分布的实际案例

2）指数分布

2.1）指数分布的概率密度与概率分布函数公式

2.2）指数分布的无记忆性

2.3）指数分布和泊松分布公式的互相推导

2.4）指数分布的函数性质

2.5）指数分布和泊松分布的数学期望对比

2.6）指数分布和几何分布的互相推导

3）正态分布

3.1）正态分布数学定义

3.2）正态分布的函数性质

3.3）正态分布的应用场景

4）sigmoid概率函数

3. 经典概率分布函数在工程分析中的作用

0x1：二项分布在心理学和教育领域中关于机遇问题的判断研究

0x2：二项分布在工厂零件供应质量抽检评估中的作用

1. 问题场景说明

2. 通过二项分布数学模型正确评估和决策该问题 - 假设检验

1）x = 1：发现1个次品

2）x = 2：发现2个次品

3. 根据假设检验得到决策依据

4. 如何评估和选择适合自己的业务场景的抽检方案

4. 在各个学科领域里概率分布函数的应用于变化

0x1：统计语言模型

0x2：基于数理统计方法的地质模型不确定性评价

0x3：关于气象灾害笼罩面积与出现概率的一个定理

0x4：一种基于概率分布的投标报价方法

0x5：概率统计与数理分析在各个学科场景中的应用

5. 生成式模型和判别式模型的对立与统一

6. 基于系统在不同时域中的概率分布函数的状态变化进行异常检测

热门标签

推荐文章