常见概率分布 - 数据分析

::: hljs-center ![法.png](https://cos.easydoc.net/17082933/files/kee2qydv.png) ::: # 第七章几何分布、二项分布和松柏分布 ## 7.1 几何分布: $X \sim {Geo}({p})$ **应用条件**： >1. 进行一系列次数有限的独立实验 >1. 每次试验或成功或失败,每次试验的成功概率相同 >1. 主要想知道:**为了取得第一次成功需要试验第多少次** **p为成功概率，q=1-p为失败概率** >$P(X=r)=q^{r-1} \cdot p$ >$P(X>r)=q^{r}$ >$P\left(X^{*} \leq r\right)=1-q^{r}$ **期望与方差**：$E(X)=\frac{1}{p}, \quad {Var}(X)=\frac{q}{p^{2}}$ ## 7.2 二项分布: $X \sim B(n, p)$ **应用条件** ： >1. 各观察单位只能具有**相互对立**的一种结果，如阳性或阴性，生存或死亡等，属于两分类资料。 >1. 已知发生某一结果（阳性）的概率为p，其对立结果的概率为1-p，实际工作中要求p是从大量观察中获得**比较稳定的数值**。 >1. n次试验在相同条件下进行，且各个观察单位的观察**结果相互独立**，即每个观察单位的观察结果不会影响到其他观察单位的结果。如要求疾病无传染性、无家族性等。 >1. 主要想知道:**n次试验中成功X次的概率** ${P}({X}={r})={ }^{n} {C}_{r} \cdot {p}^{r} \cdot {q}^{n-r}$ 期望与方差：$E(X)=\frac{1}{p}, \quad {Var}(X)=\frac{q}{p^{2}}$ ## 7.3 泊松分布: ${X}\sim{Po}({\lambda})$ **应用条件**： >1. 单个事件在给定区间内随机、独立地发生 >1. 已知给定区间的事件平均发生次数 ${\lambda}$ ,或者叫发生率${\lambda}$ >1. 这个发生次数或发生率是有限的 >1. 主要想知道:**给定区间内的事件发生r次的概率** ${P}\left({X}={r}\right)=\frac{{e}^{-{\lambda}}{\lambda}^{r}}{{r}!}$ **期望与方差**：${E}\left({X}\right)={\lambda}$ ， ${Var}\left({X}\right)={\lambda}$ - 如果X和Y是独立随机变量,且都符合泊松分布,则:${X}+{Y}\sim{Po}\left({\lambda}_{X}+{\lambda}_{Y}\right)$ - 如果${X}\sim{B}({n},{p})$,其中n足够大(n>50)且p足够小(p<0.1),则可将该分布近似看作${X}\sim{Po}({np})$ （q足够接近1时${\lambda}$近似np，${\lambda}$近似npq；n足够大时，np更加近似npq，差距相对于本体的大小已经不大了） >**例子**：你的任务是假装自己是爆米花机，并说出你在下一周的一个特定时间段内发生故障a次的概率。记住，你发生损坏的平均次数是每周3.4次。 > >**解**：让我们用X代表爆米花机在一周内的故障次数，已知${X}\sim{Po}\left({3}.{4}\right)$，则可知 ${P}\left({X}={b}\right)=\frac{{e}^{-{3}.{4}}{{3}.{4}}^{b}}{{b}!}$ 注：同分布必然有相同的期望和方差，但反之则不必然；文中所述应是特例 # 第八章正态分布的应用 **连续型概率分布以及概率密度函数** **离散数据**：离散数据由单个数值组成。 ::: hljs-center ![image.png](https://cos.easydoc.net/17082933/files/keebhmx5.png) ::: **连续数据**：连续数据包含一个数据范围，这个范围内的任何一个数值都有可能发生。其数据常常用测量方法得到，而不是用计数方法得到。 ::: hljs-center ![image.png](https://cos.easydoc.net/17082933/files/keebhv47.png) ::: **连续数据 - 连续概率分布** >- 连续概率分布可以用概率密度函数进行描述。 >- 通过计算一个数值范围内的概率密度函数下方的面积，可得出该数值范围的概率。也就是说，为了求出$P(a<X<b)$，必须计算a和b之间的概率密度函数下方的面积。 >- 概率密度函数下方的总面积必须等于1。 >- 期望为$\ E(X)=\int{xf(x)\ df}$ ，方差为：$Var(X)=\int{x^2f(x)\ df}-\ E^2(X)$ **连续数据 – 均匀分布** $f\left(x\right)=\frac{1}{b-a}$ ； $E(X)=\frac{a+b}{2}$ ； $\ Var(X)=\frac{{(b-a)}^2}{12}$ **正态分布(连续数据的理想模型)：** $X\sim N\left(\mu,\sigma^2\right)$ , 均值为${\mu}$、标准差为${\sigma}$。 ::: hljs-center ![的.png](https://cos.easydoc.net/17082933/files/keebv2al.png) ::: 正态分布通过参数$\mu$和$\sigma^2$进行定义，$\mu$指出曲线的中央位置，$\sigma$指出分散性。 ::: hljs-center ![得分.png](https://cos.easydoc.net/17082933/files/keebwdx0.png) ::: **正态概率计算：** 1. **确定分布**：即找到两个参数的值$\mu$，$\sigma^2$。 1. **使其标准化**：根据步骤（1）把正态分布转化成形式：$Z~N(0,1)$ ，即求Z；目的更好地计算概率,即：利用标准分：$Z=\frac{X-\mu}{\sigma}$ ，将$X\sim N\left(\mu,\sigma^2\right)$变为$Z~N(0,1)$。 1. **使用概率表查找概率**(左侧面积):使用上式**求得出原始数据的标准分后**,查找概率表： ::: hljs-center ![的.png](https://cos.easydoc.net/17082933/files/keebx06w.png) ::: 而若求${P}\left({Z}>{a}\right)={1}-{P}\left({Z}<{a}\right) ,\ {P}({a}<{Z}<{b})={P}({Z}<{b})\ -\ {P}({Z}<{a})$ # 第九章超越正态分布 ## 9.1 正态分布间的计算（注：运用到之前的独立变量，线性变化，独立观测结果的公式） **随机独立分布**的正态分布： ::: hljs-center ![1.png](https://cos.easydoc.net/17082933/files/keebz5yq.png) ::: ::: hljs-center ![2.png](https://cos.easydoc.net/17082933/files/keebzgdm.png) ::: **线性变换**的正态分布：$a x+b \sim N\left(a \mu+b, a^{2} \sigma^{2}\right)$ **独立观测值**的正态分布：${x}_{1}+{x}_{2}+\ldots+{x}_{n} \sim {N}\left({n} {\mu}, {n} {\sigma}^{2}\right)$ ## 9.2 经验法则(适用于符合正态分布的任何数据集) 几乎所有的数据都位于**距离均值三个标准差的范围内** - 大约68%的数值位于距离均值1个标准差的范围内 - 大约95%的数值位于距离均值2个标准差的范围内 - 大约99.7%的数值位于距离均值3个标准差的范围内 ::: hljs-center ![image.png](https://cos.easydoc.net/17082933/files/keec0hks.png) ::: ## 9.3 二项分布的近似 ::: hljs-center ![3.png](https://cos.easydoc.net/17082933/files/keec1cwb.png) ::: **连续性修正：** 二项分布的变量是离散的，而正态分布的变量是连续的。故要做连续性修正，具体如下： ::: hljs-center ![4.png](https://cos.easydoc.net/17082933/files/keec21oc.png) ::: ## 9.4 泊松分布的近似如果$x \sim {Po}(\lambda)$ 且 $\lambda>15$，则可用$x \sim N(\lambda, \lambda)$进行近似。**不过需要进行连续性修正** **小结**：**正态分布是最典型的一种连续型分布**，这个世界中的大多数事情都符合正态分布，在合适的条件下，还能使用正态分布近似二项分布和泊松分布，**不要忘了进行连续性修正**。