概率论基础

::: hljs-center ![法.png](https://cos.easydoc.net/17082933/files/kee2qydv.png) ::: # 第一章 可视化 **1. 垂直柱形图和横向柱形图的区别在于:** - 当文本过长时,一般采用横向 - 垂直柱形图表示频率,横向表示百分比 **2. 定性指标与定量指标** - 定性指标:不能转化成数字表示,一般是一种分类 - 定量指标:可以转化后数字 **3. 直方图的柱子之间必须是没有间隙的,而且宽度一样** # 第二章 集中趋势的度量 **1. 均值的专用符号:U(miu)** **2. 处理频数:** **3. 异常值会导致偏斜(要么抬高均值,要么拉低均值)** **4. 当偏斜数据和异常值使均值产生误导时,我们需要用到中位数。** **5. 当数值呈现两极化的时候(比如:游泳班孩子和家长的年龄),众数就派上了用场** **6. 众数是唯一能用于类别数据的平均数。** **7. 均值,中位数,众数区别**。 **总结: 均值,中位数和众数都是平均数,平均数主要用在寻找数据集典型值。** # 第三章 分散性与变异性的量度 - **全距** = 最大值 - 最小值; 它仅仅描述了**数据的宽度**; - **四分位距** = 上四分位距 - 下四分位距(作用:**用于排除异常值**) - **箱线图**:用来显示各种距的图;如果你的数据中有异常值,全距会很宽。通过观察箱型图上的线,就能了解数据的**偏斜程度**。 - **方差**:量度**数据分散情况**; 公式:$\frac{\sum(x-\mu)^{2}}{n}$ - **标准差**:描述**典型值和均值距离**;公式:$\sqrt{\text { 方差 }}$ 方差的计算使用了数据集的所有数值,而不只是个别极值(如极大值和极小值),因此方差可以很好的反映数据的整体离散程度。 从公式理解,方差是数据偏离平均值距离的平方的平均值。可为什么是偏离平均值距离的平方的平均值,而不是偏离平均值距离的平均值呢?直觉上后者更容易理解才对。 完全正确,**因此就有了标准差**,对方差取平方根就得到了标准差,它同样反映数据的离散程度,但因为它跟原始数据为同一个量纲,更加符合我们的直觉,也更方便解释。 例如一个班的成绩服从正态分布$N(60, 10^2)$,$10^2$=100 是方差,你怎么来描述这个班的成绩情况,这样描述: 这个班的平均成绩是60分,全班同学的成绩与60分差的平方的均值为100 这有点“脱裤放屁”之嫌!!! 引入标准差10之后就可以这样描述了: 这个班的平均成绩是60分,全班同学的成绩与60的平均差距在10分左右。 - **标准分**:对**不同数据集中的数据进行比较**的一种方法;比如:比较两位球员**相对于他们本人**的历史记录的表现。 计算公式: $Z=\frac{x-\mu}{\sigma}$ ($\sigma$为标准差,$\mu$为平均值) 通过上面公式,标准分也可以解释为**距离均值的标准差个数**; # 第四章 概率计算 **事件**:有概率可言的一个结果或一件事。 **概率空间**(样本空间):表示所有可能的结果。 ## 4.1 相关事件 >**相交事件**:$P(A \cup B)=P(A)+P(B)-P(A B)$ **互斥事件**:$P(A \cup B)=P(A)+P(B) ; P(A B)=0$ >**基本条件概率公式**:以事件B为已知的条件的事件A的概率:$P(A \mid B)=\frac{P(A \cap B)}{P(B)}$ > >注: $P(B) * P(A \mid B)=P(A B)$ -> 即 B发生 + B发生时A发生=A和B都已经发生 >**全概率公式**:$P(B)=\sum_{i=1}^{n} P\left(A_{i}\right) P\left(B \mid A_{i}\right)$ >- 根据条件概率计算一个特定时间的全概率: >- 其中A1,A2…互不相容,且组成一个样本空间 >**逆概公式**(贝叶斯公式) >- 在需要求出条件概率,且该条件概率与已知条件概率顺序相反时使用; >- 基本条件概率公式和全概率公式的组合; >- 计算逆条件概率:$P(A \mid B)=\frac{P(A) * P(B \mid A)}{P(B)}=\frac{P(A) * P(B \mid A)}{P(A) * P(B \mid A)+P\left(A^{\prime}\right) * P\left(B \mid A^{\prime}\right)}$ ## 4.2 独立事件(不相关) >- 几个事件互不影响,比如放回抽样属于独立事件,不放回抽样属于相关事件。 >- $P(A \mid B)=P(A)$ >- $P(A \cap B)=P(A) * P(B)$ # 第五章 离散概率分布的应用 ![他.png](https://cos.easydoc.net/17082933/files/kee8e32b.png) # 第六章 排列与组合 本章内容主要介绍了两个基本概念,**排序与组合** 其中**组合是之后计算二项分布的预备知识** 对于计算而言,重点在于理解其所适应的不同情况,并记忆公式。 ## 6.1 排位 **排位方式**:如果要求n个对象的可能排位方式的数目,则:n!=n\*(n-1)\*(n-2)\*…\*3\*2\*1 **按类型排位**:如果要为n个对象排位,其中包括第一类对象k个,第二类对象j个,第三类对象m个.....则排位方式数目的计算式为: $\frac{n !}{k ! j ! m ! \ldots}$ >4匹马,3只骆驼,2只羊比赛,想知道3种动物类型比赛的结果排列有几种:$\frac{7 !}{4 ! 3 ! 2 !}$ , 除去动物内部排列,将其视为一个动物 **取数排位**:一般说来,从n个对象中取出r个对象的排列数目即n个对象中的每一组对象(r个)的可能排位方式数目,通常写作 $^{n} P_{r},$ 即 $:{ }^{n} P_{r}=\frac{n !}{(n-r) !}$ >10匹马,前三名有几个组合方式:$10 * 9 * 8=\frac{10 * 8 * 7 * \ldots 2 * 1}{7 * 6 * \ldots 2 * 1}$ ## 6.2 组合 一般说来,组合数目即为从 n 个对象中选取 r 个对象的选取方式的数目,这时不必知道所选对象的确切顺序。组合数目写作 $^{n} C_{r},$ 即: ${ }^{n} C_{r}=\frac{n !}{r !(n-r) !}$ ## 6.3 两者区别: 1. 排列与顺序有关 2. 组合与顺序无关