概率论基础 - 数据分析

::: hljs-center ![法.png](https://cos.easydoc.net/17082933/files/kee2qydv.png) ::: # 第一章可视化 **1. 垂直柱形图和横向柱形图的区别在于：** - 当文本过长时，一般采用横向 - 垂直柱形图表示频率，横向表示百分比 **2. 定性指标与定量指标** - 定性指标：不能转化成数字表示，一般是一种分类 - 定量指标：可以转化后数字 **3. 直方图的柱子之间必须是没有间隙的，而且宽度一样** # 第二章集中趋势的度量 **1. 均值的专用符号：U(miu)** **2. 处理频数：** **3. 异常值会导致偏斜（要么抬高均值，要么拉低均值）** **4. 当偏斜数据和异常值使均值产生误导时，我们需要用到中位数。** **5. 当数值呈现两极化的时候（比如：游泳班孩子和家长的年龄），众数就派上了用场** **6. 众数是唯一能用于类别数据的平均数。** **7. 均值，中位数，众数区别**。 **总结：均值，中位数和众数都是平均数，平均数主要用在寻找数据集典型值。** # 第三章分散性与变异性的量度 - **全距** = 最大值 - 最小值；它仅仅描述了**数据的宽度**； - **四分位距** = 上四分位距 - 下四分位距（作用：**用于排除异常值**） - **箱线图**：用来显示各种距的图；如果你的数据中有异常值，全距会很宽。通过观察箱型图上的线，就能了解数据的**偏斜程度**。 - **方差**：量度**数据分散情况**；公式：$\frac{\sum(x-\mu)^{2}}{n}$ - **标准差**：描述**典型值和均值距离**；公式：$\sqrt{\text { 方差 }}$ 方差的计算使用了数据集的所有数值，而不只是个别极值（如极大值和极小值），因此方差可以很好的反映数据的整体离散程度。从公式理解，方差是数据偏离平均值距离的平方的平均值。可为什么是偏离平均值距离的平方的平均值，而不是偏离平均值距离的平均值呢？直觉上后者更容易理解才对。完全正确，**因此就有了标准差**，对方差取平方根就得到了标准差，它同样反映数据的离散程度，但因为它跟原始数据为同一个量纲，更加符合我们的直觉，也更方便解释。例如一个班的成绩服从正态分布$N(60, 10^2)$，$10^2$＝100 是方差，你怎么来描述这个班的成绩情况，这样描述：这个班的平均成绩是60分，全班同学的成绩与60分差的平方的均值为100 这有点“脱裤放屁”之嫌！！！引入标准差10之后就可以这样描述了：这个班的平均成绩是60分，全班同学的成绩与60的平均差距在10分左右。 - **标准分**：对**不同数据集中的数据进行比较**的一种方法；比如：比较两位球员**相对于他们本人**的历史记录的表现。计算公式： $Z=\frac{x-\mu}{\sigma}$ ($\sigma$为标准差，$\mu$为平均值) 通过上面公式，标准分也可以解释为**距离均值的标准差个数**； # 第四章概率计算 **事件**：有概率可言的一个结果或一件事。 **概率空间**(样本空间)：表示所有可能的结果。 ## 4.1 相关事件 >**相交事件**：$P(A \cup B)=P(A)+P(B)-P(A B)$ **互斥事件**：$P(A \cup B)=P(A)+P(B) ; P(A B)=0$ >**基本条件概率公式**：以事件B为已知的条件的事件A的概率：$P(A \mid B)=\frac{P(A \cap B)}{P(B)}$ > >注： $P(B) * P(A \mid B)=P(A B)$ -> 即 B发生 + B发生时A发生=A和B都已经发生 >**全概率公式**：$P(B)=\sum_{i=1}^{n} P\left(A_{i}\right) P\left(B \mid A_{i}\right)$ >- 根据条件概率计算一个特定时间的全概率： >- 其中A1,A2…互不相容，且组成一个样本空间 >**逆概公式**（贝叶斯公式） >- 在需要求出条件概率，且该条件概率与已知条件概率顺序相反时使用； >- 基本条件概率公式和全概率公式的组合； >- 计算逆条件概率：$P(A \mid B)=\frac{P(A) * P(B \mid A)}{P(B)}=\frac{P(A) * P(B \mid A)}{P(A) * P(B \mid A)+P\left(A^{\prime}\right) * P\left(B \mid A^{\prime}\right)}$ ## 4.2 独立事件(不相关) >- 几个事件互不影响，比如放回抽样属于独立事件，不放回抽样属于相关事件。 >- $P(A \mid B)=P(A)$ >- $P(A \cap B)=P(A) * P(B)$ # 第五章离散概率分布的应用 ![他.png](https://cos.easydoc.net/17082933/files/kee8e32b.png) # 第六章排列与组合本章内容主要介绍了两个基本概念,**排序与组合** 其中**组合是之后计算二项分布的预备知识** 对于计算而言,重点在于理解其所适应的不同情况,并记忆公式。 ## 6.1 排位 **排位方式**：如果要求n个对象的可能排位方式的数目，则：n!=n\*(n-1)\*(n-2)\*…\*3\*2\*1 **按类型排位**：如果要为n个对象排位，其中包括第一类对象k个，第二类对象j个，第三类对象m个.....则排位方式数目的计算式为: $\frac{n !}{k ! j ! m ! \ldots}$ >4匹马，3只骆驼，2只羊比赛，想知道3种动物类型比赛的结果排列有几种：$\frac{7 !}{4 ! 3 ! 2 !}$ , 除去动物内部排列，将其视为一个动物 **取数排位**：一般说来，从n个对象中取出r个对象的排列数目即n个对象中的每一组对象(r个)的可能排位方式数目，通常写作 $^{n} P_{r},$ 即 $:{ }^{n} P_{r}=\frac{n !}{(n-r) !}$ >10匹马，前三名有几个组合方式：$10 * 9 * 8=\frac{10 * 8 * 7 * \ldots 2 * 1}{7 * 6 * \ldots 2 * 1}$ ## 6.2 组合一般说来，组合数目即为从 n 个对象中选取 r 个对象的选取方式的数目,这时不必知道所选对象的确切顺序。组合数目写作 $^{n} C_{r},$ 即: ${ }^{n} C_{r}=\frac{n !}{r !(n-r) !}$ ## 6.3 两者区别: 1. 排列与顺序有关 2. 组合与顺序无关