17 KiB
概率基础
数据的集中趋势
我们经常会使用以下几个指标来描述一组数据的集中趋势:
- 均值 - 均值代表某个数据集的整体水平,我们经常提到的客单价、平均访问时长、平均配送时长等指标都是均值。均值的缺点是容易受极值的影响,虽然可以使用加权平均值来消除极值的影响,但是可能事先并不清楚数据的权重;对于正数可以用几何平均值来替代算术平均值。
- 算术平均值:
\bar{x}=\frac{\sum_{i=1}^{n}x_{i}}{n}=\frac{x_{1}+x_{2}+\cdots +x_{n}}{n}
,例如计算最近30天日均DAU、日均新增访客等,都可以使用算术平均值。
- 几何平均值:
\left(\prod_{i=1}^{n}x_{i}\right)^{\frac{1}{n}}={\sqrt[{n}]{x_{1}x_{2} \cdots x_{n}}}
,例如计算不同渠道的平均转化率、不同客群的平均留存率、不同品类的平均付费率等,就可以使用几何平均值。
- 算术平均值:
- 中位数 - 将数据按照升序或降序排列后位于中间的数,它描述了数据的中等水平。
- 众数 - 数据集合中出现频次最多的数据,它代表了数据的一般水平。数据的趋势越集中,众数的代表性就越好。众数不受极值的影响,但是无法保证唯一性和存在性。
例子:有A和B两组数据。
A组:5, 6, 6, 6, 6, 8, 10
B组:3, 5, 5, 6, 6, 9, 12
A组的均值:6.74,中位数:6,众数:6。
B组的均值:6.57,中位数:6,众数:5, 6。
说明:在Excel中,可以使用AVERAGE、MEDIAN、MODE函数分别计算均值、中位数和众数。求中位数也可以使用QUARTILE.EXC或QUARTILE.INC函数,将第二个参数设置为2即可。
对A组的数据进行一些调整。
A组:5, 6, 6, 6, 6, 8, 10, 200
B组:3, 5, 5, 6, 6, 9, 12
A组的均值会大幅度提升,但中位数和众数却没有变化。
思考:怎样判断上面的200到底是不是一个异常值?
优点 | 缺点 | |
---|---|---|
均值 | 充分利用了所有数据,适应性强 | 容易收到极端值(异常值)的影响 |
中位数 | 能够避免被极端值(异常值)的影响 | 不敏感 |
众数 | 能够很好的反映数据的集中趋势 | 有可能不存在(数据没有明显集中趋势) |
练习1:在“概率基础练习.xlsx”文件的表单“练习1”中,有一组用户订单支付金额的数据,计算订单的均值、中位数、众数。
**练习2:**在“概率基础练习.xlsx”文件的表单“练习2”中,有一组商品销售量的数据,现计划设定一个阈值,对阈值以下的商品对应的分销商进行优化,应该选择什么作为阈值比较合适?
数据的离散趋势
如果说数据的集中趋势,说明了数据最主要的特征是什么;那么数据的离散趋势,则体现了这个特征的稳定性。例如 A 地区冬季平均气温0
摄氏度,最低气温-10
摄氏度;B 地区冬季平均气温-2
摄氏度,最低气温-4
摄氏度;如果你是一个特别怕冷的人,在选择 A 和 B 两个区域作为工作和生活的城市时,你会做出怎样的选择?
-
极值:就是最大值(maximum)、最小值(minimum),代表着数据集的上限和下限。
说明:在Excel中,计算极值的函数是MAX和MIN。
-
极差:又称“全距”,是一组数据中的最大观测值和最小观测值之差,记作
R
。一般情况下,极差越大,离散程度越大,数据受极值的影响越严重。 -
四分位距离:
IQR = Q_3 - Q_1
。 -
方差:将每个值与均值的偏差进行平方,然后除以总数据量得到的值。简单来说就是表示数据与期望值的偏离程度。方差越大,就意味着数据越不稳定、波动越剧烈,因此代表着数据整体比较分散,呈现出离散的趋势;而方差越小,意味着数据越稳定、波动越平滑,因此代表着数据整体比较集中。
- 总体方差:
\sigma^2 = \frac {\sum_{i=1}^{N}(X_i - \mu)^2} {N}
。
- 样本方差:
S^2 = \frac {\sum_{i=1}^{N}(X_i - \bar{X})^2} {N-1}
。
说明:在Excel中,计算总体方差和样本方差的函数分别是VAR.P和VAR.S。
- 总体方差:
-
标准差:将方差进行平方根运算后的结果,与方差一样都是表示数据与期望值的偏离程度。
- 总体标准差:
\sigma = \sqrt{\frac{\sum_{i=1}^{N}(X_i - \mu)^2}{N}}
。
- 样本标准差:
S = \sqrt{\frac{\sum_{i=1}^{N}(X_i - \bar{X})^2}{N-1}}
。
说明:在Excel中,计算标准差的函数分别是STDEV.P和STDEV.S。
- 总体标准差:
练习3:复制“概率基础练习.xlsx”文件的表单“练习1”,将复制的表单命名为“练习3”,计算订单支付金额的最大值、最小值、极差、方差和标准差。
数据的频数分析
频数分析是指用一定的方式将数据分组,然后统计每个分组中样本的数量,再辅以图表(如直方图)就可以更直观的展示数据分布趋势的一种方法。
频数分析的意义:
- 大问题变小问题,迅速聚焦到需要关注的群体。
- 找到合理的分类机制,有利于长期的数据分析(维度拆解)。
例如:一个班有40个学生,考试成绩如下所示:
73, 87, 88, 65, 73, 76, 80, 95, 83, 69, 55, 67, 70, 94, 86, 81, 87, 95, 84, 92, 92, 76, 69, 97, 72, 90, 72, 85, 80, 83, 97, 95, 62, 92, 67, 73, 91, 95, 86, 77
用上面学过的知识,先解读学生考试成绩的数据。
均值:81.275,中位数:83,众数:95。
最高分:97,最低分:55,极差:42,方差:118.15,标准差:10.87。
但是,仅仅依靠上面的数据是很难对一个数据集做出全面的解读,我们可以把学生按照考试成绩进行分组,如下所示,大家可以自行尝试在Excel或用Python来完成这个操作。
分数段 | 学生人数 |
---|---|
<60 | 1 |
[60, 65) | 1 |
[65, 69) | 5 |
[70, 75) | 6 |
[75, 80) | 3 |
[80, 85) | 6 |
[85, 90) | 6 |
[90, 95) | 6 |
>=95 | 6 |
练习4:在“概率基础练习.xlsx”文件的表单“练习4”中,有某App首页版本迭代上线后的A/B测试数据,数据代表了参与测试的用户7日的活跃天数,请分析A组和B组的数据并判定哪组表现更优。
练习5:在“概率基础练习.xlsx”文件的表单“练习5”中,有某App某个功能迭代上线后的A/B测试数据,数据代表了参与测试的用户30日的产品使用时长,请分析A组和B组的数据并判定哪组表现更优。
数据的概率分布
基本概念
-
随机试验:在相同条件下对某种随机现象进行观测的试验。随机试验满足三个特点:
- 可以在相同条件下重复的进行。
- 每次试验的结果不止一个,事先可以明确指出全部可能的结果。
- 重复试验的结果以随机的方式出现(事先不确定会出现哪个结果)。
-
随机变量:如果
X
指定给概率空间S
中每一个事件e
有一个实数X(e)
,同时针对每一个实数r
都有一个事件集合A_r
与其相对应,其中A_r=\{e: X(e) \le r\}
,那么X
被称作随机变量。从这个定义看出,X
的本质是一个实值函数,以给定事件为自变量的实值函数,因为函数在给定自变量时会产生因变量,所以将X
称为随机变量。- 离散型随机变量:数据可以一一列出。
- 连续型随机变量:数据不可以一一列出。
如果离散型随机变量的取值非常庞大时,可以近似看做连续型随机变量。
-
概率质量函数/概率密度函数:概率质量函数是描述离散型随机变量为特定取值的概率的函数,通常缩写为PMF。概率密度函数是描述连续型随机变量在某个确定的取值点可能性的函数,通常缩写为PDF。二者的区别在于,概率密度函数本身不是概率,只有对概率密度函数在某区间内进行积分后才是概率。
离散型分布
-
伯努利分布(Bernoulli distribution):又名两点分布或者0-1分布,是一个离散型概率分布。若伯努利试验成功,则随机变量取值为1。若伯努利试验失败,则随机变量取值为0。记其成功概率为
p (0 \le p \le 1)
,失败概率为q=1-p
,则概率质量函数为:$ {\displaystyle f_{X}(x)=p^{x}(1-p)^{1-x}=\left\{{\begin{matrix}p&{\mbox{if }}x=1,\\q\ &{\mbox{if }}x=0.\\\end{matrix}}\right.}
-
二项分布(Binomial distribution):
n
个独立的是/非试验中成功的次数的离散概率分布,其中每次试验的成功概率为p
。一般地,如果随机变量X
服从参数为n
和p
的二项分布,记为X\sim B(n,p)
。n
次试验中正好得到k
次成功的概率由概率质量函数给出,\displaystyle f(k,n,p)=\Pr(X=k)={n \choose k}p^{k}(1-p)^{n-k}
,对于k= 0, 1, 2, ..., n
,其中{n \choose k}={\frac {n!}{k!(n-k)!}}
。 -
泊松分布(Poisson distribution):适合于描述单位时间内随机事件发生的次数的概率分布。如某一服务设施在一定时间内受到的服务请求的次数、汽车站台的候客人数、机器出现的故障数、自然灾害发生的次数、DNA序列的变异数、放射性原子核的衰变数等等。泊松分布的概率质量函数为:
P(X=k)=\frac{e^{-\lambda}\lambda^k}{k!}
,泊松分布的参数\lambda
是单位时间(或单位面积)内随机事件的平均发生率。说明:泊松分布是在没有计算机的年代,由于二项分布的运算量太大运算比较困难,为了减少运算量,数学家为二项分布提供的一种近似。
分布函数和密度函数
对于连续型随机变量,我们不可能去罗列每一个值出现的概率,因此要引入分布函数的概念。
F(x) = P\{X \le x\}
如果将X
看成是数轴上的随机坐标,上面的分布函数表示了x
落在区间(-\infty, x)
中的概率。分布函数有以下性质:
F(x)
是一个单调不减的函数;0 \le F(x) \le 1
,且F(-\infty) = \lim_{x \to -\infty} F(x) = 0
,F(\infty) = \lim_{x \to \infty} F(x) = 1
;F(x)
是右连续的。
概率密度函数就是给分布函数求导的结果,简单的说就是:
F(x) = \int_{- \infty}^{x} f(t)dt
连续型分布
-
均匀分布(Uniform distribution):如果连续型随机变量
X
具有概率密度函数f(x)=\begin{cases}{\frac{1}{b-a}} \quad &{a \leq x \leq b} \\ {0} \quad &{\mbox{other}}\end{cases}
,则称X
服从[a,b]
上的均匀分布,记作X\sim U[a,b]
。 -
指数分布(Exponential distribution):如果连续型随机变量
X
具有概率密度函数f(x)=\begin{cases} \lambda e^{- \lambda x} \quad &{x \ge 0} \\ {0} \quad &{x \lt 0} \end{cases}
,则称X
服从参数为\lambda
的指数分布,记为X \sim Exp(\lambda)
。指数分布可以用来表示独立随机事件发生的时间间隔,比如旅客进入机场的时间间隔、客服中心接入电话的时间间隔、知乎上出现新问题的时间间隔等等。指数分布的一个重要特征是无记忆性(无后效性),这表示如果一个随机变量呈指数分布,它的条件概率遵循:P(T \gt s+t\ |\ T \gt t)=P(T \gt s), \forall s,t \ge 0
。 -
正态分布(Normal distribution):又名高斯分布(Gaussian distribution),是一个非常常见的连续概率分布,经常用自然科学和社会科学中来代表一个不明的随机变量。若随机变量
X
服从一个位置参数为\mu
、尺度参数为\sigma
的正态分布,记为X \sim N(\mu,\sigma^2)
,其概率密度函数为:\displaystyle f(x)={\frac {1}{\sigma {\sqrt {2\pi }}}}e^{-{\frac {\left(x-\mu \right)^{2}}{2\sigma ^{2}}}}
。“3$\sigma$法则”:
正态分布有一个非常重要的性质,大量统计独立的随机变量的平均值的分布趋于正态分布,这就是中心极限定理。中心极限定理的重要意义在于,我们可以用正态分布作为其他概率分布的近似。
一个例子:假设某校入学新生的智力测验平均分数与标准差分别为 100 与 12。那么随机抽取 50 个学生,他们智力测验平均分数大于 105 的概率是多少?小于 90 的概率是多少?
本例没有正态分布的假设,还好中心极限定理提供一个可行解,那就是当随机样本数量超过30,样本平均数 近似于一个正态变量,标准正态变量
Z = \frac {\bar{X} - \mu} {\sigma / \sqrt{n}}
。平均分数大于 105 的概率为:
P(Z \gt \frac{105 - 100}{12 / \sqrt{50}}) = P(Z \gt 5/1.7) = P(Z \gt 2.94) = 0.0016
。平均分数小于 90 的概率为:
P(Z \lt \frac{90-100}{12/\sqrt{50}}) = P(Z < -5.88) = 0.0000
。说明:上面标准正态分布的概率值可以查表得到。
-
伽马分布(Gamma distribution):假设
X_1, X_2, ... X_n
为连续发生事件的等候时间,且这n
次等候时间为独立的,那么这n
次等候时间之和Y
(Y=X_1+X_2+...+X_n
)服从伽玛分布,即Y \sim \Gamma(\alpha,\beta)
,其中\alpha=n, \beta=\lambda
,这里的\lambda
是连续发生事件的平均发生频率。 -
卡方分布(Chi-square distribution):若
k
个随机变量Z_1,Z_2,...,Z_k
是相互独立且符合标准正态分布(数学期望为0,方差为1)的随机变量,则随机变量Z
的平方和X=\sum_{i=1}^{k}Z_i^2
被称为服从自由度为k
的卡方分布,记为X \sim \chi^2(k)
。
其他内容
条件概率和贝叶斯定理
条件概率是指事件A在事件B发生的条件下发生的概率,通常记为P(A|B)
。设A与B为样本空间\Omega
中的两个事件,其中P(B) \gt 0
。那么在事件B发生的条件下,事件A发生的条件概率为:P(A|B)=\frac{P(A \cap B)}{P(B)}
,其中P(A \cap B)
是联合概率,即A和B两个事件共同发生的概率。
事件A在事件B已发生的条件下发生的概率,与事件B在事件A已发生的条件下发生的概率是不一样的。然而,这两者是有确定的关系的,贝叶斯定理就是对这种关系的陈述,即:P(A|B)=\frac{P(A)P(B|A)}{P(B)}
,其中:
P(A|B)
是已知B发生后,A的条件概率,也称为A的后验概率。P(A)
是A的先验概率(也称为边缘概率),是不考虑B时A发生的概率。P(B|A)
是已知A发生后,B的条件概率,称为B的似然性。P(B)
是B的先验概率。
按照上面的描述,贝叶斯定理可以表述为:后验概率 = (似然性 * 先验概率) / 标准化常量
,简单的说就是后验概率与先验概率和相似度的乘积成正比。
大数定理
样本数量越多,则其算术平均值就有越高的概率接近期望值。
- 弱大数定律(辛钦定理):样本均值依概率收敛于期望值,即对于任意正数
\epsilon
,有:\lim_{n \to \infty}P(|\bar{X_n}-\mu|>\epsilon)=0
。 - 强大数定律:样本均值以概率1收敛于期望值,即:
P(\lim_{n \to \infty}\bar{X_n}=\mu)=1
。
假设检验
假设检验就是通过抽取样本数据,并且通过小概率反证法去验证整体情况的方法。假设检验的核心思想是小概率反证法(首先假设想推翻的命题是成立的,然后试图找出矛盾,找出不合理的地方来证明命题为假命题),即在零假设(null hypothesis)的前提下,估算某事件发生的可能性,如果该事件是小概率事件,在一次研究中本来是不可能发生的,但现在却发生了,这时候就可以推翻零假设,接受备择假设(alternative hypothesis)。如果该事件不是小概率事件,我们就找不到理由来拒绝之前的假设,实际中可引申为接受所做的无效假设。
假设检验会存在两种错误情况,一种称为“拒真”,一种称为“取伪”。如果原假设是对的,但你拒绝了原假设,这种错误就叫作“拒真”,这个错误的概率也叫作显著性水平\alpha
,或称为容忍度;如果原假设是错的,但你承认了原假设,这种错误就叫作“取伪”,这个错误的概率我们记为\beta
。
总结
描述性统计通常用于研究表象,将现象用数据的方式描述出来(用整体的数据来描述整体的特征);推理性统计通常用于推测本质(通过样本数据特征去推理总体数据特征),也就是你看到的表象的东西有多大概率符合你对隐藏在表象后的本质的猜测。