Python-100-Days/Day66-80/77.概率统计基础.md

26 KiB
Raw Blame History

概率统计基础

概率论源于赌博游戏。意大利文艺复兴时代百科全书式的学者卡尔达诺死后发表的《论赌博游戏》被认为是第一部论述概率论的著作。到了17世纪的法国宫廷贵族里盛行着掷骰子游戏游戏规则是玩家连续掷4次骰子如果其中没有6点出现玩家赢如果出现一次6点则庄家相当于现在的赌场后来为了使游戏更刺激游戏规则发生了些许变化玩家用2个骰子连续掷24次不同时出现2个6点玩家赢否则庄家赢。在这样的时代背景下法国数学家帕斯卡和费马创立了概率论后来雅各布·伯努利发现概率论远远不止用于赌博他将他的思考和研究记录下来写成了《猜度数》一书提出了大数定理在一个随机事件中,随着试验次数的增加,事件发生的频率越趋近于一个稳定值),这个定理在当时的保险公司得到了充分利用。

思考:回到刚才的骰子游戏,按照旧玩法,庄家获胜的概率是多少?换成新玩法,庄家获胜的概率与之前的玩法相同吗?

以概率论为基础的统计学显然比概率论出现的时间更晚而且一直以来都是一种尴尬的存在处于各种鄙视链的底端。从数学的角度看统计学中的数学原理过于肤浅从应用科学的角度看统计学太数学跟应用沾不上边。卢瑟福原子核物理学之父曾经说过“如果你的实验需要统计学那么你应该再做一个更好的实验”波普尔20世纪最伟大的哲学家之一也曾经对归纳逻辑进行过强烈的抨击。曾经由于欧几里得、笛卡尔带给人们的完美体系实在太过迷人导致很多人都忽视了统计思维这一重要的科学思维方式。但是最近十年时间随着大数据和人工智能时代的来临统计学又以惊人的速度流行起来因为大数据时代已经充分证明了经验主义、归纳推理的强大之处而人工智能实际上也是大数据加上深度学习的归纳方法所取得的成功。有了统计学我们能够处有效的处理海量的数据也能够正确理解数据分析的结果。

按照统计方法的不同,我们可以将统计学分类为描述统计学、推断统计学、贝叶斯统计学等。描述统计学是用来描绘或总结观察量的基本情况的统计方法,通常会将整理后的数据做成表格或图表,具体包括数据的集中趋势分析、离散趋势分析和相关分析。推断统计学是研究如何根据样本数据推断总体数据特征的方法,在无法获得全量数据的情况下,推断统计就是最为行之有效的方法。贝叶斯统计学的基础是贝叶斯定理,贝叶斯定理将经验和直觉与概率相关联,和人类大脑的判断原理十分类似,简单的说就是在获取到新的数据之后,先前凭借经验和直觉获得的概率是可以改变的。

数据和数据的分类

在统计学中,通过试验、观察、调查等获得的材料被称为数据,数据大致可以分为定性数据和定量数据,其中定性数据又可以分为定类尺度和定序尺度,定量数据又可以分为定距尺度和定比尺度,如下表所示。

####定性数据的处理

  1. 定类尺度(名义尺度):定类尺度通常会处理成虚拟变量(哑变量),多个不同的类型最终会变成一个虚拟变量矩阵。
  2. 定序尺度:定序尺度可以处理成一个序号,并通过该序号表示等级的高低。

定量数据的处理

  1. 线性归一化

    $ x_i' = \frac {x_i - min(X)} {max(X) - min(X)}
  2. 零均值归一化

    $ x_i' = \frac {x_i - \mu} {\sigma}

数据的集中趋势

我们经常会使用以下几个指标来描述一组数据的集中趋势:

  1. 均值 - 均值代表某个数据集的整体水平,我们经常提到的客单价、平均访问时长、平均配送时长等指标都是均值。均值是对数据进行概括的一个强有力的方法,将大量的数据浓缩成了一个数据。均值的缺点是容易受极值的影响,可以使用加权平均值或去尾平均值来消除极值的影响;对于正数可以用几何平均值来替代算术平均值。
    • 算术平均值:\bar{x} = \frac{\sum_{i=1}^{n} {x_{i}}} {n} = \frac{x_{1}+x_{2}+\cdots +x_{n}}{n}例如计算最近30天日均DAU、日均新增访客等都可以使用算术平均值。
    • 几何平均值:\left(\prod_{i=1}^{n}x_{i}\right)^{\frac{1}{n}}={\sqrt[{n}]{x_{1}x_{2} \cdots x_{n}}},例如计算不同渠道的平均转化率、不同客群的平均留存率、不同品类的平均付费率等,就可以使用几何平均值。
  2. 中位数 - 将数据按照升序或降序排列后位于中间的数,它描述了数据的中等水平。中位数的计算分两种情况:
    • 当数据体量n为奇数时,中位数是位于\frac{n + 1}{2}位置的元素。
    • 当数据体量n为偶数时,中位数是位于\frac{n}{2}{\frac{n}{2}+1}两个位置元素的均值。
  3. 众数 - 数据集合中出现频次最多的数据,它代表了数据的一般水平。一般在数据量比较大时,众数才有意义,而且数据越集中,众数的代表性就越好。众数不受极值的影响,但是无法保证唯一性和存在性。

例子有A和B两组数据。

A组5, 6, 6, 6, 6, 8, 10
B组3, 5, 5, 6, 6, 9, 12

A组的均值6.74中位数6众数6。

B组的均值6.57中位数6众数5, 6。

说明在Excel中可以使用AVERAGEGEOMEANMEDIANMODE.SNGLMODE.MULT函数分别计算均值、中位数和众数。求中位数也可以使用QUARTILE.EXCQUARTILE.INC函数将第二个参数设置为2即可。

对A组的数据进行一些调整。

A组5, 6, 6, 6, 6, 8, 10, 500
B组3, 5, 5, 6, 6, 9, 12

A组的均值会大幅度提升但中位数和众数却没有变化。

优点 缺点
均值 充分利用了所有数据,适应性强 容易收到极端值(异常值)的影响
中位数 能够避免被极端值(异常值)的影响 不敏感
众数 能够很好的反映数据的集中趋势 有可能不存在(数据没有明显集中趋势)

数据的离散趋势

如果说数据的集中趋势,说明了数据最主要的特征是什么;那么数据的离散趋势,则体现了这个特征的稳定性。简单的说就是数据越集中,均值的代表性就越强;数据波动越大,均值的代表性就越弱。

  1. 极值就是最大值maximum、最小值minimum代表着数据集的上限和下限。

    说明Excel 中,计算极值的函数分别是MAXMIN

  2. 极差:又称“全距”,是一组数据中的最大观测值和最小观测值之差,记作R。一般情况下,极差越大,离散程度越大,数据受极值的影响越严重。

  3. 四分位距离:\small{IQR = Q_3 - Q_1}

    提示:箱线图。

  4. 方差:将每个值与均值的偏差进行平方,然后除以总数据量得到的值。简单来说就是表示数据与期望值的偏离程度。方差越大,就意味着数据越不稳定、波动越剧烈,因此代表着数据整体比较分散,呈现出离散的趋势;而方差越小,意味着数据越稳定、波动越平滑,因此代表着数据整体比较集中。简单的总结一下,

    • 总体方差: \sigma^2 = \frac {\sum_{i=1}^{N} {(X_i - \mu)^2}} {N}
    • 样本方差: S^2 = \frac {\sum_{i=1}^{N} {(X_i - \bar{X})^2}} {N-1}

    说明Excel 中,计算总体方差和样本方差的函数分别是VAR.PVAR.S

  5. 标准差:将方差进行平方根运算后的结果,与方差一样都是表示数据与期望值的偏离程度。

    • 总体标准差: \sigma = \sqrt{\frac{\sum_{i=1}^{N} {(X_i - \mu)^2}} {N}}
    • 样本标准差: S = \sqrt{\frac{\sum_{i=1}^{N} {(X_i - \bar{X})^2}} {N-1}}

    说明Excel 中,计算标准差的函数分别是STDEV.PSTDEV.S

数据的频数分析

用一定的方式将数据分组,然后统计每个分组中样本的数量,再辅以图表(如直方图)就可以更直观的展示数据分布趋势的一种方法。

频数分析的业务意义:

  1. 大问题变小问题,迅速聚焦到需要关注的群体。
  2. 找到合理的分类机制,有利于长期的数据分析(维度拆解)。

例如一个班有50个学生考试成绩如下所示

87,  80,  79,  78,  55,  80,  81,  60,  78,  82,  67,  74,  67, 74,  66,  91,  100,  70,  82,  71,  77,  94,  75,  83,  85,  84, 47,  75,  84,  96,  53,  86,  86,  89,  71,  76,  75,  80,  70,  83,  77,  91,  90,  82,  74,  74,  78,  53,  88,  72

在获得数据后,我们先解读数据的集中趋势和离散趋势。

均值:77.4,中位数:78.0,众数:74

最高分:100,最低分:47,极差:53,方差:120.16

但是,仅仅依靠上面的指标是很难对一个数据集做出全面的解读,我们可以把学生按照考试成绩进行分组,如下所示。

分数段 学生人数
<60 4
[60, 65) 1
[65, 70) 3
[70, 75) 9
[75, 80) 10
[80, 85) 11
[85, 90) 6
[90, 95) 4
>=95 2

我们可以利用直方图来查看数据分布的形态,对数据分布形态的测度主要以正态分布为标准进行衡量,正态分布在坐标轴上的形状是一个铃铛型(钟型),正态曲线以均值为中心左右对称,如下图所示,而上面的学生考试成绩数据就呈现出正态分布的轮廓。

我们可以数据分布的直方图拟合出一条曲线与正态曲线进行比较主要比较曲线的尖峭程度和对称性通常称之为峰度和偏态。数据分布的不对称性称为偏态偏态又分为正偏右偏或负偏左偏两种。在正态分布的情况下中位数和均值应该都在对称轴的位置如果中位数在左边均值在右边那么数据的极端值也在右边数据分布曲线向右延伸就是我们说的右偏如果均值在左边中位数在右边那么数据的极端值在左边数据分布曲线向左延伸就是我们说的左偏。测定偏态的指标是偏态系数Excel 中计算偏度系数使用的公式如下所示:


SK = \frac{n}{(n - 1)(n - 2)} \sum(\frac{x_i - \bar{x}}{s})^3

\small{SK > 0}分布呈现正偏SK值越大正偏程度越高。

\small{SK < 0}分布呈现负偏SK值越小负偏程度越高。

峰度是指数据分布的尖峭程度一般可以表现为尖顶峰度、平顶峰度和标准峰度正态分布的峰度。测定峰度的指标是峰度系数Excel 中计算峰度系数使用的公式如下所示:


K = \frac{n(n + 1)}{(n - 1)(n - 2)(n - 3)}\sum(\frac{x_i - \bar{x}}{s})^4-\frac{3(n - 1)^2}{(n - 2)(n - 3)}

峰度系数\small{K < 0}时,分布与正态分布相比更为扁平、宽肩、瘦尾;峰度系数\small{K > 0}时,分布与正态分布相比更为尖峰、瘦肩、肥尾。

数据的概率分布

基本概念

  1. 随机现象:在一定条件下可能发生也可能不发生,结果具有偶然性的现象。

  2. 样本空间(sample space):随机现象一切可能的结果组成的集合。

  • 抛一枚硬币的样本空间:\Omega = \{ \omega_1, \omega_2 \}
  • 抛两枚硬币的样本空间:\Omega = \{ \omega_1, \omega_2, \omega_3, \omega_4 \},其中\omega_1 = (H, H)\omega_2 = (H, T)\omega_3 = (T, H)\omega_4 = (T, T)
  • 离散型的样本空间的元素是可列的,连续型的样本空间的元素是(无限)不可列的。
  1. 随机试验(trials):在相同条件下对某种随机现象进行观测的试验。随机试验满足三个特点:

    • 可以在相同条件下重复的进行。

    • 每次试验的结果不止一个,事先可以明确指出全部可能的结果。

    • 重复试验的结果以随机的方式出现(事先不确定会出现哪个结果)。

  2. 随机变量(random variable):如果X指定给概率空间S中每一个事件e有一个实数X(e),同时针对每一个实数r都有一个事件集合A_r与其相对应,其中A_r=\{e: X(e) \le r\},那么X被称作随机变量。从这个定义看出,X的本质是一个实值函数,以给定事件为自变量的实值函数,因为函数在给定自变量时会产生因变量,所以将X称为随机变量。简单的说,随机变量的值需要通过试验来确认。

    • 离散型随机变量:数据可以一一列出。
    • 连续型随机变量:数据不可以一一列出。

    说明:如果离散型随机变量的取值非常庞大时,可以近似看做连续型随机变量。

  3. 概率(probability用一个0~1之间的数字表示随机现象发生的可能性也就是说概率是随机事件出现可能性的度量。

  4. 概率质量函数/概率密度函数:概率质量函数是描述离散型随机变量为特定取值的概率的函数,通常缩写为PMF。概率密度函数是描述连续型随机变量在某个确定的取值点可能性的函数,通常缩写为PDF。二者的区别在于,概率密度函数本身不是概率,只有对概率密度函数在某区间内进行积分后才是概率。

  5. 随机变量的数字特征:

    • (数学)期望:随机变量按照概率的加权平均,它表示了概率分布的中心位置,反映随机变量平均取值的大小。

      对于离散型随机变量X,若\sum_{i=1}^{\infty} x_ip_i收敛,那么它就是随机变量X的期望,记为E(X),即E(X) = \sum_{i=1}^{\infty} x_ip_i,否则随机变量X的期望不存在。

      对于连续型随机变量X,其概率密度函数为f(x),若\int_{-\infty}^{\infty}xf(x)dx收敛,则称E(x) = \int_{-\infty}^{\infty}xf(x)dx为随机变量X的数学期望,否则随机变量X的期望不存在。

    • 方差:方差用来表示随机变量概率分布的离散程度,对于随机变量X,若E((X - E(X))^2)存在,则称E((X - E(X))^2)X的方差,记为Var(X)。很显然,离散型随机变量X的方差为 Var(X) = \sum_{i=1}^{\infty} [x_i - E(X)]^2p_i,连续型随机变量X的方差为Var(X) = \int_{-\infty}^{\infty} [x - E(X)]^2f(x)dx

  6. 期望与方差的性质:

    • 对于任意两个随机变量X_1X_2,则有E(X_1 + X_2) = E(X_1) + E(X_2)
    • X是随机变量,ab是任意常量,则有E(aX + b) = aE(X) + b Var(aX + b) = a^2Var(X)
    • 若随机变量X_1X_2独立,则有Var(X_1 + X_2) = Var(X_1) + Var(X_2)
  7. 其他零碎小概念:

    • 互斥(mutually exclusive):事件不能同时发生。
    • 独立(independant):一个试验的结果不会对另一个试验的结果产生影响。
    • 排列permutationP_k^n = \frac{n!}{(n - k)!},国内教科书一般记为P_n^kA_n^k
    • 组合(combinationC_k^n = \frac{n!}{k!(n-k)!},国内教科书一般记为C_n^k

离散型分布

  1. 伯努利分布(Bernoulli distribution):又名两点分布或者0-1分布是一个离散型概率分布。若伯努利试验成功则随机变量取值为1。若伯努利试验失败则随机变量取值为0。记其成功概率为p (0 \le p \le 1),失败概率为q=1-p,则概率质量函数为:

    $ f(x)=p^{x}(1-p)^{1-x}=\left\{{\begin{matrix}p&{\mbox{if }}x=1,\\q\ &{\mbox{if }}x=0.\\\end{matrix}}\right.
  2. 二项分布(Binomial distributionn个独立的是/非试验中成功次数的离散概率分布,其中每次试验的成功概率为p。一般地,如果随机变量X服从参数为np的二项分布,记为X\sim B(n,p)n次试验中正好得到k次成功的概率由概率质量函数给出,

    $ P(X=k) = C_k^np^k(1-p)^{n-k}

    提示Excel 中,可以通过BINOM.DIST.RANGE函数计算二项分布的概率。

  3. 泊松分布(Poisson distribution适合于描述单位时间内随机事件发生的次数的概率分布。如某一服务设施在一定时间内受到的服务请求的次数、汽车站台的候客人数、机器出现的故障数、自然灾害发生的次数、DNA序列的变异数、放射性原子核的衰变数等等。泊松分布的概率质量函数为P(X=k)=\frac{e^{-\lambda}\lambda^k}{k!},泊松分布的参数\lambda是单位时间(或单位面积)内随机事件的平均发生率。

    说明:泊松分布是在没有计算机的年代,由于二项分布的运算量太大运算比较困难,为了减少运算量,数学家为二项分布提供的一种近似。当二项分布的n很大,p很小的时候,我们可以让\lambda = np,然后用泊松分布的概率质量函数计算概率来近似二项分布的概率。

分布函数

对于连续型随机变量,我们不可能去罗列每一个值出现的概率,因此要引入分布函数的概念。


F(x) = P\{X \le x\}

如果将X看成是数轴上的随机坐标,上面的分布函数表示了x落在区间(-\infty, x)中的概率。分布函数有以下性质:

  1. F(x)是一个单调不减的函数;
  2. 0 \le F(x) \le 1,且F(-\infty) = \lim_{x \to -\infty} F(x) = 0 F(\infty) = \lim_{x \to \infty} F(x) = 1
  3. F(x)是右连续的。

概率密度函数就是给分布函数求导的结果,简单的说就是:


F(x) = \int_{- \infty}^{x} f(t)dt

连续型分布

  1. 均匀分布(Uniform distribution):如果连续型随机变量X具有概率密度函数f(x)=\begin{cases}{\frac{1}{b-a}} \quad &{a \leq x \leq b} \\ {0} \quad &{\mbox{other}}\end{cases},则称X服从[a,b]上的均匀分布,记作X\sim U[a,b]

  2. 指数分布(Exponential distribution):如果连续型随机变量X具有概率密度函数f(x)=\begin{cases} \lambda e^{- \lambda x} \quad &{x \ge 0} \\ {0} \quad &{x \lt 0} \end{cases},则称X服从参数为\lambda的指数分布,记为X \sim Exp(\lambda)。指数分布可以用来表示独立随机事件发生的时间间隔,比如旅客进入机场的时间间隔、客服中心接入电话的时间间隔、知乎上出现新问题的时间间隔等等。指数分布的一个重要特征是无记忆性(无后效性),这表示如果一个随机变量呈指数分布,它的条件概率遵循:P(T \gt s+t\ |\ T \gt t)=P(T \gt s), \forall s,t \ge 0

  3. 正态分布(Normal distribution):又名高斯分布Gaussian distribution),是一个非常常见的连续概率分布,经常用自然科学和社会科学中来代表一个不明的随机变量。若随机变量X服从一个位置参数为\mu、尺度参数为\sigma的正态分布,记为X \sim N(\mu,\sigma^2),其概率密度函数为:\displaystyle f(x)={\frac {1}{{\sqrt {2 \pi } \sigma}}}e^{-{\frac {\left(x-\mu \right)^{2}}{2\sigma ^{2}}}}

    根据“棣莫弗-拉普拉斯积分定理”,假设\mu_{n} (n=1, 2, \cdots)表示n重伯努利试验中成功的次数,已知每次试验成功的概率为p,那么:

    $ \lim_{n \to \infty} P\lbrace \frac{\mu_n - np} {\sqrt{np(1-p)}} \le x \rbrace = \frac {1} {\sqrt{2\pi}} \int_{-\infty}^{x} e^{-\frac {\mu^2} {2}} dx

提到正态分布就必须说一下“3$\sigma$法则”该法则也称为“68-95-99.7”法则,如下图所示。

正态分布有一个非常重要的性质,大量统计独立的随机变量的平均值的分布趋于正态分布,即\bar{X} \sim N(\mu, \frac{\sigma^2}{n})这就是中心极限定理。中心极限定理的重要意义在于,我们可以用正态分布作为其他概率分布的近似。

一个例子:假设某校入学新生的智力测验平均分数与标准差分别为 100 与 12。那么随机抽取 50 个学生,他们智力测验平均分数大于 105 的概率是多少?小于 90 的概率是多少?

本例没有正态分布的假设还好中心极限定理提供一个可行解那就是当随机样本数量超过30样本平均数近似于一个正态变量我们可以构造标准正态变量Z = \frac {\bar{X} - \mu} {\sigma / \sqrt{n}}

平均分数大于 105 的概率为: P(Z \gt \frac{105 - 100}{12 / \sqrt{50}}) = P(Z \gt 5/1.7) = P(Z \gt 2.94) = 0.0016

平均分数小于 90 的概率为:P(Z \lt \frac{90-100}{12/\sqrt{50}}) = P(Z < -5.88) = 0.0000

说明:上面标准正态分布的概率值可以查表得到,在 Excel 中可以使用NORM.DIST函数获得。例如在上面的例子中,我们可以通过NORM.DIST(2.94, 0, 1, TRUE)获得P(z\le2.94)的概率为0.998359

基于正态分布的三大分布

  1. 卡方分布(Chi-square distribution):若k个随机变量Z_1,Z_2,...,Z_k是相互独立且服从标准正态分布N(0, 1)的随机变量,则随机变量X = \sum_{i=1}^{k}Z_i^2被称为服从自由度为k的卡方分布,记为X \sim \chi^2(k)。卡方分布的概率密度曲线如下所示。

  2. t分布:设X \sim N(0, 1) Y \sim {\chi}^2(n),且XY相互独立,则随机变量T = \frac {X} {\sqrt{Y/n}}称为自由度为nt分布,记作T \sim t(n)t分布的概率密度曲线如下所示。

  3. F分布:设X \sim \chi^2(n_1)Y \sim \chi^2(n_2),且XY相互独立,则随机变量F = \frac{X / n_1}{Y / n_2}称为自由度为(n_1, n_2)F分布,记作F \sim F(n_1, n_2),它的概率密度曲线如下所示。

这三个分布有什么用呢?

  1. \chi^2分布:常用于独立性检验、拟合优度检验。
  2. F分布:常用于比例的估计和检验,方差分析和回归分析中也会用到F分布。
  3. t分布:在信息不足的情况下,要对总体均值进行估计和检验,就会使用到t分布。

其他内容

贝叶斯定理

联合概率是指事件A和事件B共同发生的概率通常记为\small{P(A \cap B)}

条件概率是指事件A在事件B发生的条件下发生的概率通常记为\small{P(A|B)}。设A与B为样本空间\Omega中的两个事件,其中\small{P(B) \gt 0}。那么在事件B发生的条件下事件A发生的条件概率为{P(A|B)=\frac{P(A \cap B)}{P(B)}},当P(B)=0时,规定P(A|B) = 0

思考

  1. 某家庭有两个孩子,问两个孩子都是女孩的概率是多少?
  2. 某家庭有两个孩子,已知其中一个是女孩,问两个孩子都是女孩的概率是多少?
  3. 某家庭有两个孩子,已知老大是女孩,问两个孩子都是女孩的概率是多少?

事件A在事件B已发生的条件下发生的概率与事件B在事件A已发生的条件下发生的概率是不一样的。然而这两者是有确定的关系的贝叶斯定理就是对这种关系的陈述,如下所示:


P(A|B)=\frac{P(B|A)}{P(B)}P(A)
  • P(A|B)是已知B发生后,A的条件概率,也称为A的后验概率。
  • P(A)A的先验概率也称作边缘概率,是不考虑BA发生的概率。
  • P(B|A)是已知A发生后,B的条件概率,称为B的似然性。
  • P(B)B的先验概率。

大数定理

样本数量越多,则其算术平均值就有越高的概率接近期望值。

  1. 弱大数定律(辛钦定理):样本均值依概率收敛于期望值,即对于任意正数\epsilon,有:\lim_{n \to \infty}P(|\bar{X_n}-\mu|>\epsilon)=0
  2. 强大数定律样本均值以概率1收敛于期望值P(\lim_{n \to \infty}\bar{X_n}=\mu)=1

假设检验

假设检验就是通过抽取样本数据,并且通过小概率反证法去验证整体情况的方法。假设检验的核心思想是小概率反证法(首先假设想推翻的命题是成立的,然后试图找出矛盾,找出不合理的地方来证明命题为假命题),即在零假设(通常记为H_0)的前提下,估算某事件发生的可能性,如果该事件是小概率事件,在一次试验中本不应该发生,但现在却发生了,此时我们就有足够的理由怀疑零假设,转而接受备择假设(通常记为H_A)。

假设检验会存在两种错误情况,一种称为“拒真”,一种称为“取伪”。如果原假设是对的,但你拒绝了原假设,这种错误就叫作“拒真”,这个错误的概率也叫作显著性水平\alpha,或称为容忍度;如果原假设是错的,但你承认了原假设,这种错误就叫作“取伪”,这个错误的概率我们记为\beta

总结

描述性统计通常用于研究表象,将现象用数据的方式描述出来(用整体的数据来描述整体的特征);推理性统计通常用于推测本质(通过样本数据特征去推理总体数据特征),也就是你看到的表象的东西有多大概率符合你对隐藏在表象后的本质的猜测。