统计模型: Beta分布

·1972·5 分钟
AI摘要: 本文详细介绍了四种常见的统计分布:二项分布、泊松分布、指数分布和正态分布,并深入探讨了Beta分布在概率建模中的应用。文章不仅解释了每种分布的数学定义和性质,还提供了它们在实际应用中的场景。特别是对Beta分布的分析,强调了其在贝叶斯分析中作为先验概率模型的重要性。

4种常见分布

二项分布

P(x=k)=Cnkpk(1p)nkP(x = k) = C_n^k p^k (1 - p)^{n - k} : nn次独立实验,每次成功概率为pp, 成功kk次为止

  • 期望 E=npE = np
  • 方差 Var=np(1p)Var = np(1 - p)
  • 累计概率密度函数 F(x<=k)=x=0kCnkpk(1p)nkF(x <= k) = \sum_{x = 0}^k C_n^k p^k (1 - p)^{n - k}

应用场景:

  1. 质量控制
  2. 可靠性
  3. 调查抽样

在某些情况下可以被其他分布近似:

  1. p ->0, n -> \infty , 可以用泊松分布近似
  2. p <=0.5 , np >5, or p >0.5 , nq >5, 可以用正态分布近似

泊松分布

P(x=k)=exp(λ)λkk!P(x = k) = \frac{\exp( - \lambda) \lambda^k }{k!} ,记为xπ(λ)x \sim \pi(\lambda)λ\lambda指事件发生次数的平均值

描述单位时间内随机事件(概率不变)发生的次数的概率分布

  • 期望 E=λE =\lambda
  • 方差 Var=λVar = \lambda
  • X+Yπ(λ1+λ2)X + Y \sim \pi(\lambda_1 + \lambda_2)

应用场景:

  1. 如某一服务设施在一定时间内受到的服务请求的次数
  2. 电话交换机接到呼叫的次数
  3. 汽车站台的候客人数
  4. 机器出现的故障数

指数分布

p(T=t)=λexp(λt)p(T = t) = \lambda \exp(- \lambda t)

其中 λ>0 \lambda >0 是分布的参数,即每单位时间发生该事件的次数

用来分析独立的事件发生的间隔的概率分布,比如两个游客进入机场的时间间隔(如果大概率间隔超过1个小时,机场人员就可以幸福摸鱼了)

  • 期望 E=1λE = \frac{1}{\lambda}
  • 方差 Var=1λ2Var = \frac{1}{\lambda^2}
  • 无记忆性(超级好的性质):P(T>s+tT>t)=P(T>s)P(T > s + t | T > t) = P(T > s)

应用场景

  • 电灯泡寿命预估

正态分布

P(x)=12πσ2exp((xμ)22σ2)P(x) = \frac{1}{\sqrt{2 \pi \sigma^2}} \exp(\frac{- (x - \mu)^ 2}{ 2 \sigma ^ 2})

Beta分布

p(xλ1,λ2,w1,w2)=1w2w1Γ(λ1+λ2)Γ(λ1)λ2(xw1w2w1)λ11(1xw1w2w1)λ21p(x | \lambda_1, \lambda_2, w_1, w_2) = \frac{1}{w_2 - w_1} \frac{\Gamma(\lambda_1 + \lambda_2)}{\Gamma(\lambda_1) \lambda_2} (\frac{x - w_1}{w_2 - w_1})^{\lambda_1 - 1} (1 - \frac{x - w_1}{w_2 - w_1})^{\lambda_2 - 1}

Beta分布是用来描述概率的概率分布(十分拗口),因为概率是[0,1][0, 1]的,所以Beta分布的取值范围也是[0,1][0, 1], 对概率进行建模。

通常情况下,w1=0,w2=1w_1 = 0, w_2 = 1, 那么p(xλ1,λ2)=Γ(λ1+λ2)Γ(λ1)Γ(λ2)xλ11(1x)λ21p(x | \lambda_1, \lambda_2) = \frac{\Gamma(\lambda_1 + \lambda_2)}{\Gamma(\lambda_1) \Gamma(\lambda_2)} x^{\lambda_1 - 1} (1 - x)^{\lambda_2 - 1}

Beta函数B(α,β)=01xa1(1x)dx=Γ(α)Γ(β)Γ(α+β)B(\alpha, \beta) = \int_0^1 x^{a - 1} (1 - x )dx = \frac{\Gamma(\alpha) \Gamma(\beta)}{\Gamma(\alpha + \beta)}

Beta分布:

f(x)=1B(α,β)xα1(1x)β1,0<x<1f(x) = \frac{1}{\Beta(\alpha, \beta)} x^{\alpha - 1} (1 - x)^{\beta - 1}, 0< x < 1

Beta分布和二项分布的概率密度函数形式上非常相似,区别在于二项分布对实验成功次数进行建模,Beta分布是对成功概率进行建模,分析成功概率的概率(还是很拗口)

  • 期望 E=αα+βE = \frac{\alpha }{\alpha + \beta}
  • 方差 Var=αβ(α+β)2(α+β+1)Var = \frac{\alpha \beta}{(\alpha + \beta)^2 (\alpha + \beta + 1)}

应用场景:

  • 贝叶斯分析(用来描述先验分布)
Kaggle学习赛初探