Skip to content

一步步拆解“未被选中概率”的公式

核心问题:为什么“未被选中概率”是 (11m)m\displaystyle \left(1-\frac{1}{m}\right)^m

1. Bootstrap采样的规则

  • 训练集有 mm 个样本(编号为 1,2,\dots ,m)。
  • 每次采样时,每个样本被选中的概率是 1m\frac{1}{m}(因为有放回,每次独立)。
  • 采样 mm 次,相当于做 mm 次独立试验。

2. 单个样本的“未被选中概率”

  • 单次采样:某个特定样本(比如样本 ii未被选中的概率是 11m1-\frac{1}{m}
  • mm 次采样:因为每次采样是独立的,所以样本 iimm 次采样中一次都没被选中的概率是\underbrace{\left(1-\frac{1}{m}\right)\times \left(1-\frac{1}{m}\right)\times \dots \times \left(1-\frac{1}{m}\right)}_{m\text{ 个}} = \left(1-\frac{1}{m}\right)^m.

3. 极限情况:为什么近似 e1e^{-1}

  • mm 很大时(比如 mm\to \infty),根据微积分中的极限

    limm(11m)m=e10.368.\lim_{m\to\infty}\left(1-\frac{1}{m}\right)^m = e^{-1}\approx 0.368.

    这是一个经典极限,类似于 limn(1+1n)n=e\displaystyle \lim_{n\to\infty}\left(1+\frac{1}{n}\right)^n = e

4. 直观理解

  • 例子:假设 m=2m=2(训练集有 22 个样本)。

    • 单次采样未选中某个样本的概率是 112=0.51-\frac{1}{2}=0.5
    • 采样 22 次后,该样本从未被选中的概率是 0.52=0.250.5^2=0.25
    • 公式验证:(112)2=0.25\left(1-\frac{1}{2}\right)^2=0.25,与直觉一致。
  • 结论:随着 mm 增大,(11m)m\left(1-\frac{1}{m}\right)^m 趋近于 e1e^{-1},因此36.8%36.8\% 的样本在 Bootstrap 采样中不会被选中(即“袋外样本”)。

5. 总结

  • 公式 (11m)m\displaystyle \left(1-\frac{1}{m}\right)^m 计算的是某个特定样本在 mm 次有放回采样中一次都没被选中的概率
  • 极限近似 e1e^{-1} 是数学上的简化,适用于大 mm 的情况。

知识如风,常伴吾身