一步步拆解“未被选中概率”的公式
核心问题:为什么“未被选中概率”是 ?
1. Bootstrap采样的规则
- 训练集有 个样本(编号为 1,2,\dots ,m)。
- 每次采样时,每个样本被选中的概率是 (因为有放回,每次独立)。
- 采样 次,相当于做 次独立试验。
2. 单个样本的“未被选中概率”
- 单次采样:某个特定样本(比如样本 )未被选中的概率是 。
- 次采样:因为每次采样是独立的,所以样本 在 次采样中一次都没被选中的概率是\underbrace{\left(1-\frac{1}{m}\right)\times \left(1-\frac{1}{m}\right)\times \dots \times \left(1-\frac{1}{m}\right)}_{m\text{ 个}} = \left(1-\frac{1}{m}\right)^m.
3. 极限情况:为什么近似 ?
- 当 很大时(比如 ),根据微积分中的极限
这是一个经典极限,类似于 。
4. 直观理解
例子:假设 (训练集有 个样本)。
- 单次采样未选中某个样本的概率是 。
- 采样 次后,该样本从未被选中的概率是 。
- 公式验证:,与直觉一致。
结论:随着 增大, 趋近于 ,因此约 的样本在 Bootstrap 采样中不会被选中(即“袋外样本”)。
5. 总结
- 公式 计算的是某个特定样本在 次有放回采样中一次都没被选中的概率。
- 极限近似 是数学上的简化,适用于大 的情况。
