额滴笔记

对离群点（Outlier）的检测是数据预处理的关键步骤。以下是系统化的检测方法分类及操作指南，结合回归分析场景：

一、单变量离群点检测（适用于单一特征）

1. 标准差法（Z-Score）

原理：数据偏离均值±3个标准差外的点为离群点
公式：
$[ z = \frac{x - \mu}{\sigma} ]$

操作：

python

from scipy import stats
z_scores = stats.zscore(data)
outliers = np.where(np.abs(z_scores) > 3)

2. 四分位距法（IQR）

原理：利用数据分布的四分位数定位异常点
步骤：
1. 计算第一四分位数 (Q1) 和第三四分位数 (Q3)
2. 计算四分位距 (IQR = Q3 - Q1)
3. 定义边界：
  $[ \text{下限} = Q1 - 1.5 \times IQR ] [ \text{上限} = Q3 + 1.5 \times IQR ]$

可视化工具：箱线图（Boxplot）

python

import seaborn as sns
sns.boxplot(x=data['feature'])

二、多变量离群点检测（适用于回归分析）

1. 残差分析法

步骤：
1. 先拟合回归模型 $( y = X\beta )$
2. 计算标准化残差：
  $[ r_i = \frac{y_i - \hat{y}_i}{\sigma_\epsilon} ]$
3. 标记 ( |r_i| > 3 ) 的点为离群点

可视化：残差图（Residual Plot）

python

import statsmodels.api as sm
model = sm.OLS(y, X).fit()
standardized_resid = model.get_influence().resid_studentized_internal
outliers = np.where(np.abs(standardized_resid) > 3)

2. 马氏距离（Mahalanobis Distance）

原理：度量点相对于数据分布中心的距离，考虑特征相关性
公式：
$[ D^2 = (x - \mu)^T \Sigma^{-1} (x - \mu) ]$ $(\Sigma)$ 为协方差矩阵）

操作：

python

from scipy.spatial.distance import mahalanobis
cov = np.cov(data, rowvar=False)
inv_cov = np.linalg.inv(cov)
mean = np.mean(data, axis=0)
D = [mahalanobis(x, mean, inv_cov) for x in data]
outliers = np.where(D > np.percentile(D, 95))  # 取95%分位数阈值

三、机器学习方法

1. 孤立森林（Isolation Forest）

原理：通过随机分割隔离异常点（所需分割次数较少）
优势：适合高维数据，计算效率高

代码：

python

from sklearn.ensemble import IsolationForest
clf = IsolationForest(contamination=0.05)  # 预设离群点比例
outliers = clf.fit_predict(data)

2. 局部离群因子（LOF）

原理：比较点的局部密度与邻居密度
适用场景：密度不均匀的数据集

代码：

python

from sklearn.neighbors import LocalOutlierFactor
lof = LocalOutlierFactor(n_neighbors=20)
outliers = lof.fit_predict(data)

四、可视化检测方法

图形类型	适用场景	离群点特征
散点图（Scatter）	双变量关系分析	远离主数据云的点
残差图（Residual）	回归模型诊断	残差异常大或模式特殊的点
箱线图（Boxplot）	单变量分布	超出箱线图触须的点
热力图（Heatmap）	高维数据相关性	颜色极端异常的区域

示例代码：

python

import matplotlib.pyplot as plt
plt.scatter(data['x'], data['y'])
plt.plot(X, model.predict(X), color='red')  # 回归线

五、处理离群点的策略

删除：确认是数据录入错误时
转换：对数变换（( \log(x+1) )）或缩尾处理（Winsorize）
分段建模：对离群点区域建立独立模型
使用稳健回归：
- RANSAC（随机抽样一致）
- Huber回归（减小大残差权重）
python
```
from sklearn.linear_model import RANSACRegressor
ransac = RANSACRegressor().fit(X, y)
```
1
2

关键注意事项

区分离群点类型：
- 有害离群点：数据错误（如传感器故障）
- 有价值离群点：特殊现象（如欺诈交易）
领域知识优先：结合业务背景判断（如医疗数据中极端值可能代表重症患者）
迭代验证：处理离群点后重新建模，比较 (R^2)、MSE等指标变化

案例：在家庭花销预测中，若发现某样本花销为1000K（远高于平均50K），需确认是否数据录入错误（多写一个0）或真实富豪样本。后者可能需保留或单独建模。

通过系统化检测+业务逻辑判断，可有效提升回归模型的鲁棒性。需要代码实现细节可进一步说明！

一、单变量离群点检测（适用于单一特征） ​

1. 标准差法（Z-Score） ​

2. 四分位距法（IQR） ​

二、多变量离群点检测（适用于回归分析） ​

1. 残差分析法 ​

2. 马氏距离（Mahalanobis Distance） ​

三、机器学习方法 ​

1. 孤立森林（Isolation Forest） ​

2. 局部离群因子（LOF） ​

四、可视化检测方法 ​

五、处理离群点的策略 ​

关键注意事项 ​

一、单变量离群点检测（适用于单一特征）

1. 标准差法（Z-Score）

2. 四分位距法（IQR）

二、多变量离群点检测（适用于回归分析）

1. 残差分析法

2. 马氏距离（Mahalanobis Distance）

三、机器学习方法

1. 孤立森林（Isolation Forest）

2. 局部离群因子（LOF）

四、可视化检测方法

五、处理离群点的策略

关键注意事项