预处理过程中常见的错误有哪些?
数据预处理常见错误及解决方法
一、缺失值处理错误
直接删除缺失值导致数据失真
单一默认值填充掩盖数据分布特征
解决方法:采用多重插补法或基于模型的插值方法
二、异常值处理不当
简单删除异常值影响分析完整性
未区分离群点与错误数据
解决方法:使用箱线图识别+稳健统计方法处理
三、数据类型转换错误
字符串转数值时未处理非数字字符
时间格式转换错误导致分析偏差
解决方法:使用astype()配合错误处理参数
四、特征缩放问题
全量数据缩放导致信息泄露
未区分训练集和测试集处理
解决方法:采用标准化而非归一化
五、特征选择失误
忽视特征间多重共线性
仅凭统计量筛选忽略业务逻辑
解决方法:使用LASSO回归+领域知识验证
六、数据分割错误
随机分割未考虑时间序列特性
测试集污染训练数据
解决方法:分层抽样+时间窗口划分
七、其他常见问题
未处理类别不平衡影响模型评估
文本数据未进行标准化清洗
忽略特征交叉的潜在价值