不平衡样本数据处理

不平衡数据的处理方法与代码分享

单分类算法：One Class SVM

这里分析出了很多看似很有用的方法：https://blog.csdn.net/AaronPaul/article/details/113994474 https://zhuanlan.zhihu.com/p/523227820

不平学习库pipeline代码：https://zhuanlan.zhihu.com/p/159080497

2、在特征选择之前或之后采样？

SMOTE论文描述了在采样之前应该执行特征选择。

不平衡数据集，欠采样和特征工程的先后顺序? 就这一问题而言，我认为二者应该是没有严格的先后关系的。因为，特征选择→不均衡处理的理由在于，这样可以保证选出来的特征对原始数据是有现实意义的，不均衡处理有可能会改变特征的分布情况，导致有的特征从不重要变得重要了。另一方面，不均衡处理→特征选择，在处理后的均衡数据集上进行特征选择，可以进一步提升当前数据集的拟合能力，整体的performance应该是会有进一步提升。但是像之前说的，可能不均衡处理导致特征的分布变了，从而与现实脱离。

results matching ""

No results matching ""