经验心得

1、训练集和测试集一定要一起进行特征工程

比如说一个特征是int类型,需要计算平均数和中位数,两个数据集结合在一起可以统一标准。

2、tqdm进度条很好用

3、.py文件和.ipynb文件两者的运行效率一样

4、使用gc及时清理内存

5、exec会降低运行效率

6、安装脚本

#!/bin/bash
#
# 文 件 名: install_required_library.sh
# 文件描述: 安装必需库
# 作    者: HanKin
# 创建日期: 2022.11.22
# 修改日期:2022.11.22
# 
# Copyright (c) 2022 HanKin. All rights reserved.
#

pip install pandas
pip install scikit-learn
pip install catboost
pip install lightgbm
pip install xgboost
pip install imblearn
pip install gensim

7、for循环写成一行

agg_df[col] = agg_df[col].apply(lambda x: ' '.join([str(i) for i in x]))
result = [1 if i > 0.25 else 0 for i in result]

8、可能编码环境运行内存不足,需要改小数据集

sed -n '1,3p' file1 >> file2 用输出重定向符号 >> 就是附加到file2的最后,file2不存在的话会自动新建的。

9、缺少一列数据构造默认缺失值

if False:
    ip_info['networkTags'] = ['["CSDN"]' for i in range(ip_info.shape[0])]
    ip_info['judgement'] = ['unknown' for i in range(ip_info.shape[0])]

results matching ""

    No results matching ""