XGBoost
efficient、flexible
Reference:XGBoost Documentation
Xgboost 是一种高度复杂的算法可以处理各种各样的数据,利用 Xgboost 构建模型简单,但是用 Xgboost 来调参提升模型却很难。
XGBoost 的优势
- Regularization(正则化);【可以减少过拟合】
- Parallel Processing(并行处理);【Boosting 是串行算法】
- High Flexibility(高度灵活);【自定义优化目标与评估标准】
- Handling Missing Values(处理缺失值) 【内置程序】
- Tree Pruning(树剪枝) 【参数max_depth】
- Built-in Cross-Validation(内置的交叉验证)
- Continue on Existing Model(继续现有模型) 【基于上一次运行迭代】
参数介绍
- General Parameters(通用参数): 设置整体功能
- Booster Parameters(提升参数): 选择你每一步的booster (树or回归)
- Learning Task Parameters(学习任务参数): 指导优化任务的执行
参数详细介绍参见: Blog
XGBoost 的参数较多,如果需要认知各个参数的参考上述 Blog, 我直接开始说参数调优…
Xgboost参数调优
通用方法
- 选择一个相对较高的学习率。通常来说学习率设置为0.1。但是对于不同的问题可以讲学习率设置在0.05-0.3。通过交叉验证来寻找符合学习率的最佳树的个数。
- 当确定好学习率与最佳树的个数时,调整树的某些特定参数。比如:max_depth, min_child_weight, gamma, subsample, colsample_bytree
- 调整正则化参数 ,比如: lambda, alpha。这个主要是为了减少模型复杂度和提高运行速度的。适当地减少过拟合。
- 降低学习速率,选择最优参数
修正学习速率及调参估计量
给定一个初始值,方便确定其他参数,可随意给定
调整max_depth 和min_child_weight
max_depth:树的最大深度,控制过拟合
min_child_weight:一个子集的所有观察值的最小权重和
需要调整参数的选择依据:对结果的影响程度
方法:
先预设一个较大的值,通过一个范围和步进值进行迭代,不断缩小范围,找寻最优组合,类似于最小二乘法。
调整gamma
这个指定了一个结点被分割时,所需要的最小损失函数减小的大小。
这个值一般来说需要根据损失函数来调整。
和上一步一致的方法,同样是设置范围和步进值进行迭代,找寻最优值。
调整subsample 和colsample_bytree
分别是采样率和特征采样率
方法还和之前一致。
调整正则化参数
reg_alpha
此参数使用相对较少,主要是用来调整过拟合,调优选择精度最高的值。
减小学习率
通过减小学习率并增加树的数量
参数调优用例: Xgboost-tuning
LightGBM
LightGBM 的优点就是快的一逼的同时精度还高
LGB 不需要通过所有样本计算信息增益了,而是选择梯度大的样本来计算信息增益,所以更精;而且内置特征降维技术,所以更快。
如果一个样本的梯度较小,证明这个样本训练的误差已经很小了,所以不需要计算了。GBDT的梯度算出来实际上就是残差,梯度小残差就小,所以该样本拟合较好,不需要去拟合他们了。但是我们这样相当于改变数据分布,无法避免信息损失,还是会导致精度下降。
LGB 核心:
- 在保留大梯度样本的同时,随机地保留一些小梯度样本,同时放大了小梯度样本带来的信息增益。
e.g. 首先把样本按照梯度排序,选出梯度最大的$a%$个样本,然后在剩下小梯度数据中随机选取$b%$个样本,在计算信息增益的时候,将选出来$b%$个小梯度样本的信息增益扩大 $1 - \frac{a}{b}$ 倍。
- 内置了特征降维技术,思想就是合并那些冲突小的稀疏特征。
e.g. 对于一列特征[1,nan,1,nan,1]和一列特征[nan,1,nan,1,nan],他们正好可以合并成一列特征[1,2,1,2,1]。LGB的目标就是在于找到这样的特征并且将他们合并在一起。
Reference: 无痛看懂LightGBM原文
参数调优
一般步骤如下:
- 选择较高的学习率,大概0.1附近;
- 对决策树基本参数调参;
- 正则化参数调参;
- 最后降低学习率,这里是为了最后提高准确率。
可见对于基于决策树的模型,调参的方法都是大同小异,LGB 的参数调优步骤和 XGB 的调优步骤基本相同。
学习率和估计器及数目
给定一个初始值,方便设置其他参数
通常先把学习率先定一个较高的值,取 learning_rate = 0.1,其次确定估计器boosting/boost/boosting_type的类型,不过默认都会选gbdt。
为了确定估计器的数目,也就是boosting迭代的次数,也可以说是残差树的数目,参数名为n_estimators/num_iterations/num_round/num_boost_round。我们可以先将该参数设成一个较大的数,然后在cv结果中查看最优的迭代次数。
注意:在硬件条件允许的情况下,学习率尽可能小
调整 max_depth 和 num_leaves
max_depth :设置树深度,深度越大可能过拟合
num_leaves:树的复杂程度
因为 LightGBM 使用的是 leaf-wise 的算法,因此在调节树的复杂程度时,使用的是 num_leaves 而不是 max_depth。大致换算关系:$num_leaves = 2^(max_depth)$,但是它的值的设置应该小于 $2^(max_depth)$,否则可能会导致过拟合。
方法:
sklearn 里的 GridSearchCV() 函数进行搜索。
调整 min_data_in_leaf 和 min_sum_hessian_in_leaf
min_data_in_leaf: 取决于训练数据的样本个数和num_leaves.
min_sum_hessian_in_leaf: 使一个结点分裂的最小海森值之和
方法同上:还是利用 GridSearchCV 函数
调整 feature_fraction 和 bagging_fraction
feature_fraction: 进行特征的子抽样
bagging_fraction+bagging_freq参数必须同时设置,bagging_fraction相当于subsample样本采样
调整正则化参数
lambda_l1(reg_alpha), lambda_l2(reg_lambda)
两者分别对应l1正则化和l2正则化。分别对应 l1 正则化和 l2 正则化
方法仍然同上。
降低learning_rate
之前我们设置了较高的学习率,是为了让收敛更快,但是现在我们需要提高精度,使用较低的学习速率,以及使用更多的决策树n_estimators来训练数据。
方法:
LightGBM 的 cv( ) 函数
参数调优实例:Blog
CatBoost
Gradient Boosting(梯度提升) + Categorical Features(类别型特征)
优势
- 类别型特征的处理; 【降低拟合的同时将数据集随机排列进而将全部数据集用来学习】
- 特征组合;【贪婪策略,二值处理】
- 克服梯度偏差 【梯度步长的无偏估计、GBDT 技术构建新树】
- 快速评分 【oblivious 树作为基本预测器转换索引为二进制向量,进一步使用二进制特征来计算模型预测值】
- 基于GPU实现快速学习 【密集的数值特征、完美哈希_类别型特征、多 GPU 支持】
Reference:CatBoost “超强战斗力”的算法
Result:e.g.
参数调优
具有鲁棒性的 CatBoost 简直就是机器学习框架界的一匹黑马,不仅训练准确性超强,就连参数调优都特别舒适。
在 CatBoost Document 原文中,针对 CatBoost Tuning 是如此描述的
CatBoost provides a flexible interface for parameter tuning and can be configured to suit different tasks.
One-hot encoding
注意:
由于 One-hot encoding 对训练速度和训练结果的影响较大,所以千万不要在预处理的时候使用
适用性:
当分类特征值较少时,选择 One-hot encoding 会取得很好的效果
使用过程中 One-hot encoding 不会显著提高模型质量,但是如果模型质量需要提高,可以选择修改内置参数,而不需要预处理数据。
参数详细: Reference
Number of trees
CatBoost 在参数调优时,如果要调整任何其他参数,首先应该确定模型没有非正常拟合现象。所以我们有必要分析数据集的度量值和迭代次数。
可以通过将迭代次数设置为一个较大值,使用 overfitting detector 参数并且将 use best model options 参数调大,这样一来,模型训练结果只包含前 k 个最佳迭代。【k-最佳损失值的索引】
用于选择最佳模型的度量可能与用于优化目标值的度量不同。
参数详细: Reference
Tree depth
在大多数情况下,最佳深度范围是 4 ~ 10,建议深度6 ~ 10
The maximum depth of the trees is limited to 8 for pairwise modes (YetiRank, PairLogitPairwise and QueryCrossEntropy) when the training is performed on GPU.
GPU 上训练时,树的最大深度被限制在了 8。
参数详细: Reference
Border count
数字特征的分割数
此参数的值会影响 GPU 上的训练速度,值越小,训练速度越快。【Detail:Number of splits for numerical features】
分割数 128 一般情况下来说足够了,但是如果想要更好的训练质量,可以将此参数设置为 254.
参数详细: Reference
其他参数:
参见:Reference
说了这么多,其实参数调优只能从表面上解决问题,如果想要实质性或更大的优化,还需要在特征工程和模型集成上大做文章。