代价函数机器学习算法中GBDT和XGBOOST的区别有哪些

代价函数时间:2021-06-26 阅读:()

为什么线性回归的代价函数总是凸函数

凸函数是一个定义在某个向量空间的凸子集C（区间）上的实值函数f设f为定义在区间I上的函数，若对I上的任意两点X1，X2和任意的实数λ∈（0，1），总有f(λx1+(1-λ)x2)≤λf(x1)+(1-λ)f(x2),则f称为I上的凸函数.凹函数小于等于号改为大于等于号。

xgboost为什么对代价函数用二阶泰勒展开

因为这样做可以很清楚地理解整个目标，并且一步一步推导出如何进行树的学习。

传统的GBDT大家可以理解如优化平法残差，但是这样一个形式包含可所有可以求导的目标函数。

也就是说有了这个形式，写出来的代码可以用来求解包括回归，分类和排序的各种问题，正式的推导可以使得机器学习的工具更加一般。

简答说一说吧：实际上使用二阶泰勒展开是为了xgboost能够【自定义loss function】，如果按照最小二乘法的损失函数直接推导，同样能够得到陈佬最终的推导式子：二阶泰勒展开实际不是 ?最小二乘法，平方损失函数的二阶泰勒展开=最小二乘法。

但陈佬为何想用二阶泰勒展开呢，猜是为了xgboost库的可扩展性，因为任何损失函数只要二阶可导即能【复用】陈佬所做的关于最小二乘法的任何推导。

而且泰勒的本质是尽量去模仿一个函数，猜二阶泰勒展开已经足以近似大量损失函数了，典型的还有基于分类的对数似然损失函数。

嘿，这样同一套代码就能完成回归或者分类了，而不是每次都推导一番，重写训练代码。

扩展资料：泰勒以微积分学中将函数展开成无穷级数的定理著称于世。

这条定理大致可以叙述为：函数在一个点的邻域内的值可以用函数在该点的值及各阶导数值组成的无穷级数表示出来。

然而，在半个世纪里，数学家们并没有认识到泰勒定理的重大价值。

这一重大价值是后来由拉格朗日发现的，他把这一定理刻画为微积分的基本定理。

泰勒定理的严格证明是在定理诞生一个世纪之后，由柯西给出的。

泰勒定理开创了有限差分理论，使任何单变量函数都可展成幂级数；同时亦使泰勒成了有限差分理论的奠基者。

泰勒于书中还讨论了微积分对一系列物理问题之应用。

其中以有关弦的横向振动之结果尤为重要。

他透过求解方程导出了基本频率公式，开创了研究弦振问题之先河。

此外，此书还包括了他于数学上之其他创造性工作，如论述常微分方程的奇异解，曲率问题之研究等。

参考资料来源：百度百科-代价函数参考资料来源：百度百科-泰勒公式

如何理解机器学习中的代价曲线

机器学习通俗的说，就是用简单粗暴的方法来发现事物内在的联系。

比如我想做手势识别，我需要一个函数，函数的输入是手势数据，输出是不同手势的类型。

我需要用各种手势数据来训练这个函数，使这个函数能有正确的输出。

机器学习算法中GBDT和XGBOOST的区别有哪些

传统GBDT以CART作为基分类器，xgboost还支持线性分类器，这个时候xgboost相当于带L1和L2正则化项的逻辑斯蒂回归（分类问题）或者线性回归（回归问题）。

传统GBDT在优化时只用到一阶导数信息，xgboost则对代价函数进行了二阶泰勒展开，同时用到了一阶和二阶导数。

顺便提一下，xgboost工具支持自定义代价函数，只要函数可一阶和二阶求导。

xgboost在代价函数里加入了正则项，用于控制模型的复杂度。

正则项里包含了树的叶子节点个数、每个叶子节点上输出的score的L2模的平方和。

从Bias-variance tradeoff角度来讲，正则项降低了模型的variance，使学习出来的模型更加简单，防止过拟合，这也是xgboost优于传统GBDT的一个特性。

Shrinkage（缩减），相当于学习速率（xgboost中的eta）。

xgboost在进行完一次迭代后，会将叶子节点的权重乘上该系数，主要是为了削弱每棵树的影响，让后面有更大的学习空间。

实际应用中，一般把eta设置得小一点，然后迭代次数设置得大一点。

（补充：传统GBDT的实现也有学习速率）列抽样（column subsampling）。

xgboost借鉴了随机森林的做法，支持列抽样，不仅能降低过拟合，还能减少计算，这也是xgboost异于传统gbdt的一个特性。

对缺失值的处理。

对于特征的值有缺失的样本，xgboost可以自动学习出它的分裂方向。

xgboost工具支持并行。

boosting不是一种串行的结构吗?怎么并行的？注意xgboost的并行不是tree粒度的并行，xgboost也是一次迭代完才能进行下一次迭代的（第t次迭代的代价函数里包含了前面t-1次迭代的预测值）。

xgboost的并行是在特征粒度上的。

我们知道，决策树的学习最耗时的一个步骤就是对特征的值进行排序（因为要确定最佳分割点），xgboost在训练之前，预先对数据进行了排序，然后保存为block结构，后面的迭代中重复地使用这个结构，大大减小计算量。

这个block结构也使得并行成为了可能，在进行节点的分裂时，需要计算每个特征的增益，最终选增益最大的那个特征去做分裂，那么各个特征的增益计算就可以开多线程进行。

可并行的近似直方图算法。

树节点在进行分裂时，我们需要计算每个特征的每个分割点对应的增益，即用贪心法枚举所有可能的分割点。

当数据无法一次载入内存或者在分布式情况下，贪心算法效率就会变得很低，所以xgboost还提出了一种可并行的近似直方图算法，用于高效地生成候选的分割点。

展开全文

代价函数机器学习算法中GBDT和XGBOOST的区别有哪些相关文档

代价函数问一个关于simulink赋值的问题。我想通过一个M文件中的代价函数，给simulink的gain模块赋值，应该怎么办？

代价函数probability mass function是什么意思？怎么计算的

代价函数通过调整参数，最小化代价函数，哪些技术是可以用上的

mergefield邮件合并中如何插入百分数 prisma安卓版Prisma安卓版能不能用 ico监管在中国ICO为什么不合法在线直播系统网络视频直播系统的简介 averagesPoisson-Arrivals-See-Time-Averages是什么意思网络安全密钥网络安全密钥一般是什么 selectintooracle有select into临时表的用法吗 sms是什么短信确认码是什么 ocr软件下载哪个图片转文字软件比较好用？erp系统教程在一个公司里怎样去学ERP 网址域名注册最便宜的vps 快速域名备案希网动态域名香港服务器99idc 卡巴斯基官方免费版韩国名字大全域名转接阿里校园电信虚拟主机 hktv 外贸空间腾讯数据库双11促销 hdchina 美国主机侦探 cdn加速技术 studentmain shuangshiyi let 更多

代价函数机器学习算法中GBDT和XGBOOST的区别有哪些

为什么线性回归的代价函数总是凸函数

xgboost为什么对代价函数用二阶泰勒展开

如何理解机器学习中的代价曲线

机器学习算法中GBDT和XGBOOST的区别有哪些

Stablehost 美国主机商黑五虚拟主机四折

Fiberia.io：$2.9/月KVM-4GB/50GB/2TB/荷兰机房

Gigsgigscloud（$9.8）联通用户优选日本软银VPS