李宏毅深度学习课程集成学习学习报告

近期学习了李宏毅老师深度学习课程中的集成学习(Ensemble Learning) 章节,系统学习了集成学习的核心思想、误差优化原理、Bagging、Boosting、Stacking 三大主流框架。相较于单个模型训练,集成学习通过多模型融合大幅降低模型泛化误差,是机器学习提升精度最核心、最实用的手段之一。本次学习不仅掌握了理论逻辑,同时结合课程公式与实操代码完成了算法验证,对模型优化有了更深的理解。

一、集成学习核心思想

集成学习的核心思想可以概括为:多个弱模型组合成为高精度强模型。

单一模型往往存在固有缺陷:

简单模型:高偏差、欠拟合

复杂模型:高方差、过拟合

集成学习通过多模型差异化训练 + 结果融合,同时降低偏差与方差,从而获得更优的泛化性能。

集成通用预测公式:

二、集成学习三大算法原理(含核心公式)

1. Bagging 并行集成(降低方差)

核心原理

利用自助采样 Bootstrap 构造不同训练集,并行训练多个模型,最后平均融合结果。

集成公式(回归)

Bagging 可以有效抹平单模型方差,因此对容易过拟合的模型(决策树)提升极大,典型代表为随机森林。

2. Boosting 串行集成(降低偏差)

核心原理

串行训练模型,重点学习前一轮错误样本,不断降低模型偏差,逐步提升拟合能力。

AdaBoost 权重更新公式

错误样本权重升高,后续模型更加关注难例数据,不断修正欠拟合问题。

最终集成输出:

3. Stacking 堆叠集成

用多层模型嵌套,第一层多种模型提取特征,第二层模型学习融合权重,拟合能力最强。

三、集成学习误差理论(结合课程 Bias/Variance)

李宏毅老师在课程中明确给出集成学习的误差优化逻辑:

单模型总误差


Error = Bias^2 + Variance + Noise

1. Bagging 主要降低 Variance
多个独立模型平均后:

模型越多,方差越小,过拟合越轻。

2. Boosting 主要降低 Bias
不断迭代修正拟合不足,大幅降低系统偏差,适合弱学习器。

因此:Bagging 稳、Boosting 准、Stacking 强。

四、集成学习 Python 实操代码(可直接运行)

下面给出课程对应随机森林(Bagging)+ AdaBoost(Boosting)完整极简实验代码,可复现集成效果。

# 1.构造数据集
X, y = make_classification(n_samples=1000, random_state=2026)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

# 2.单一决策树(弱模型)
tree = DecisionTreeClassifier()
tree.fit(X_train, y_train)
pred_tree = tree.predict(X_test)
acc_tree = accuracy_score(y_test, pred_tree)

# 3.Bagging:随机森林
rf = RandomForestClassifier(n_estimators=50)
rf.fit(X_train, y_train)
pred_rf = rf.predict(X_test)
acc_rf = accuracy_score(y_test, pred_rf)

# 4.Boosting:AdaBoost
ada = AdaBoostClassifier(n_estimators=50)
ada.fit(X_train, y_train)
pred_ada = ada.predict(X_test)
acc_ada = accuracy_score(y_test, pred_ada)

# 输出对比
print("单一决策树准确率:", acc_tree)
print("随机森林(Bagging)准确率:", acc_rf)
print("AdaBoost(Boosting)准确率:", acc_ada)
实验结论

单棵决策树:准确率最低,存在过拟合/不稳定

随机森林:方差更低,结果更稳定

AdaBoost:偏差更低,拟合精度更高
完美对应李宏毅老师课程的理论讲解。

五、学习收获与总结

通过本次集成学习的学习,并结合公式推导与代码实验,我完整掌握了集成学习的底层逻辑:

1. Bagging 通过并行平均降低方差,解决过拟合;

2. Boosting 通过迭代加权降低偏差,解决欠拟合;

3. 集成学习本质是对 Bias、Variance 的双向优化;

4. 多模型融合是低成本、高效提升模型泛化能力的核心方法。

本次学习打通了误差理论—优化算法—代码实现的完整链路,不仅理解了理论公式,也能够独立完成集成模型训练。后续我将继续结合梯度下降、反向传播知识,深入深度学习模型的集成与调优,进一步夯实深度学习基础。