【2】大语言模型基础认知 深度塌陷何凯明 残差连接监督学习标注数据学习特征判断标签非监督学习非标注数据可能是残缺的数据缺少中间一段问题、图片遮盖住了一部分等强化学习对行为进行约束或者增强时采用强化学习正反馈和负反馈机制对比维度监督学习非监督学习数据类型带标签 (Labeled)无标签 (Unlabeled)学习目标预测未知数据的标签/数值发现数据的内在结构和模式反馈机制有直接反馈预测对错可知无直接反馈需人工评估典型任务分类、回归聚类、降维、关联规则数据成本高需人工标注低仅需收集数据应用场景垃圾邮件过滤、语音识别客户分群、推荐系统、数据压缩神经网络分层的信息处理深度只代表不同的维度。例如【1,2,3,4,5,6】层次数量、等差序列、统计量【min,max,avg…】、下一组数据可能是【7,8,9…】等。对比维度传统神经网络 (如 CNN/RNN)Transformer核心优点1.局部特征提取强CNN 在图像等网格数据上表现卓越能高效捕捉空间局部模式。2.序列建模有记忆RNN/LSTM 具备内在的时序记忆机制适合短序列或流式数据处理。3.资源相对友好参数量和计算复杂度通常低于同规模的 Transformer推理部署门槛较低。1.全局依赖捕捉自注意力机制能直接建模任意两个位置的关系彻底解决长距离依赖问题。2.高度并行化无需像 RNN 那样逐步处理可一次性处理整个序列训练效率极高。3.架构通用性强同一套架构可无缝迁移至文本、图像、音频、视频等多模态任务泛化能力极强。核心缺点1.长距离依赖困难RNN 存在梯度消失/爆炸问题难以有效捕捉长序列中的远距离关联。2.串行处理瓶颈RNN 必须按顺序逐步计算无法充分利用 GPU 并行算力训练速度慢。3.跨模态扩展难CNN/RNN 通常针对特定数据类型设计难以像 Transformer 一样实现统一的多模态架构。1.计算复杂度呈平方级自注意力机制的计算量和显存占用随序列长度平方级增长超长文本处理成本极高。2.数据饥渴症严重缺乏 CNN/RNN 的归纳偏置需要海量数据才能充分学习小数据集上易过拟合。3.推理开销大生成阶段需反复计算历史 token 的注意力KV Cache 占用大量显存推理延迟和成本较高。来自月之暗面Moonshot AI的Kimi来自字节跳动的豆包来自字节跳动的火山来自腾讯的元宝国外的主流大模型GLM、LLama、GPT、Claude、Gemini等多模态大语言模型多个场景融合