新手教程
大模型
AI专栏
浙江大学
浙江大学《大模型基础》教材PDF下载与权威测评
摘要
浙江大学近期推出的《大模型基础》教材,为从业者提供了一份系统性的知识图谱。这份报
浙江大学近期推出的《大模型基础》教材,为从业者提供了一份系统性的知识图谱。这份报告从大语言模型(LLMs)的核心理论出发,全面覆盖了前沿应用与关键技术,是构建大模型知识体系的权威参考资料。
语言模型基础
报告首先构建了语言模型的理论基石。这部分内容定义了语言建模的基本范式,是理解后续复杂架构与应用的先决条件。
- 基于统计方法的语言模型:从经典的 n-gram 模型切入,阐释了其依赖的马尔可夫假设与极大似然估计原理,为理解语言概率建模奠定了统计学基础。
- 基于RNN的语言模型:剖析了循环神经网络(RNN)的序列建模结构,并客观评估了其在训练中面临的梯度消失与爆炸等挑战,及其在早期语言建模中的历史地位。
- 基于Transformer的语言模型:作为现代大语言模型的基石,报告深度解析了 Transformer 的核心组件:自注意力机制、前馈网络、层归一化与残差连接,阐明了其革命性意义。
- 语言模型的采样方法:探讨了模型文本生成时的解码策略,包括贪心搜索、波束搜索,以及更具创造性的 Top-K 采样、Top-P 采样和温度调节机制。
- 语言模型的评测:系统区分了内在评测指标(如困惑度)与外在评测指标(如 BLEU、ROUGE、BERTScore、G-EVAL),为量化模型性能提供了完整的评估框架。
大语言模型架构
在理论基础上,报告深入拆解了构建大语言模型的各种主流架构设计及其演进路径。
- 大数据 + 大模型 → 新智能:开宗明义,分析了模型规模与数据规模对模型涌现能力的协同影响,并引入了关键的缩放定律(Scaling Laws),如 Kaplan-McCandlish 定律和 Chinchilla 定律。
- 大语言模型架构概览:清晰对比了 Encoder-only、Encoder-Decoder、Decoder-only 三大主流架构在注意力机制上的核心差异,及其各自适配的自然语言处理任务。
- Encoder-only 架构:以 BERT 为代表,详解其双向编码结构、预训练任务(掩码语言建模MLM、下一句预测NSP),以及由此衍生的 RoBERTa、ALBERT、ELECTRA 等优化模型。
- Encoder-Decoder 架构:以 T5 和 BART 为例,展示了如何通过统一的文本到文本框架处理多样化任务,并分析了其丰富的预训练任务设计理念。
- Decoder-only 架构:重点梳理了 GPT 系列(从 GPT-1 到 GPT-4)与 LLaMA 系列(LLaMA1/2/3)的技术发展脉络,这是当前生成式人工智能的主流技术路线。
- 非Transformer架构:展望了后Transformer时代的架构可能性,介绍了状态空间模型(SSM)如 RWKV、Mamba,以及测试时训练(TTT)等新兴研究范式。
Prompt 工程
掌握模型架构后,如何高效引导模型生成预期输出成为关键。Prompt 工程正是优化人机交互的核心技术。
- Prompt 工程简介:明确定义了提示词(Prompt)与提示工程的概念,并解释了分词与向量化这一将自然语言转化为模型可处理输入的基础过程。
- 上下文学习(In-Context Learning, ICL):详细阐述了零样本、单样本、少样本学习的机制,并探讨了如何基于相似性或多样性原则选择示例,以最大化模型在特定任务上的表现。
- 思维链(Chain-of-Thought, CoT):作为提升模型复杂推理能力的关键技术,报告系统讲解了 CoT 的多种模式:从基础逐步推理(CoT、Zero-Shot CoT、Auto-CoT),到高级的思维树(ToT)、思维图(GoT),以及确保一致性的自洽性解码(Self-Consistency)。
- Prompt 技巧:总结了提升提示有效性的实用技巧,包括规范编写结构、合理分解问题、适时引入思维链,以及运用角色扮演与情景设定等策略引导模型输出。
- 相关应用:展示了提示工程在构建智能体(Agent)、合成训练数据、Text-to-SQL 转换以及创建定制化 GPTs 等领域的广泛应用场景。
参数高效微调
为降低大模型适配下游任务的计算成本,参数高效微调(PEFT)技术通过最小化参数更新来实现高效迁移学习。
- 参数高效微调简介:从上下文学习与指令微调两种下游任务适配方法切入,引出 PEFT 技术,并阐述了其在显著降低计算资源与存储开销方面的核心优势。
- 参数附加方法:详解通过在模型特定位置添加小型可训练模块实现微调的方法,包括作用于输入的 Prompt-tuning、作用于中间层的 Prefix-tuning 与 Adapter-tuning,以及作用于输出的 Proxy-tuning,并分析了各自的适用场景。
- 参数选择方法:介绍了选择性更新模型部分参数的思路,涵盖基于固定规则的 BitFit 和基于学习选择的 Child-tuning 等方法,通过减少更新参数数量来提升效率。
- 低秩适配方法:重点剖析了当前主流的 LoRA 及其变体(如 ReLoRA、AdaLoRA、DoRA)。其核心是利用低秩矩阵分解来近似全参数更新,在保持高性能的同时实现了极高的参数效率与任务泛化能力。
- 实践与应用:介绍了如何利用 Hugging Face PEFT 框架进行实操,并通过表格数据查询与分析的实际案例,验证了 PEFT 技术对提升大模型在垂直领域性能的有效性。
模型编辑
针对大模型训练后知识固化的问题,模型编辑技术旨在无需全量重训练的前提下,对模型的特定知识或行为进行精准、高效的局部修正。
- 模型编辑简介:阐述了模型编辑的核心目标与定义,强调了该技术在修正模型事实性错误、消除偏见与有害内容,以及实现知识即时更新方面的重要性。
- 模型编辑经典方法:将现有技术体系分为两大类:外部拓展法(如知识缓存、附加参数)与内部修改法(如基于元学习、定位编辑),并概述了各类的代表性工作与原理。
- 附加参数法:T-Patcher:以 T-Patcher 为例,详解如何通过为模型附加轻量级参数模块,实现对特定知识输出的快速、定点修正,适用于需要即时响应的编辑场景。
- 定位编辑法:ROME:以 ROME 方法为例,深入介绍了如何通过定位并直接修改模型内部关键层的特定神经元,实现对模型底层知识表征的深度编辑,适用于需要根本性调整的场景。
- 模型编辑应用:探讨了模型编辑在实现模型知识库的动态更新、保障用户数据“被遗忘权”、以及增强模型安全性与可控性等方面的实际应用潜力。
检索增强生成
为增强大模型的事实准确性与时效性,检索增强生成(RAG)技术通过引入外部知识源,构建了更可靠、可追溯的生成式应用框架。
- 检索增强生成简介:介绍了 RAG 技术为解决模型幻觉与知识滞后问题而诞生的背景,阐述了其由检索器与生成器构成的基本框架,以及如何通过外部知识增强生成内容的可信度。
- 检索增强生成架构:系统分类了 RAG 的架构,包括黑盒增强与白盒增强架构,对比分析了不同架构在灵活性、可控性与性能上的权衡,为方案选型提供依据。
- 知识检索:深入讲解了 RAG 系统的检索环节,涵盖知识库构建、查询改写与扩展、检索器选型与优化、以及通过重排序提升检索结果相关性的关键技术。
- 生成增强:重点探讨了生成器如何有效利用检索结果,包括增强的时机(检索前、中、后)、信息融合策略(单次或多次检索),以及在效果与推理成本之间的平衡艺术。
- 实践与应用:提供了从零搭建一个基础 RAG 系统的步骤指南,并展示了其在智能问答、专业内容创作等典型场景中的落地案例,具备直接的实操参考价值。
来源:互联网
免责声明
本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。