人工智能知识 - 简介
这一篇作为整套 AI 总纲的导论,先回答更根本的问题,不急于进入公式和具体模型细节:什么叫智能,人工智能究竟在试图做什么,机器为什么能从数据中学会某些能力,为什么这个方向在近十几年才真正爆发,以及机器学习、深度学习与大语言模型之间到底是什么关系。整套 quick reference 一共 8 篇:第 1 篇进入数学基础,第 2 篇进入机器学习与神经网络,第 3 篇按任务展开自然语言处理、计算机视觉、语音、搜索推荐与时序建模,第 4 篇进入 Transformer 与大模型,第 5 篇进入 RAG、上下文工程与 Agent 系统,第 6 篇进入 AI 训练与推理编程的工程栈总览,第 7 篇继续深入 PyTorch、Transformers、PEFT、OpenRLHF、verl、DeepSpeed、vLLM 与代码精读。
人工智能(Artificial Intelligence, AI)讨论的核心,是怎样让机器表现出某种智能行为。这里的智能行为,至少包括感知(Perception)、判断(Decision)、学习(Learning)、推理(Reasoning)与适应(Adaptation)。因此,AI 的目标不止是写一个会执行指令的程序,更是让系统能够在不完全由人工穷举规则的前提下,对复杂环境做出有效反应。
从工程角度看,AI 最常见的外显形式包括图像识别、语音识别、推荐系统、自动驾驶、机器翻译、问答系统、代码生成和多轮智能体。但这些表象背后要解决的是同一个更抽象的问题:如何把真实世界中的复杂输入映射为可执行的判断与行动。
许多“看起来自动”的系统,本质上仍然只是自动化。普通自动化系统更多依赖预先写好的流程和明确规则,例如“若温度超过阈值则启动风扇”“若用户点击按钮则调用接口”。这类系统的行为边界,主要由人类工程师提前定义好。它们可以非常有用,但并不同于具备真正的学习能力。
智能系统的关键差别在于:它不只会执行既定步骤,还能从经验中修正自己的内部表示与决策策略。它不仅回答“当前该做什么”,还会通过数据逐步形成“以后遇到类似情况时应该怎样判断”。这种能力一旦出现,系统行为就不再完全等价于人工编写的 if-else 规则树。
这几个概念在日常讨论里经常被混用,但它们处在不同层级。人工智能(AI)是最大的外层概念,讨论的是“让机器表现出智能行为”这一总目标。机器学习(Machine Learning, ML)是实现 AI 的一大类方法,它强调从数据中学习规律,而非完全依赖手工规则。深度学习(Deep Learning, DL)又是机器学习中的一个重要分支,核心是通过多层神经网络自动学习表示。大语言模型(LLM)和现代基础模型(Foundation Model)则建立在深度学习之上,是特定时代的代表性形态,而非与深度学习并列的全新学科。
| 概念 | 它回答的问题 | 与其他概念的关系 |
| 人工智能(AI) | 怎样让机器表现出感知、判断、学习、推理和行动能力 | 最大外层目标 |
| 机器学习(ML) | 怎样让机器从数据而非纯规则中学习映射关系 | AI 的主要实现路线之一 |
| 深度学习(DL) | 怎样用多层神经网络自动学习层级表示 | ML 的一个重要分支 |
| 大语言模型 / 基础模型 | 怎样通过大规模预训练得到通用生成与迁移能力 | 建立在深度学习之上的现代主线 |
因此,后续学习不应把这些词当成互相替代的流行口号,而应始终记住它们的层级关系:AI 是目标,ML 是方法族,DL 是方法族中的核心分支,LLM 是 DL 在特定时代和特定架构下的代表形态。一旦这个层级关系理顺,后面的许多概念就不会显得混乱。
除了按“方法”来区分 AI,还可以按“任务”来区分。这个视角同样重要,因为很多名词混乱,根源在于没有先看清它到底在解决哪一类问题。若从输入输出关系与系统职责出发,当代 AI 大致可以拆成五类核心任务:感知(Perception)、预测(Prediction)、生成(Generation)、决策(Decision)与交互(Interaction)。
| 任务类型 | 核心问题 | 典型输入 | 典型输出 | 典型应用 |
| 感知 | 输入里有什么 | 图像、语音、视频、传感器信号 | 类别、边界、标签、结构化属性 | 图像分类、目标检测、语音识别、人脸识别 |
| 预测 | 未来会怎样,或某个量是多少 | 历史序列、用户行为、结构化特征 | 概率、分数、回归值、风险估计 | 销量预测、点击率预估、风控评分、故障预警 |
| 生成 | 在约束下生成什么内容 | 提示词、上下文、条件信号 | 文本、图像、音频、视频、代码 | 写作、对话、文生图、代码生成、语音合成 |
| 决策 | 下一步该采取什么行动 | 状态、目标、环境反馈 | 动作、策略、控制信号 | 游戏智能体、机器人控制、自动驾驶决策、调度优化 |
| 交互 | 如何在多轮过程中持续理解与响应人或环境 | 对话历史、工具结果、用户状态 | 多轮回应、调用计划、任务执行过程 | 客服 Agent、Copilot、办公助手、研究 Agent |
这几类任务并非互相隔离的。一个自动驾驶系统就同时包含感知、预测与决策;一个大语言模型应用往往同时包含生成与交互;一个现代推荐系统既做预测,也可能接入生成式解释和对话式反馈。真正成熟的 AI 系统,通常核心是把这些能力按流水线或闭环方式组合起来。
这张分类表还有一个重要作用:它提醒我们不要把“会聊天”误认为 AI 的全部,也不要把“识别图片”当成唯一的智能入口。AI 的本质是对不同任务类型建立稳定的输入到输出映射,并在需要时把这些映射连接成连续工作系统。后续篇章也可以按这个视角来读:经典机器学习偏预测,深度学习强化了感知与表示,生成式 AI 把生成和交互推到中心,而 Agent 系统则进一步把生成、决策与工具调用连接起来。
若要给“智能”一个足够实用、又不过分空泛的定义,一个很好的工作表述是:智能 = 学习能力 + 迁移能力。学习能力指系统能够从有限经验中提取规律;迁移能力指系统学到规律之后,能够在未见过但结构相近的新情境中继续做出合理判断。
这个定义的重要性在于,它把“记住训练样本”与“真正学会规律”区分开了。一个系统若只是把所有见过的情况硬背下来,那么它最多拥有记忆,不一定拥有智能。智能的难点不在于把过去储存起来,而在于从过去抽取出可泛化的结构。
把智能理解成单一分数,会掩盖许多关键差异。真实系统中的智能通常至少包含几类不同能力:感知(能否从复杂输入中抽取有用信息)、表征(能否形成稳定内部概念)、记忆(能否保留历史经验)、推理(能否在已知条件上做组合与演绎)、规划(能否为目标拆解步骤)、行动(能否把判断落成可执行决策),以及沟通(能否把内部状态转换成外部可用表达)。
一个系统可能在其中某些方面很强,在另一些方面很弱。例如大型分类模型在感知和表征上可能很强,但不一定擅长长期规划;语言模型在表达和知识调用上很强,但若缺少外部工具和环境反馈,就未必具备可靠行动能力。因此,讨论智能不能只问“它聪不聪明”,还要问“它在哪些维度上具备能力、在哪些维度上仍有缺口”。
人类识别“苹果”这类概念时,通常是通过大量经验,在脑中逐步形成一个模糊但稳定的概念边界,而非先掌握一组严密定义再去匹配世界。这个边界也核心是一种能够支持识别和迁移的内部表征。
这件事对 AI 尤其重要。它说明很多关键知识并不天然适合写成规则,而更适合通过样本驱动的表示学习形成。机器学习和深度学习之所以有效,正是因为它们允许系统用大量样本不断调整内部参数,最后形成“什么样的输入更像某个概念”的高维表示。
泛化(Generalization)是机器学习和人工智能中的中心概念。设训练数据来自分布 \(\mathcal{D}_{\text{train}}\),模型在训练集上的经验风险(Empirical Risk)为
\[\hat R(f)=\frac{1}{n}\sum_{i=1}^{n}\ell(f(x_i),y_i)\]真正重要的是模型在未来未见样本上的期望风险(Expected Risk),而不只是 \(\hat R(f)\) 本身:
\[R(f)=\mathbb{E}_{(x,y)\sim \mathcal{D}}\big[\ell(f(x),y)\big]\]所谓泛化能力,本质上就是:训练中学到的规律,能否从有限样本扩展到更广泛但相关的真实世界分布。一个模型若只能在训练数据上表现良好,而离开训练分布就失效,它就更像记忆系统而非智能系统。
因此,AI 讨论中总会反复出现过拟合(Overfitting)、分布偏移(Distribution Shift)、鲁棒性(Robustness)和迁移学习(Transfer Learning)这些概念。它们关心的都是同一件事:模型学到的东西,究竟是在逼近世界规律,还是只是在背训练题答案。
按照任务适用范围,可以把 AI 粗略分成专用人工智能(Narrow AI)与通用人工智能(Artificial General Intelligence, AGI)。专用人工智能通常在某个任务上表现极强,例如围棋、图像分类、语音识别、广告排序或蛋白质结构预测;但它的能力边界高度依赖训练目标与任务环境,换一个问题往往就需要重新建模、重新训练甚至重写系统。
AGI 则要求系统具备更广泛的理解、推理、学习与迁移能力,能够跨任务、跨场景、跨知识域持续适应。这一目标远比单任务最优困难,因为它要求模型不仅对单个问题拟合得好,还对世界结构形成更一般的内部表示。
因此,AlphaGo 可以击败顶级围棋选手,但这并不自动意味着它具备通用智能。它展现的是在一个定义良好、奖励明确、规则固定的任务中实现超人性能;这当然非常重要,但离“在不同领域都能自主迁移和解决问题”的 AGI 仍有明显距离。
人工智能早期最自然的思路是符号主义(Symbolicism):既然人类能用语言、逻辑、规则和概念来描述世界,那么是否可以直接把这些规则写给机器,让机器照此推理。专家系统(Expert System)就是这种路线的代表。工程师通过知识库(Knowledge Base)、规则库(Rule Base)和推理机(Inference Engine),把领域专家的经验编码成显式规则,让机器在给定条件下自动给出结论。
这种方法在规则边界相对稳定、领域知识比较明确的任务上可以取得不错效果。例如早期的诊断辅助系统、规则客服、配置推荐系统,都曾从专家系统中受益。它的优势是可解释性强、行为边界清晰、局部领域内可控性高。
符号主义的根本局限,不在于规则无用,而在于现实世界太复杂。若想靠人工穷举规则来覆盖所有场景,很快会遇到三类问题。第一,规则组合爆炸:例外情况会越来越多,规则之间开始相互冲突。第二,感知输入难以被精确定义:光照变化、遮挡、噪声、语义歧义和上下文依赖,都会让“明确规则”变得脆弱。第三,规则迁移差:一个任务里定义好的知识,很难自然扩展到另一个任务。
更关键的是,世界中许多重要模式本来就并非人类能够轻易写成规则的。例如“什么样的像素组合像苹果”“什么样的句法和语义结构代表讽刺”“什么样的驾驶情境意味着危险”。人类能识别这些现象,并不意味着人类能把识别依据完整显式表达出来。
因此,若目标是让机器获得更强的适应性和泛化能力,系统必须学会从数据中提取模式,减少对人工枚举知识的依赖。这就引出了机器学习路线。
机器学习路线展开之后,AI 逐渐形成三种互补视角:
- 符号主义(Symbolicism)强调显式知识、逻辑规则和可解释推理。代表形态包括专家系统、知识库、规则引擎、逻辑规划和符号推理。它留下的核心资产是知识表示、约束表达、可解释决策和工具调用思想。
- 统计学习(Statistical Learning)强调从样本分布中估计规律,用概率、损失函数、泛化误差和正则化描述学习问题。代表方法包括朴素贝叶斯、逻辑回归、SVM、核方法、集成学习、隐马尔可夫模型、条件随机场和贝叶斯方法。它留下的核心资产是经验风险最小化、概率建模、评估协议和泛化分析。
- 连接主义(Connectionism)强调用大量简单计算单元和可训练连接权重学习复杂表示。代表方法包括感知机、多层神经网络、CNN、RNN、Transformer 和现代基础模型。它留下的核心资产是表示学习、端到端训练、可微优化和大规模预训练。
现代 AI 的形成过程更接近三层视角的逐步叠加。今天真正有效的系统,往往同时吸收这三条传统中的不同优点:用神经网络学习表示,用统计学习定义目标和评估,用符号系统承载约束、工具、知识结构和可解释接口。
连接主义(Connectionism)的核心主张是:智能可以由大量简单计算单元的连接权重共同产生。神经网络(Neural Network)是这一路线最重要的工程形态。它把识别、预测、控制和生成任务表示为一个可训练的参数化函数,再通过数据和优化算法调整内部权重。
神经网络的历史呈现出多次起落。它多次被寄予厚望,也多次被统计学习、符号系统或手工特征工程压到边缘。每次起落都和同一组条件有关:模型表达能力是否足够,训练算法是否稳定,数据规模是否支撑泛化,计算硬件是否跑得动,任务本身是否适合由连续表示来建模。
| 阶段 | 代表进展 | 主要限制 | 留下的影响 |
| 感知机与早期模式识别 | 感知机把分类问题写成线性加权和加阈值的学习问题,证明机器可以从样本中学习决策边界。 | 单层模型只能表达线性可分关系,无法处理 XOR 这类简单非线性结构。 | 确立了“从数据中学习权重”的基本范式,也暴露了浅层表达能力的天花板。 |
| 反向传播与多层网络复兴 | 反向传播(Backpropagation)让多层网络可以通过链式法则高效训练,CNN、RNN 等结构开始用于图像、语音和序列任务。 | 数据集偏小、算力不足、激活函数容易造成梯度衰减,训练深层网络既慢又不稳定。 | 多层表示学习的可行性被确认,但工程效果长期受限。 |
| 统计学习与特征工程主导期 | SVM、Boosting、HMM、CRF、GMM-HMM、矩阵分解和梯度提升树等方法在分类、语音、NLP、推荐和广告预估中表现稳定。 | 特征工程依赖人工经验,跨任务迁移能力有限,复杂感知任务中的表示瓶颈逐渐显现。 | 现代 AI 继承了统计学习对泛化、正则化、评估协议和优化目标的重视。 |
| 深度学习复兴 | GPU、大规模标注数据、ReLU、Dropout、归一化、残差连接和自动求导框架共同成熟,深层网络先在视觉和语音任务中形成优势。 | 训练成本和数据需求显著升高,模型可解释性与部署成本成为新的工程约束。 | 神经网络从“可用模型之一”变成视觉、语音、推荐、多模态和语言任务中的主干技术。 |
| 基础模型时代 (Foundation Model) |
Transformer、预训练和规模效应把神经网络推向通用表征与生成模型,语言模型率先展示跨任务能力,并继续影响视觉、语音、机器人和检索系统。 | 能力边界、数据治理、对齐、安全、推理成本和可靠性成为核心问题。 | AI 系统从单任务模型转向可复用能力底座,训练与部署工程的重要性进一步上升。 |
这条历史线说明,神经网络的起落并非由某个单独公式决定。相同思想在不同年代会得到不同结果,是因为它面对的任务、数据、硬件和优化工具不同。早期感知机在小数据和弱算力下很快碰到表达能力限制;多层网络在反向传播出现后重新获得理论和工程空间;深度学习真正爆发,则发生在数据、算力、算法和软件工具同时成熟之后。
这也解释了本套 quick reference 的分工:ref-2 讨论神经网络、优化、损失函数和模型结构,ref-3 按视觉、语音、NLP、推荐和时序任务展开应用领域,ref-4 讨论 Transformer、预训练和微调,ref-6 与 ref-7 进入训练框架、推理部署和代码工程。导论中的这段历史只负责建立全局脉络,具体机制放到后续章节展开。
语言任务覆盖了早期 AI 路线更替中的典型矛盾。机器翻译、语音识别、信息抽取和语言理解都经历过规则系统、统计模型和神经网络模型的多轮交替。这个案例把前面几节连在一起:AI 技术路线的成败,取决于任务结构、数据规模、评估方式和工程条件是否匹配。
自然语言处理(Natural Language Processing, NLP)早期受到符号主义影响很深。20 世纪 50 年代的 Georgetown-IBM 机器翻译演示曾让许多人相信,只要把词典、语法和转换规则写得足够完整,机器很快就能理解语言。后来的事实更复杂:有限领域内的演示可以很惊艳,一旦离开预设语料、固定词表和窄语境,规则系统就会暴露出歧义、常识、上下文和世界知识的缺口。
SHRDLU 这样的受限世界系统进一步说明了这个问题。它能在“积木世界”里理解相当复杂的英语命令,是因为世界被限定成少量物体、少量动作和清晰规则。离开这张桌子,语言就不再只是语法分析,还牵连词义、指代、语境、常识、任务目标和真实世界状态。同一句话在不同场景下可能有不同含义;同一个词在不同上下文中可能指向不同概念;一个代词可能依赖前文数句才能解析。纯规则系统可以处理局部结构,却很难覆盖开放世界里的长尾表达。
统计学习后来重新推动 NLP,关键在于把问题从“人工写完全部语言规则”转成“从大量语料中估计语言分布”。n 元语言模型、隐马尔可夫模型、最大熵模型、条件随机场、统计机器翻译和后来的神经网络语言模型,都延续了这条路线。这里还有一个重要观念变化:NLP 系统必须能被量化评估。规则写得再漂亮,如果翻译质量、语音识别错误率、检索准确率或下游任务指标没有提升,系统就没有真正进步。
| 阶段 | 代表思路 | 留下的教训 |
| 早期机器翻译 | 词典、语法规则、人工转换模板 | 窄领域演示不能代表开放语言理解;词和规则不足以覆盖语境与常识 |
| 受限世界理解 | 把语言连接到小型可操作环境,例如积木世界 | 理解依赖世界模型;世界被严格限制时,语言任务会显著变简单 |
| 统计语言处理 | 从语料中估计概率分布,并用量化指标比较系统 | 语言智能需要数据、概率模型和评估协议共同支撑 |
| 神经语言模型 | 用分布式表示和大规模预训练学习上下文关系 | Transformer 并非凭空出现的,它接续了几十年从规则到统计再到表示学习的路线 |
这段历史也为后面的“为什么语言模型率先突破”埋下伏笔。语言任务长期困难,并不意味着语言路线一直无效;它积累了完整的语料、评估协议、预训练目标和任务生态。当 Transformer 与大规模预训练成熟后,语言模型才有条件从单一 NLP 工具扩展为通用能力底座。后续 ref-3 会按任务展开 NLP,ref-4 会解释语言模型为什么能在统一训练目标下吸收大量语言与知识结构。
机器视觉任务同样浓缩了早期 AI 路线的更替。最直观的问题可以从“如何让机器识别一只猫”开始。对人类来说,猫有耳朵、眼睛、胡须、毛发和身体轮廓;对计算机来说,输入图像只是一个像素矩阵。若图像大小为 \(H \times W\),RGB 图像就是一个 \(H \times W \times 3\) 的数值张量。视觉智能的核心难点,是从这些低层像素中形成稳定的物体概念。
早期最自然的做法是规则和模板。工程师可以尝试写规则:检测两个尖耳朵、两个眼睛、椭圆形脸部和胡须线条;或者保存若干猫脸模板,将新图像与模板逐像素比较。这条路线在受控场景中可以工作,例如固定背景、固定角度、固定光照下的工业检测。但真实猫图像会出现姿态变化、尺度变化、遮挡、毛色差异、背景干扰和光照变化。猫可以正脸、侧脸、蜷缩、奔跑、躲在沙发后面,也可以只露出半张脸。人工规则很快会变成一组不断打补丁的例外清单。
这正对应了纯规则路线的局限:人类能识别猫,并不意味着人类能把“猫”的所有视觉条件完整写成规则。机器视觉比许多结构化任务更早暴露出感知问题的复杂性,因为像素层的扰动非常大,而语义层的概念却要求稳定。一个物体的身份不应因为平移几个像素、亮度变化、背景替换或轻微旋转就改变;但在原始像素空间里,这些变化都会造成数值差异。
统计学习阶段把问题改写成“先抽特征,再训练分类器”。工程师开始把重点放在更稳健的视觉特征上,例如边缘、角点、纹理、颜色直方图、局部梯度和形状描述子,再把这些特征交给 SVM、Boosting、随机森林或浅层神经网络分类。典型思路是:先把像素变成相对稳定的特征向量 \(\phi(x)\),再学习分类函数 \(f(\phi(x))\)。这个阶段的核心进步在于承认视觉判断需要数据驱动,同时仍然高度依赖人工特征工程。
手工特征工程的代表包括 SIFT、HOG、Haar-like features、LBP 和 Bag-of-Visual-Words 等。它们分别从局部关键点、梯度方向、明暗矩形差分、局部纹理模式和视觉词袋等角度,把图像转成更适合机器学习的表示。人脸检测、行人检测、图像检索和早期目标识别系统,都曾大量依赖这些特征。它们比纯规则强得多,但仍然需要人为决定“哪些低层视觉结构值得提取”。任务变化后,特征设计往往也要重做。
深度学习改变了这条链路。卷积神经网络(Convolutional Neural Network, CNN)把特征提取和分类器训练合在同一个可优化模型里。低层卷积核学习边缘和纹理,中间层学习局部部件,高层学习物体级语义。猫识别从手写“耳朵规则”或“胡须规则”,转向通过大量标注图像学习稳定相关的局部模式。这里的关键变化是:视觉表示从人工设计转向端到端学习。
| 阶段 | 识别猫时的典型做法 | 主要限制 | 留下的经验 |
| 规则与模板 | 手写耳朵、眼睛、胡须、轮廓等规则,或用固定模板做匹配。 | 对光照、角度、尺度、遮挡和背景变化极其敏感。 | 视觉概念很难被穷举成显式规则。 |
| 手工特征 + 统计分类器 | 提取边缘、角点、纹理、梯度方向和局部描述子,再用 SVM、Boosting 等模型分类。 | 特征设计依赖人工经验,跨任务迁移成本高。 | 从像素到语义需要中间表示;数据驱动比纯规则更稳健。 |
| 卷积神经网络 | 用 CNN 从图像中自动学习层级特征,并端到端优化分类目标。 | 需要大规模数据、算力和稳定训练技巧。 | 表示学习成为视觉任务的主线,特征工程逐步内化到模型参数中。 |
| 现代视觉基础模型 | 通过大规模预训练学习通用视觉表示,再迁移到分类、检测、分割、检索和多模态理解任务。 | 训练成本、数据版权、鲁棒性、开放集识别和部署成本成为主要约束。 | 视觉模型从单任务分类器转向可复用感知底座。 |
机器视觉的发展也解释了“感知”和“理解”的区别。早期系统也能检测边缘、角点和区域,但这不等于理解图像内容。真正有用的视觉系统需要把局部像素组织成物体、场景和关系:这是一只猫,它趴在沙发上,旁边有一个人,猫的一部分被遮挡,但主体仍然可识别。这个层级化过程,正是神经网络和深度表示学习擅长的方向。
因此,视觉路线和语言路线属于同一条 AI 方法演进史。二者都经历了从规则到统计、再到神经表示学习的转变。差异在于,视觉更早把“感知输入难以规则化”这个问题推到前台;语言模型后来借助更易收集的文本数据、更统一的预训练目标和 Transformer 架构,率先形成基础模型级别的通用能力。后续 ref-3 会按任务展开计算机视觉,ref-2 会解释 CNN、池化、卷积和表示学习的技术细节。
Arthur Samuel 在 1959 年对机器学习(Machine Learning)的经典定义,核心就在于一句话:让计算机在不被显式编程的情况下获得学习能力。这里“不被显式编程”的含义是:任务规则从逐条写死转向给定数据、目标和优化机制,让系统自己去调整内部参数。
因此,机器学习与传统编程的分工发生了变化。传统编程更像
\[\text{Rules} + \text{Data} \rightarrow \text{Output}\]而机器学习更像
\[\text{Data} + \text{Targets} + \text{Optimization} \rightarrow \text{Model}\]人类仍然负责编写训练流程、定义损失函数、设计模型结构和评价指标,但不再手写所有领域规则;真正的映射关系由模型在数据中自动学得。
在最抽象的数学意义上,模型(Model)就是一个参数化函数(Parameterized Function)。给定输入 \(x\),模型输出预测 \(\hat y=f_\theta(x)\),其中 \(\theta\) 表示模型参数。机器学习训练的目标,就是在庞大的参数空间里找到一组参数,使这个函数尽可能解释数据中的规律。
因此,“训练模型”本质上是在参数空间里搜索一个更好的函数,而非把知识一条条写进程序。这个函数可以很简单,例如线性回归中的 \(f_\theta(x)=w^\top x+b\);也可以极其复杂,例如拥有数十亿参数的大语言模型。复杂度不同,但本质没有变:它们都在试图逼近某个把输入映射到输出的规律。
因此,机器学习常被表述为函数拟合(Function Approximation)。区别只在于,AI 面对的函数远比中学里的 \(y=f(x)\) 更复杂:输入可能是图片、文本、语音、视频、图结构或交互历史,输出可能是类别、数值、动作、文本序列甚至多步决策。
训练(Training)就是在反复试错中更新参数。设损失函数(Loss Function)为 \(\ell(f_\theta(x),y)\),训练集上的目标函数通常写成
\[J(\theta)=\frac{1}{n}\sum_{i=1}^{n}\ell(f_\theta(x_i),y_i)\]优化算法会根据 \(\nabla_\theta J(\theta)\) 的方向逐步更新参数,使损失下降。对小模型而言,这表现为“不断试着把函数曲线调到更贴近数据”;对大模型而言,它仍然是同一件事,只是参数数量、数据规模和优化难度都被放大到了前所未有的量级。
因此,训练是一套规模化、可重复、可优化的搜索过程,而非神秘的“让机器突然开窍”。机器学习的历史突破,很大程度上就是让这套搜索过程在更大数据、更复杂模型和更强硬件上变得可行。
一个完整的学习问题,通常至少包含六个要素:输入表示 \(x\)、目标或反馈 \(y\)、模型 \(f_\theta\)、损失函数 \(\ell\)、优化算法,以及评估标准。只有把这几件事同时说清楚,问题才真正被定义完成。否则“做一个 AI 模型”这句话本身几乎没有技术含量。
| 组成部分 | 它决定什么 | 典型问题 |
| 输入表示 | 模型实际看见什么 | 文本是分词后 token、图像是像素还是 patch、表格特征是否标准化 |
| 目标 / 反馈 | 模型被鼓励学会什么 | 分类标签、回归值、奖励信号、对比学习正负样本 |
| 模型结构 | 函数族的表达能力与归纳偏置 | 线性模型、树模型、CNN、Transformer、MoE |
| 损失函数 | 什么叫“预测得不好” | 交叉熵、均方误差、对比损失、强化学习目标 |
| 优化算法 | 参数怎样被更新 | SGD、AdamW、学习率调度、梯度裁剪 |
| 评估标准 | 模型是否真的有用 | Accuracy、F1、AUC、BLEU、ROUGE、胜率、人工偏好 |
这张表的意义在于:AI 的成败几乎从来不只由“模型结构”单独决定。很多看似是模型问题的失败,实际来自目标函数错位、输入表示粗糙、数据质量差或评估指标不对。理解这一点,后续学习才不会把注意力全部误投到“模型名字”本身。
训练(Training)和推理(Inference)是两个阶段。训练阶段的任务是用大量样本更新参数,让模型学到函数 \(f_\theta\);推理阶段的任务则是在参数已经固定后,用这个函数处理新的输入。很多初学者会把“模型生成答案”与“模型学会能力”混成一件事,但这两个阶段的资源需求、系统结构和优化目标都不同。
训练更关注数据规模、梯度计算、参数更新和收敛稳定性;推理更关注延迟、吞吐、显存占用、服务成本与输出质量。例如一个模型可能训练非常昂贵,但推理相对便宜;也可能训练已完成,但由于上下文窗口、解码策略和缓存机制设计不佳,推理时依然很难落地。后续第 4 篇和第 5 篇会反复遇到这个区分。
机器学习的基本入口,是用样本驱动参数更新,让模型从数据分布中形成可泛化的映射。但现代 AI 的反馈来源不止人工标注标签。至少有三类主要反馈机制。第一类是监督学习(Supervised Learning),即直接给出正确答案或目标标签。第二类是自监督学习(Self-Supervised Learning),即从数据自身构造预测任务,例如掩码语言建模或下一个 token 预测。第三类是强化学习(Reinforcement Learning),即系统通过与环境交互,根据奖励信号优化长期行为。
这三类反馈机制并非互斥关系。很多现代系统会把它们组合起来:先用自监督预训练打好通用表示,再用监督微调适配具体任务,最后再用强化学习或偏好优化调整行为。这种多阶段训练配方,正是现代大模型系统的常见做法。
导论里很容易把“AI”误听成某个神奇单体,好像只要有一个模型名字,一切就自动发生了。真实系统远并非这样。一个可工作的 AI 系统,至少要把数据、模型、目标、反馈、训练、评估和部署串成一条闭环。模型当然是中心,但它只是闭环中的一个部件,而非全部。
| 部件 | 作用 | 若出问题会怎样 |
| 数据 | 提供经验样本与任务边界 | 模型学不到规律,或学到偏差和噪声 |
| 模型 | 提供可学习的函数族与归纳偏置 | 表达能力不足,或虽强但很难训练与泛化 |
| 目标函数 | 定义什么叫“做得好” | 模型可能学会与真实需求错位的行为 |
| 反馈机制 | 告诉系统怎样修正参数或策略 | 训练方向错误,优化不稳定 |
| 评估体系 | 判断模型是否真的有用 | 训练指标很好,但上线表现很差 |
| 部署系统 | 决定模型在真实环境里的延迟、成本、可靠性与安全性 | 即使模型本身很强,也无法稳定落地 |
从这个角度看,AI 更像一条生产线,而非一个神秘黑盒。后续 1 到 4 篇其实就是沿这条生产线逐步展开:先理解数学语言,再理解模型与训练,再理解基础模型,再理解系统层落地。
“海量数据”当然重要,但导论里还必须补一句更现实的话:高质量数据比单纯更多数据更重要。越接近任务结构、越干净、越有覆盖、越能提供有效反馈的数据,价值越高。大量重复、偏差严重、标注粗糙或分布失真的数据,完全可能把模型推向错误方向。现代 AI 的许多难题,其实不在模型结构本身,而在数据分布和目标构造不匹配。
因此,AI 工程里常常真正稀缺的核心是高质量、覆盖关键边界条件、与评估目标一致的数据。这个判断对后续所有篇章都成立,无论是在经典机器学习、深度学习还是大模型系统里。
另一个常见误区,是把评估(Evaluation)理解成模型训完之后再顺手看一眼分数。更准确的看法应该是:评估标准在问题定义阶段就已经介入了,因为它决定我们到底在优化什么。若任务真正关心的是风险控制,单纯追求 Accuracy 可能毫无意义;若任务关心排序质量,分类正确率就并非核心;若任务面向真实用户,延迟、稳定性和校准能力也会与“准确率”同等重要。
所以一个成熟 AI 系统的闭环顺序应当是“先定义任务与评估,再决定模型和训练”。很多失败项目的问题,核心是一开始就没有把问题定义清楚。
AI 讨论里最容易形成的错觉,是把系统成败归结为“模型选得对不对”。真实情况通常更复杂。一个系统即使使用了当前最强的模型,只要数据分布有偏、目标函数错位、验证集设计失真、上线环境变化、工具链不稳定或输出缺乏校验,最终都可能失败。AI 的失效往往核心是整条链路中多个局部误差叠加后的结果。
因此,成熟团队不会只问“模型用了什么”,而会同时追问:数据从哪来、标签怎么定义、评估覆盖了哪些边界、上线后的输入是否和训练时一样、系统如何做回滚、输出是否有验证闭环。模型只是核心部件,但并非唯一决定因素。
模型学到的东西高度依赖数据,因此数据偏差(Data Bias)通常是第一类失效来源。若训练数据只覆盖了局部场景,模型就会把局部规律误当成普遍规律;若数据本身带有历史偏见,模型也可能把这些偏见一并放大。标签噪声(Label Noise)则会进一步扭曲学习目标,使模型在训练中收到错误反馈。
常见的数据问题包括:采样不均衡、少数群体样本不足、历史行为中本来就包含制度性偏差、弱标注体系过粗、训练集与真实线上流量不一致。很多时候,模型只是忠实地学习了有问题的数据分布。因此,数据治理在 AI 系统里本身就是能力上限的一部分。
即使数据没有明显问题,系统仍可能因为目标错位(Objective Misalignment)而失败。目标错位指的是:训练中被优化的指标,并不真正等于业务或现实中想要的结果。例如一个推荐系统若只优化点击率,可能学会推送极端标题;一个客服模型若只优化“尽快结束对话”,可能学会敷衍用户;一个生成模型若只追求表面流畅,可能牺牲事实一致性。
在强化学习或任何带反馈优化的系统中,这种现象常被称为奖励黑客(Reward Hacking):系统会寻找最容易提高表面指标的路径,而不一定遵守人类真正想要的行为意图。它提醒我们,定义目标函数是系统设计中最敏感的一步。优化器不会理解你的“真实意图”,它只会忠实优化你写进目标里的那个量。
一个模型在离线验证中表现优秀,并不保证上线后仍然有效,因为真实世界的输入分布会变化。这类现象通常称为分布漂移(Distribution Shift)或数据漂移(Data Drift)。若新输入显著偏离训练分布,模型就进入了 OOD(Out-of-Distribution,分布外)区域,此时它的输出往往会变得不稳定。
分布漂移可能来自季节变化、用户行为变化、设备升级、采集链路变化、业务规则调整,甚至是模型上线本身对用户行为产生的反作用。AI 系统因此不能被当作“一次训练,永久有效”的静态制品,而更像需要持续监控和更新的动态系统。后续篇章中的校准、鲁棒性、RAG、Agent 验证,本质上都和这个问题有关。
生成式模型最典型的失效形式之一,是幻觉(Hallucination):输出看起来流畅、结构完整,甚至语气非常自信,但事实并不成立。分类模型也有对应问题,即过度自信(Overconfidence):明明预测错了,却给出很高置信度。这说明模型输出的“分数”或“概率”不一定能直接代表真实可信度。
这就引出了校准(Calibration)问题。一个校准良好的系统,输出 0.8 概率时,应当大致意味着它在长期统计上约有 80% 的正确率。若模型严重失校,就会在高风险场景里造成很大问题,因为用户和上层系统会把高置信度误解为高可靠性。因此,现代 AI 不能只关注“答得像不像”,还要关注“它对自己错误的认识是否准确”。
AI 在单步任务上可能表现很好,但一旦任务变成长链流程,误差就会层层累积。第一步提取错一点,第二步就在错误前提上继续推理,第三步再去调用工具,最后整个系统可能看起来流程完整,却建立在一开始的小偏差之上。Agent、多步规划、复杂检索问答和自动化工作流,都会遇到这种问题。
因此,长链任务真正困难的地方,不仅“每一步都尽量强”,还系统是否具备中途检查、状态校正、证据回填和回滚重试能力。后续第 5 篇会进一步展开这一点:很多 Agent 的核心价值,不在于某一步更聪明,而在于它能否在多步执行中持续发现并修正自己的偏差。
很多 AI 项目在实验室里看起来已经成功,真正上线后却表现平平,原因在于离线评估和真实环境之间往往存在巨大的制度差。离线数据集可能过于干净,标签定义可能与真实用户目标不一致,评测样本可能无法覆盖边界情形,而上线环境里却要面对噪声输入、恶意输入、冷启动用户、长尾场景和系统延迟约束。
因此,“离线 benchmark 做到多少分”只能说明模型在那个评测协议下有多强,不能自动推出它在生产环境里同样可靠。成熟系统通常需要同时做离线评估、在线 A/B 测试、回归测试、压力测试和安全测试。AI 的真正难点,往往就在从离线成绩跨到在线稳定性这一跳。
这些失效模式之所以应该放在导论里,而非留到很后面再讲,是因为它们决定了后续所有知识的阅读方式。若没有风险意识,后面的数学、模型、训练技巧和推理优化很容易被误解成“只要把分数卷高,系统自然会成功”。真实情况并非这样。AI 学习从第一天开始,就应该把能力与边界同时纳入视野。
因此,导论篇不仅要回答“AI 为什么能成功”,也必须同时回答“AI 为什么会失败”。只有这两条线一起建立起来,后续对机器学习、深度学习、大模型和 Agent 的理解才不会失真。
机器若要从经验中学习,首先必须“见得足够多”。互联网和数字化社会提供了前所未有的数据规模:网页文本、百科知识、社交媒体、搜索日志、点击记录、语音、图片、视频、传感器数据,几乎把大量人类行为与知识活动都转写成了可计算的数字语料。没有这些数据,模型就像只见过极少样本的人,难以形成稳定概念。
数据的重要性不只在量,还在覆盖范围。若训练数据太少,模型学不到稳健规律;若数据分布太窄,模型就很难泛化到复杂世界。现代 AI 的许多能力之所以能够出现,前提正是训练集规模和多样性的剧烈提升。
深度学习和大模型训练,本质上依赖海量矩阵乘法、卷积、注意力和梯度计算。若没有足够强的硬件,这些优化过程在工程上根本跑不动。GPU、TPU 以及后续更专业的 AI 加速器,把高度并行的张量计算变成了现实,也让“数十亿参数、数万亿 token”这类训练规模进入可操作区间。
因此,AI 是一个核心思想提出很早、但工程落地条件直到近十几年才真正成熟的领域。只有当数据、算力、算法和软件基础设施同时成熟,这些思想才能真正落地成具有产业影响力的系统。
即使有数据和硬件,若缺少有效算法,训练仍然可能失败。现代 AI 的成功同样依赖优化方法、初始化、正则化、残差连接、归一化、分布式训练、自动求导框架和部署工具链的共同成熟。真正让人工智能爆发的,核心是整套技术生态形成了闭环。
AI 的发展核心是多条技术线在同一时期交汇:数据解决“学什么”,算力解决“算得动吗”,算法解决“学得稳吗”,工程系统解决“能不能规模化复现与部署”。
深度学习的爆发并非只靠“把网络堆深”。AlexNet 之后,VGG、GoogLeNet 等结构说明更深网络可以带来更强表示能力,但深度本身也会制造优化问题。早期使用 Sigmoid 激活函数时,深层网络容易出现梯度衰减:误差信号一层层反传时不断变小,底层参数很难得到有效更新。ReLU、归一化、更好的初始化和 Dropout 分别缓解了梯度传播、训练稳定性和过拟合问题。
ResNet 关注的是另一个问题:退化问题(Degradation Problem)。层数增加后,训练集表现也变差。这和普通过拟合不同;过拟合通常表现为训练集好、测试集差,而退化问题是在训练集上就已经学不好。它也不能简单归结为梯度消失,因为研究者已经使用了更适合深层网络的激活函数、初始化和归一化手段。问题更接近“优化器很难让新增层学成不破坏原有能力的恒等映射”。
残差连接(Residual Connection)的核心直觉,是让一组新层先学习“应该改多少”,减少从零学习完整映射的压力。普通层直接学习目标映射 \(H(x)\);残差块把输出写成
\[y = F(x) + x\]其中 \(x\) 是输入, \(F(x)\) 是新增层学习到的残差。若新增层暂时没有学到有用变化,令 \(F(x)\approx 0\) 就能近似保留原输入。这样,网络不必艰难地从随机权重中凑出完整恒等映射,只需要把残差压小即可。
这个小结构后来成为 ResNet、Transformer 和许多现代架构的基础部件。它说明算法创新常常来自对优化路径的改造:结构本身让训练过程更容易找到可用解。这个例子也解释了为什么 ref-2 要单独讲神经网络训练技巧。模型深、参数多、数据大只是条件;真正能训练起来,还需要残差、归一化、初始化、优化器、学习率调度、正则化和工程框架共同配合。
近十几年 AI 爆发还有一个极其关键的因素:规模效应(Scaling Effect)。当模型参数、训练数据和计算预算在一定范围内同步扩大时,模型性能往往会呈现相对平滑、可预测的提升趋势。很多能力核心是在足够大的训练规模下逐步显现出来。
预训练(Pretraining)因此成为现代 AI 的核心范式。其基本逻辑是:先在大规模通用数据上学习通用表示或通用预测能力,再通过微调(Finetuning)、指令对齐(Instruction Tuning)或其他后训练方式适配具体任务。这个范式改变了整个行业的工作方式,因为模型不再是“每个任务单独训练一个小系统”,而更像一个可复用的能力底座。
机器学习是现代 AI 的第一条主线。它的关键突破在于:从完全依赖手工规则转向让系统从数据中学习统计规律。在线性模型、树模型、支持向量机、聚类、概率模型和集成学习这些方法中,模型容量通常相对可控,特征工程的地位仍然很高,人类需要较多参与“该喂什么特征”。
这一阶段的 AI 已经能在很多任务上显著优于纯规则系统,例如垃圾邮件识别、信用风险评估、推荐排序和基本文本分类。但它的边界也很清楚:模型更多是在人工定义好的特征空间里工作,而非从原始高维感知数据中自主学习层级表示。
深度学习(Deep Learning)把机器学习进一步推进为表示学习(Representation Learning)。系统从严重依赖人工手工提特征转向使用多层神经网络从原始输入中逐层学习更抽象的表示。图像中的边缘、纹理、部件与对象,语音中的音素与韵律,文本中的词义、语法和上下文关系,开始由模型内部自动形成。
这条主线带来了感知智能的大规模突破。图像识别、目标检测、语音识别、人脸识别、机器翻译、自动驾驶感知与 AlphaGo 这样的系统,都建立在深度学习及其扩展方法之上。它们展现了极强的专用智能,但在广泛迁移和跨任务统一上仍存在明显限制。
强化学习(Reinforcement Learning, RL)讨论的是另一类问题:当系统核心是要在环境中连续行动、不断接收反馈并优化长期收益时,该怎样学习策略(Policy)。它和监督学习最大的不同,是反馈不一定立即出现,也不一定告诉模型“正确答案是什么”;系统往往只能看到某种奖励(Reward)或惩罚,再自己推断哪些行为序列更优。
强化学习之所以在 AI 总纲里重要,不只是因为 AlphaGo。它代表了从“识别与预测”走向“决策与行动”的关键跨越。后来的 RLHF、RLAIF、Agent 规划、自动控制和机器人学习,都延续了这条主线。即使很多大模型系统的主体并非用 RL 从零训练出来,强化学习仍然是现代 AI 中不可绕开的基本思想之一。
大语言模型(Large Language Model, LLM)把 AI 推到了第三条主线:生成式 AI(Generative AI)。与很多传统系统主要做“判断题”不同,语言模型的训练目标是不断预测下一个 token。这一目标看似简单,却迫使模型在大规模文本中学习词法、句法、语义、知识、逻辑关系和风格模式,从而涌现出问答、总结、翻译、写作、代码生成与多步推理等能力。
Transformer 是这一阶段最关键的结构基础。通过自注意力(Self-Attention)、残差连接和大规模预训练,语言模型第一次在统一架构中同时表现出较强的通用知识调用能力、生成能力和任务迁移能力。后续篇章会把 Transformer 和大模型单独拿出来展开,原因也正在这里。
这些主线核心是一条不断扩展的连续谱。机器学习提供了“从数据中学习”的基本范式;深度学习进一步把表示学习纳入模型内部;强化学习把学习目标扩展到行动与长期回报;大语言模型则把预训练、生成和通用迁移能力推到更高尺度。它们彼此叠加,而非互相否定。
| 阶段 | 核心问题 | 主要特征 | 典型代表 |
| 机器学习 | 如何从数据中学习统计规律 | 特征工程重要;模型相对浅;强调监督学习与泛化 | 逻辑回归、SVM、随机森林、GBDT |
| 深度学习 | 如何自动学习层级表示 | 多层神经网络;端到端训练;感知任务突破 | CNN、RNN、ResNet、AlphaGo |
| 强化学习 | 如何在行动中根据反馈优化长期策略 | 强调状态、动作、奖励和长期回报;面向决策与控制 | Q-Learning、Policy Gradient、AlphaGo、RLHF |
| 大语言模型 | 如何在统一架构中获得通用生成与迁移能力 | Transformer、自监督预训练、生成式任务、规模效应 | GPT、PaLM、Llama、Claude 类模型 |
语言之所以在 AGI 讨论中占据中心位置,一个重要原因是:人类大量知识本来就以文本形式被压缩和记录。科学规律、历史经验、社会规范、技术文档、小说叙事、代码、对话、数学推理,许多内容都已经被写进文字体系。对模型而言,学习语言不仅学习词语排列,还在学习人类如何编码世界结构。
例如,“所以”常常隐含因果关系,“但是”常常隐含转折,“如果……那么……”隐含条件推理,故事叙事中又包含时间、动机、行为与结果的链式结构。语言并非世界本身,但它是人类认知世界的一种高度压缩表示。因此,在海量文本上训练下一个 token 预测器,可能间接逼迫模型学习大量世界规律。
语言模型的训练目标表面上非常简单:给定上下文 \(x_{1:t-1}\),预测下一个 token \(x_t\),也就是最大化
\[p(x_t\mid x_1,\dots,x_{t-1})\]但这个目标的约束其实非常强。若模型想要准确预测法律文本中的下一句,它就必须理解法律概念和逻辑结构;若想预测一段代码的下一行,它就必须理解语法、控制流与 API 用法;若想预测一个故事的结局,它就要理解人物动机、叙事结构和常识。这使得“下一个 token 预测”虽然形式简单,内在上却会逼迫模型学习深层模式。
因此,大语言模型看起来像是在逐词生成,实质上是在通过这个统一目标吸收大量分布式知识表示。这也是现代生成式 AI 产生涌现能力(Emergent Capability)的关键背景之一。
从直觉上看,视觉似乎比语言更接近真实世界,因此很多人曾认为计算机视觉(Computer Vision, CV)才是通向通用智能的最直接道路。这个判断并不荒谬,因为视觉确实与空间、物体、运动和物理交互关系更紧。但历史上率先爆发的却是语言模型,其重要原因在于:语言数据比高质量世界交互数据更容易大规模收集、更容易统一标注、更容易压缩高层知识结构。
视觉更贴近世界本体,语言更贴近人类已经整理好的世界知识。前者更“原始”,后者更“高密度”。语言模型之所以先爆发,不一定说明语言比空间更根本,而更可能说明语言先在可训练性、数据规模和目标统一性上形成了更好的工程条件。
Transformer 最初在机器翻译和语言建模中成熟,但它的核心结构并不绑定自然语言。它真正提供的是一种通用的序列建模框架:把输入拆成一组 token,为每个 token 加上位置或结构信息,再用自注意力(Self-Attention)建模 token 之间的关系。文本 token 可以是词片段,图像 token 可以是 patch,音频 token 可以是声学帧或离散 codec token,视频 token 可以是时空 patch,机器人轨迹也可以写成状态、动作和观测 token 的序列。
自注意力的关键优势是让任意两个位置可以直接交互。卷积网络更强调局部邻域,循环网络更强调时间顺序,而 Transformer 在每一层都能根据内容动态建立全局依赖。对语言来说,这意味着一个词可以直接关注远处的主语、指代对象或代码变量;对图像来说,一个 patch 可以关注远处的物体部件;对视频来说,当前帧可以关注前后帧中的同一目标;对图文模型来说,文字 token 可以和图像 patch token 在同一个注意力空间里对齐。
这种结构让多模态统一建模变得自然。只要某种输入能被表示成 token 序列或 token 集合,就可以进入类似的 Transformer block。不同模态的主要差异,转移到 tokenizer、embedding、位置编码、预训练目标和数据配对方式上。模型主体则可以复用同一套工程:注意力、残差连接、归一化、前馈网络、分布式训练和大规模预训练。
| 领域 | token 化方式 | Transformer 解决的核心关系 |
| 语言 | 词、子词、字节或代码 token | 长距离依赖、指代、语法结构、上下文语义和生成顺序。 |
| 视觉 | 图像 patch、区域特征、视觉离散 token | 物体部件之间的全局关系、场景布局、跨区域语义组合。 |
| 语音与音频 | 声学帧、频谱 patch、codec token | 长程声学上下文、音素到词的组合、韵律与说话人信息。 |
| 视频 | 空间 patch + 时间片段 | 跨帧目标一致性、动作轨迹、时序事件结构。 |
| 图文与多模态 | 文本 token + 图像 patch token + 其他模态 token | 跨模态对齐、视觉问答、图像描述、文生图和多模态推理。 |
预训练范式进一步放大了这种通用性。语言模型用下一个 token 预测学习文本分布,视觉模型可以用遮盖 patch 预测、图文对比学习或图像生成学习视觉分布,语音模型可以用遮盖声学片段或 codec token 预测学习音频结构,多模态模型可以用图文匹配、跨模态生成和对比学习建立对齐。任务形式不同,但底层都在做一件事:让模型从大规模未标注或弱标注数据中学习可迁移表示。
因此,Transformer 从语言影响到其它领域,关键在于它把多种输入统一成可训练的 token 关系建模问题。其它模态不需要被强行“语言化”;它们只需要被转换成模型可以处理的 token 表示。语言任务率先提供了最成熟的数据、目标和工程范式;这些经验随后迁移到视觉、语音、视频、检索、机器人和多模态系统中。后续 ref-4 会展开 Transformer 的结构细节,ref-3 会按任务说明它在不同领域中的具体用法。
若把当代 AI 的长处概括一下,它最擅长的是:在大规模数据中提取统计规律;在高维输入中学习分布式表示;在局部定义清晰的目标上反复优化;在单次或短链任务中产生非常强的模式识别、生成和匹配能力。图像分类、语音识别、推荐排序、检索匹配、文档摘要、代码补全和多轮问答,都属于这种优势可以被直接放大的领域。
这些能力的共同底层,是模型非常擅长处理大规模模式压缩与重组。它可以把海量经验浓缩进参数,把看似分散的线索组合成输出,这正是现代 AI 之所以显得“聪明”的原因。
AI 的弱点同样有共性。第一,它学到的大多是分布规律,而不一定是人类意义上的显式因果结构。第二,它可能非常擅长局部模式匹配,但在长链规划、跨步骤一致性、外部事实校验和真实世界 grounding 上仍不稳定。第三,它的输出是否可信,很大程度上取决于训练分布、上下文、工具链和验证机制,而非只取决于模型参数规模。
大模型会出现幻觉(Hallucination),根源正在这里:模型并不总是在“查询一个外部真值数据库”,它更多是在根据训练中见过的大量分布模式,生成当前看起来最合理的延续。若任务需要精确事实、长链一致性或外部环境对齐,单靠内部参数往往不够,必须依赖检索、工具调用、状态管理与验证闭环。
生成能力之所以容易让人误判,是因为流畅输出很像理解。一个模型能写得很像、说得很像、总结得很像,并不自动意味着它已经拥有与人类相同的世界模型。理解至少还涉及可迁移性、反事实推理、跨情境一致性、与环境交互后的自我修正能力,以及对物理和社会约束的稳定把握。
因此,导论里必须保留一个清醒的判断:现代 AI 已经极大突破了“模式识别”和“符号生成”的边界,但它距离稳定、统一、具身、可验证的通用智能仍有明显距离。既不能低估它已经做到的事,也不能因为生成效果惊艳就提前宣布问题已经全部解决。
即使语言模型取得巨大进展,是否仅靠语言就能实现 AGI,仍然存在强烈争议。一种观点认为,语言已经高度压缩了世界知识,大规模语言建模因此足以逼近通用智能;另一种观点则认为,语言只是世界的符号映射,而非世界本身,真正的智能还需要空间感知、物理直觉、行动反馈和长期交互经验。
这种分歧的关键不在“语言有没有价值”,而在“语言是否足够”。如果一个系统不理解空间关系、物体恒常性、因果交互和物理约束,那么它可能仍然停留在对符号统计规律的高度拟合,而没有真正建立起可用于行动的世界模型(World Model)。
空间智能(Spatial Intelligence)强调,智能体不仅要会处理符号和文本,还要能理解物体、距离、运动、遮挡、三维结构和物理一致性。对生物而言,这种能力与生存高度相关;对机器而言,它决定了系统是否能从“会说”进一步走向“会看、会做、会交互”。
因此,近年来多模态模型、世界模型、机器人学习和具身智能(Embodied AI)重新成为 AGI 讨论中的核心方向。未来更可能出现的,也核心是多种能力逐步汇合:语言提供高密度知识压缩,感知与行动提供对真实世界约束的接触,二者共同构成更完整的通用智能基础。
这套 quick reference 按“导论 → 数学 → 建模 → 任务 → 大模型 → 系统 → 工程 → 框架源码”的顺序组织。先建立概念地图,再补数学语言,然后进入模型、任务、系统和代码实现。
| 篇章 | 阅读重点 |
| ref-0 导论 | 建立 AI/ML/DL/LLM 的层级关系,理解模型、训练、泛化、现代 AI 主线和能力边界。 |
| ref-1 数学基础 | 补齐向量、矩阵、导数、概率、统计和信息论,作为理解模型公式和训练目标的共同语言。 |
| ref-2 机器学习与神经网络 | 理解模型家族、常用算法、神经网络、损失函数、训练机制、评估指标和正则化。 |
| ref-3 任务版图 | 按任务理解 NLP、计算机视觉、语音、搜索推荐广告、时序建模等领域分别解决什么问题。 |
| ref-4 Transformer 与大模型 | 集中理解 Transformer、预训练、微调、多模态、推理优化、训练监控和基础模型范式。 |
| ref-5 系统层与 Agent | 理解模型如何进入真实应用系统,包括上下文工程、RAG、Agent、工具调用和验证闭环。 |
| ref-6 训练与推理编程:工程栈总览 | 从工程栈总览理解数据管线、训练框架、经典机器学习、分布式训练、模型导出和推理服务。 |
| ref-7 训练与推理编程:框架详解 | 深入 PyTorch、Transformers、PEFT、OpenRLHF、verl、DeepSpeed、vLLM 和真实源码精读。 |
Leave a Reply