Menu

  • Home
  • Work
    • Cloud
      • Virtualization
      • IaaS
      • PaaS
    • Java
    • Go
    • C
    • C++
    • JavaScript
    • PHP
    • Python
    • Architecture
    • Others
      • Assembly
      • Ruby
      • Perl
      • Lua
      • Rust
      • XML
      • Network
      • IoT
      • GIS
      • Algorithm
      • AI
      • Math
      • RE
      • Graphic
    • OS
      • Linux
      • Windows
      • Mac OS X
    • BigData
    • Database
      • MySQL
      • Oracle
    • Mobile
      • Android
      • IOS
    • Web
      • HTML
      • CSS
  • Life
    • Cooking
    • Travel
    • Gardening
  • Gallery
  • Video
  • Music
  • Essay
  • Home
  • Work
    • Cloud
      • Virtualization
      • IaaS
      • PaaS
    • Java
    • Go
    • C
    • C++
    • JavaScript
    • PHP
    • Python
    • Architecture
    • Others
      • Assembly
      • Ruby
      • Perl
      • Lua
      • Rust
      • XML
      • Network
      • IoT
      • GIS
      • Algorithm
      • AI
      • Math
      • RE
      • Graphic
    • OS
      • Linux
      • Windows
      • Mac OS X
    • BigData
    • Database
      • MySQL
      • Oracle
    • Mobile
      • Android
      • IOS
    • Web
      • HTML
      • CSS
  • Life
    • Cooking
    • Travel
    • Gardening
  • Gallery
  • Video
  • Music
  • Essay

人工智能理论知识 - 简介

15
Apr
2026

人工智能理论知识 - 简介

By Alex
/ in AI
0 Comments

这一篇作为整套 AI 总纲的导论,先不进入公式和具体模型细节,而是回答更根本的问题:什么叫智能,人工智能究竟在试图做什么,机器为什么能从数据中学会某些能力,为什么这个方向在近十几年才真正爆发,以及机器学习、深度学习与大语言模型之间到底是什么关系。后续第 1 篇会进入数学基础,第 2 篇进入机器学习与神经网络,第 3 篇进入 Transformer 与大模型,第 4 篇进入 RAG、上下文工程与 Agent 系统。

什么是人工智能
人工智能的核心问题

人工智能(Artificial Intelligence, AI)讨论的不是“怎样让机器算得更快”,而是“怎样让机器表现出某种智能行为”。这里的智能行为,至少包括感知(Perception)、判断(Decision)、学习(Learning)、推理(Reasoning)与适应(Adaptation)。因此,AI 的目标从来不只是写一个会执行指令的程序,而是让系统能够在不完全由人工穷举规则的前提下,对复杂环境做出有效反应。

从工程角度看,AI 最常见的外显形式包括图像识别、语音识别、推荐系统、自动驾驶、机器翻译、问答系统、代码生成和多轮智能体。但这些表象背后要解决的是同一个更抽象的问题:如何把真实世界中的复杂输入映射为可执行的判断与行动。

从自动化到智能

并不是所有“看起来自动”的系统都属于智能。普通自动化系统更多依赖预先写好的流程和明确规则,例如“若温度超过阈值则启动风扇”“若用户点击按钮则调用接口”。这类系统的行为边界,主要由人类工程师提前定义好。它们可以非常有用,但并不等于具备真正的学习能力。

智能系统的关键差别在于:它不只会执行既定步骤,还能从经验中修正自己的内部表示与决策策略。也就是说,它不仅回答“当前该做什么”,还会通过数据逐步形成“以后遇到类似情况时应该怎样判断”。这种能力一旦出现,系统行为就不再完全等价于人工编写的 if-else 规则树。

AI、机器学习、深度学习与大模型的关系

这几个概念在日常讨论里经常被混用,但它们不是同一个层级。人工智能(AI)是最大的外层概念,讨论的是“让机器表现出智能行为”这一总目标。机器学习(Machine Learning, ML)是实现 AI 的一大类方法,它强调从数据中学习规律,而不是完全依赖手工规则。深度学习(Deep Learning, DL)又是机器学习中的一个重要分支,核心是通过多层神经网络自动学习表示。大语言模型(LLM)和现代基础模型(Foundation Model)则建立在深度学习之上,是特定时代的代表性形态,而不是与深度学习并列的全新学科。

概念 它回答的问题 与其他概念的关系
人工智能(AI) 怎样让机器表现出感知、判断、学习、推理和行动能力 最大外层目标
机器学习(ML) 怎样让机器从数据而不是纯规则中学习映射关系 AI 的主要实现路线之一
深度学习(DL) 怎样用多层神经网络自动学习层级表示 ML 的一个重要分支
大语言模型 / 基础模型 怎样通过大规模预训练得到通用生成与迁移能力 建立在深度学习之上的现代主线

因此,后续学习不应把这些词当成互相替代的流行口号,而应始终记住它们的层级关系:AI 是目标,ML 是方法族,DL 是方法族中的核心分支,LLM 是 DL 在特定时代和特定架构下的代表形态。一旦这个层级关系理顺,后面的许多概念就不会显得混乱。

什么叫智能
学习能力与迁移能力

若要给“智能”一个足够实用、又不过分空泛的定义,一个很好的工作表述是:智能 = 学习能力 + 迁移能力。学习能力指系统能够从有限经验中提取规律;迁移能力指系统学到规律之后,能够在未见过但结构相近的新情境中继续做出合理判断。

这个定义的重要性在于,它把“记住训练样本”与“真正学会规律”区分开了。一个系统若只是把所有见过的情况硬背下来,那么它最多拥有记忆,不一定拥有智能。智能的难点不在于把过去储存起来,而在于从过去抽取出可泛化的结构。

智能不是单一能力

把智能理解成单一分数,会掩盖许多关键差异。真实系统中的智能通常至少包含几类不同能力:感知(能否从复杂输入中抽取有用信息)、表征(能否形成稳定内部概念)、记忆(能否保留历史经验)、推理(能否在已知条件上做组合与演绎)、规划(能否为目标拆解步骤)、行动(能否把判断落成可执行决策),以及沟通(能否把内部状态转换成外部可用表达)。

一个系统可能在其中某些方面很强,在另一些方面很弱。例如大型分类模型在感知和表征上可能很强,但不一定擅长长期规划;语言模型在表达和知识调用上很强,但若缺少外部工具和环境反馈,就未必具备可靠行动能力。因此,讨论智能不能只问“它聪不聪明”,还要问“它在哪些维度上具备能力、在哪些维度上仍有缺口”。

从经验到概念

人类识别“苹果”这类概念时,通常并不是先掌握一组严密定义,再去匹配世界;更常见的路径是通过大量经验,在脑中逐步形成一个模糊但稳定的概念边界。这个边界并不是几何参数、颜色阈值和纹理公式的明确列表,而是一种能够支持识别和迁移的内部表征。

这件事对 AI 尤其重要。它说明很多关键知识并不天然适合写成规则,而更适合通过样本驱动的表示学习形成。机器学习和深度学习之所以有效,正是因为它们允许系统用大量样本不断调整内部参数,最后形成“什么样的输入更像某个概念”的高维表示。

泛化为什么重要

泛化(Generalization)是机器学习和人工智能中的中心概念。设训练数据来自分布 \(\mathcal{D}_{\text{train}}\),模型在训练集上的经验风险(Empirical Risk)为

\[\hat R(f)=\frac{1}{n}\sum_{i=1}^{n}\ell(f(x_i),y_i)\]

真正重要的并不是 \(\hat R(f)\) 本身,而是模型在未来未见样本上的期望风险(Expected Risk)

\[R(f)=\mathbb{E}_{(x,y)\sim \mathcal{D}}\big[\ell(f(x),y)\big]\]

所谓泛化能力,本质上就是:训练中学到的规律,能否从有限样本扩展到更广泛但相关的真实世界分布。一个模型若只能在训练数据上表现良好,而离开训练分布就失效,它就更像记忆系统而不是智能系统。

这也是为什么 AI 讨论中总会反复出现过拟合(Overfitting)、分布偏移(Distribution Shift)、鲁棒性(Robustness)和迁移学习(Transfer Learning)这些概念。它们关心的都是同一件事:模型学到的东西,究竟是在逼近世界规律,还是只是在背训练题答案。

专用智能与通用智能

按照任务适用范围,可以把 AI 粗略分成专用人工智能(Narrow AI)与通用人工智能(Artificial General Intelligence, AGI)。专用人工智能通常在某个任务上表现极强,例如围棋、图像分类、语音识别、广告排序或蛋白质结构预测;但它的能力边界高度依赖训练目标与任务环境,换一个问题往往就需要重新建模、重新训练甚至重写系统。

AGI 则要求系统具备更广泛的理解、推理、学习与迁移能力,能够跨任务、跨场景、跨知识域持续适应。这一目标远比单任务最优困难,因为它要求模型不只是对单个问题拟合得好,而是对世界结构形成更一般的内部表示。

因此,AlphaGo 可以击败顶级围棋选手,但这并不自动意味着它具备通用智能。它展现的是在一个定义良好、奖励明确、规则固定的任务中实现超人性能;这当然非常重要,但离“在不同领域都能自主迁移和解决问题”的 AGI 仍有明显距离。

人工智能的早期路线
符号主义与专家系统

人工智能早期最自然的思路是符号主义(Symbolicism):既然人类能用语言、逻辑、规则和概念来描述世界,那么是否可以直接把这些规则写给机器,让机器照此推理。专家系统(Expert System)就是这种路线的代表。工程师通过知识库(Knowledge Base)、规则库(Rule Base)和推理机(Inference Engine),把领域专家的经验编码成显式规则,让机器在给定条件下自动给出结论。

这种方法在规则边界相对稳定、领域知识比较明确的任务上可以取得不错效果。例如早期的诊断辅助系统、规则客服、配置推荐系统,都曾从专家系统中受益。它的优势是可解释性强、行为边界清晰、局部领域内可控性高。

为什么纯规则路线走不通

符号主义的根本局限,不在于规则无用,而在于现实世界太复杂。若想靠人工穷举规则来覆盖所有场景,很快会遇到三类问题。第一,规则组合爆炸:例外情况会越来越多,规则之间开始相互冲突。第二,感知输入难以被精确定义:光照变化、遮挡、噪声、语义歧义和上下文依赖,都会让“明确规则”变得脆弱。第三,规则迁移差:一个任务里定义好的知识,很难自然扩展到另一个任务。

更关键的是,世界中许多重要模式本来就不是人类能够轻易写成规则的。例如“什么样的像素组合像苹果”“什么样的句法和语义结构代表讽刺”“什么样的驾驶情境意味着危险”。人类能识别这些现象,并不意味着人类能把识别依据完整显式表达出来。

因此,若目标是让机器获得更强的适应性和泛化能力,系统必须学会从数据中提取模式,而不是永远依赖人类手工枚举所有知识。这就引出了机器学习路线。

连接主义之外,还要看到统计学习

早期 AI 叙事常把历史压缩成“符号主义失败,连接主义胜利”。这个说法有一定直观性,但仍然过粗。真正推动现代 AI 成熟的,不只是神经网络路线本身,还包括统计学习(Statistical Learning)这一整套思想:经验风险最小化、泛化误差、正则化、概率建模、优化理论、核方法、集成学习和贝叶斯方法,都对今天的 AI 基础有决定性影响。

也就是说,现代 AI 并不是简单从“写规则”切换到“神经网络万能”,而是逐步形成了三层视角:符号视角强调显式知识与逻辑结构,统计视角强调从样本分布中估计规律,连接主义强调用大规模参数化函数学习复杂表示。今天真正有效的系统,往往同时吸收了这三条传统中的不同优点。

机器为什么能学
机器学习的基本思想

Arthur Samuel 在 1959 年对机器学习(Machine Learning)的经典定义,核心就在于一句话:让计算机在不被显式编程的情况下获得学习能力。这里“不被显式编程”不是说完全没有程序,而是说我们不再把任务规则逐条写死,而是给定数据、目标和优化机制,让系统自己去调整内部参数。

因此,机器学习与传统编程的分工发生了变化。传统编程更像

\[\text{Rules} + \text{Data} \rightarrow \text{Output}\]

而机器学习更像

\[\text{Data} + \text{Targets} + \text{Optimization} \rightarrow \text{Model}\]

人类仍然负责编写训练流程、定义损失函数、设计模型结构和评价指标,但不再手写所有领域规则;真正的映射关系由模型在数据中自动学得。

模型究竟是什么

在最抽象的数学意义上,模型(Model)就是一个参数化函数(Parameterized Function)。给定输入 \(x\),模型输出预测 \(\hat y=f_\theta(x)\),其中 \(\theta\) 表示模型参数。机器学习训练的目标,就是在庞大的参数空间里找到一组参数,使这个函数尽可能解释数据中的规律。

因此,“训练模型”本质上不是把知识一条条写进程序,而是在参数空间里搜索一个更好的函数。这个函数可以很简单,例如线性回归中的 \(f_\theta(x)=w^\top x+b\);也可以极其复杂,例如拥有数十亿参数的大语言模型。复杂度不同,但本质没有变:它们都在试图逼近某个把输入映射到输出的规律。

这也是为什么机器学习常被表述为函数拟合(Function Approximation)。区别只在于,AI 面对的函数远比中学里的 \(y=f(x)\) 更复杂:输入可能是图片、文本、语音、视频、图结构或交互历史,输出可能是类别、数值、动作、文本序列甚至多步决策。

训练在做什么

训练(Training)就是在反复试错中更新参数。设损失函数(Loss Function)为 \(\ell(f_\theta(x),y)\),训练集上的目标函数通常写成

\[J(\theta)=\frac{1}{n}\sum_{i=1}^{n}\ell(f_\theta(x_i),y_i)\]

优化算法会根据 \(\nabla_\theta J(\theta)\) 的方向逐步更新参数,使损失下降。对小模型而言,这可以理解为“不断试着把函数曲线调到更贴近数据”;对大模型而言,它仍然是同一件事,只是参数数量、数据规模和优化难度都被放大到了前所未有的量级。

因此,训练并不是神秘的“让机器突然开窍”,而是一套规模化、可重复、可优化的搜索过程。机器学习的历史突破,很大程度上就是让这套搜索过程在更大数据、更复杂模型和更强硬件上变得可行。

一个学习问题由什么构成

一个完整的学习问题,通常至少包含六个要素:输入表示 \(x\)、目标或反馈 \(y\)、模型 \(f_\theta\)、损失函数 \(\ell\)、优化算法,以及评估标准。只有把这几件事同时说清楚,问题才真正被定义完成。否则“做一个 AI 模型”这句话本身几乎没有技术含量。

组成部分 它决定什么 典型问题
输入表示 模型实际看见什么 文本是分词后 token、图像是像素还是 patch、表格特征是否标准化
目标 / 反馈 模型被鼓励学会什么 分类标签、回归值、奖励信号、对比学习正负样本
模型结构 函数族的表达能力与归纳偏置 线性模型、树模型、CNN、Transformer、MoE
损失函数 什么叫“预测得不好” 交叉熵、均方误差、对比损失、强化学习目标
优化算法 参数怎样被更新 SGD、AdamW、学习率调度、梯度裁剪
评估标准 模型是否真的有用 Accuracy、F1、AUC、BLEU、ROUGE、胜率、人工偏好

这张表的意义在于:AI 的成败几乎从来不只由“模型结构”单独决定。很多看似是模型问题的失败,实际来自目标函数错位、输入表示粗糙、数据质量差或评估指标不对。理解这一点,后续学习才不会把注意力全部误投到“模型名字”本身。

训练与推理不是同一件事

训练(Training)和推理(Inference)是两个阶段。训练阶段的任务是用大量样本更新参数,让模型学到函数 \(f_\theta\);推理阶段的任务则是在参数已经固定后,用这个函数处理新的输入。很多初学者会把“模型生成答案”与“模型学会能力”混成一件事,但这两个阶段的资源需求、系统结构和优化目标都不同。

训练更关注数据规模、梯度计算、参数更新和收敛稳定性;推理更关注延迟、吞吐、显存占用、服务成本与输出质量。例如一个模型可能训练非常昂贵,但推理相对便宜;也可能训练已完成,但由于上下文窗口、解码策略和缓存机制设计不佳,推理时依然很难落地。后续第 3 篇和第 4 篇会反复遇到这个区分。

监督不是唯一反馈来源

视频中的直觉更偏向“给很多样本,模型就去学”。这当然是核心,但还需要补充:模型并不只从人工标注标签中学习。现代 AI 至少有三类主要反馈来源。第一类是监督学习(Supervised Learning),即直接给出正确答案或目标标签。第二类是自监督学习(Self-Supervised Learning),即从数据自身构造预测任务,例如掩码语言建模或下一个 token 预测。第三类是强化学习(Reinforcement Learning),即系统通过与环境交互,根据奖励信号优化长期行为。

这三类反馈机制并不是互斥关系。很多现代系统会把它们组合起来:先用自监督预训练打好通用表示,再用监督微调适配具体任务,最后再用强化学习或偏好优化调整行为。这种多阶段训练配方,正是现代大模型系统的常见做法。

一个 AI 系统由什么组成
数据、模型、目标、反馈

导论里很容易把“AI”误听成某个神奇单体,好像只要有一个模型名字,一切就自动发生了。真实系统远不是这样。一个可工作的 AI 系统,至少要把数据、模型、目标、反馈、训练、评估和部署串成一条闭环。模型当然是中心,但它只是闭环中的一个部件,而不是全部。

部件 作用 若出问题会怎样
数据 提供经验样本与任务边界 模型学不到规律,或学到偏差和噪声
模型 提供可学习的函数族与归纳偏置 表达能力不足,或虽强但很难训练与泛化
目标函数 定义什么叫“做得好” 模型可能学会与真实需求错位的行为
反馈机制 告诉系统怎样修正参数或策略 训练方向错误,优化不稳定
评估体系 判断模型是否真的有用 训练指标很好,但上线表现很差
部署系统 决定模型在真实环境里的延迟、成本、可靠性与安全性 即使模型本身很强,也无法稳定落地

从这个角度看,AI 更像一条生产线,而不是一个神秘黑盒。后续 1 到 4 篇其实就是沿这条生产线逐步展开:先理解数学语言,再理解模型与训练,再理解基础模型,再理解系统层落地。

数据不是越多越好,而是越对越好

“海量数据”当然重要,但导论里还必须补一句更现实的话:数据不是越多就必然越好,而是越接近任务结构、越干净、越有覆盖、越能提供有效反馈越好。大量重复、偏差严重、标注粗糙或分布失真的数据,完全可能把模型推向错误方向。现代 AI 的许多难题,其实不是出在模型结构,而是出在数据分布和目标构造不匹配。

因此,AI 工程里常常真正稀缺的不是“任意数据”,而是高质量、覆盖关键边界条件、与评估目标一致的数据。这个判断对后续所有篇章都成立,无论是在经典机器学习、深度学习还是大模型系统里。

评估不是最后一步,而是前提

另一个常见误区,是把评估(Evaluation)理解成模型训完之后再顺手看一眼分数。更准确的看法应该是:评估标准在问题定义阶段就已经介入了,因为它决定我们到底在优化什么。若任务真正关心的是风险控制,单纯追求 Accuracy 可能毫无意义;若任务关心排序质量,分类正确率就不是核心;若任务面向真实用户,延迟、稳定性和校准能力也会与“准确率”同等重要。

所以一个成熟 AI 系统的闭环顺序不是“先训练,最后随便评一下”,而是“先定义任务与评估,再决定模型和训练”。很多失败项目的问题,不是模型不够先进,而是一开始就没有把问题定义清楚。

为什么直到近十几年才爆发
数据是学习的原料

机器若要从经验中学习,首先必须“见得足够多”。互联网和数字化社会提供了前所未有的数据规模:网页文本、百科知识、社交媒体、搜索日志、点击记录、语音、图片、视频、传感器数据,几乎把大量人类行为与知识活动都转写成了可计算的数字语料。没有这些数据,模型就像只见过极少样本的人,难以形成稳定概念。

数据的重要性不只在量,还在覆盖范围。若训练数据太少,模型学不到稳健规律;若数据分布太窄,模型就很难泛化到复杂世界。现代 AI 的许多能力之所以能够出现,前提正是训练集规模和多样性的剧烈提升。

算力让搜索过程成为现实

深度学习和大模型训练,本质上依赖海量矩阵乘法、卷积、注意力和梯度计算。若没有足够强的硬件,这些优化过程在工程上根本跑不动。GPU、TPU 以及后续更专业的 AI 加速器,把高度并行的张量计算变成了现实,也让“数十亿参数、数万亿 token”这类训练规模进入可操作区间。

因此,AI 并不是一个“理论早就成熟、只是最近才被发现”的领域。更准确地说,很多核心思想提出得很早,但只有当数据、算力、算法和软件基础设施同时成熟,思想才能真正落地成具有产业影响力的系统。

算法与工程闭环

即使有数据和硬件,若缺少有效算法,训练仍然可能失败。现代 AI 的成功同样依赖优化方法、初始化、正则化、残差连接、归一化、分布式训练、自动求导框架和部署工具链的共同成熟。真正让人工智能爆发的,不是单个孤立发明,而是整套技术生态形成了闭环。

换言之,AI 的发展并不是线性地“某一年突然变聪明”,而是多条技术线在同一时期交汇:数据解决“学什么”,算力解决“算得动吗”,算法解决“学得稳吗”,工程系统解决“能不能规模化复现与部署”。

规模效应与预训练范式

近十几年 AI 爆发还有一个视频里只隐约提到、但实际上极其关键的因素:规模效应(Scaling Effect)。当模型参数、训练数据和计算预算在一定范围内同步扩大时,模型性能往往不是随机波动,而会呈现相对平滑、可预测的提升趋势。也就是说,很多能力并不是靠手工加入某个单独规则突然获得,而是在足够大的训练规模下逐步显现出来。

预训练(Pretraining)因此成为现代 AI 的核心范式。其基本逻辑是:先在大规模通用数据上学习通用表示或通用预测能力,再通过微调(Finetuning)、指令对齐(Instruction Tuning)或其他后训练方式适配具体任务。这个范式改变了整个行业的工作方式,因为模型不再是“每个任务单独训练一个小系统”,而更像一个可复用的能力底座。

现代人工智能的几条主线
机器学习

机器学习是现代 AI 的第一条主线。它的关键突破在于:不再完全依赖手工规则,而是让系统从数据中学习统计规律。在线性模型、树模型、支持向量机、聚类、概率模型和集成学习这些方法中,模型容量通常相对可控,特征工程的地位仍然很高,人类需要较多参与“该喂什么特征”。

这一阶段的 AI 已经能在很多任务上显著优于纯规则系统,例如垃圾邮件识别、信用风险评估、推荐排序和基本文本分类。但它的边界也很清楚:模型更多是在人工定义好的特征空间里工作,而不是从原始高维感知数据中自主学习层级表示。

深度学习

深度学习(Deep Learning)把机器学习进一步推进为表示学习(Representation Learning)。系统不再严重依赖人工手工提特征,而是使用多层神经网络从原始输入中逐层学习更抽象的表示。图像中的边缘、纹理、部件与对象,语音中的音素与韵律,文本中的词义、语法和上下文关系,开始由模型内部自动形成。

这条主线带来了感知智能的大规模突破。图像识别、目标检测、语音识别、人脸识别、机器翻译、自动驾驶感知与 AlphaGo 这样的系统,都建立在深度学习及其扩展方法之上。它们展现了极强的专用智能,但在广泛迁移和跨任务统一上仍存在明显限制。

强化学习

强化学习(Reinforcement Learning, RL)讨论的是另一类问题:当系统不是只做一次静态预测,而是要在环境中连续行动、不断接收反馈并优化长期收益时,该怎样学习策略(Policy)。它和监督学习最大的不同,是反馈不一定立即出现,也不一定告诉模型“正确答案是什么”;系统往往只能看到某种奖励(Reward)或惩罚,再自己推断哪些行为序列更优。

强化学习之所以在 AI 总纲里重要,不只是因为 AlphaGo。它代表了从“识别与预测”走向“决策与行动”的关键跨越。后来的 RLHF、RLAIF、Agent 规划、自动控制和机器人学习,都延续了这条主线。即使很多大模型系统的主体不是用 RL 从零训练出来,强化学习仍然是现代 AI 中不可绕开的基本思想之一。

大语言模型与生成式 AI

大语言模型(Large Language Model, LLM)把 AI 推到了第三条主线:生成式 AI(Generative AI)。与很多传统系统主要做“判断题”不同,语言模型的训练目标是不断预测下一个 token。这一目标看似简单,却迫使模型在大规模文本中学习词法、句法、语义、知识、逻辑关系和风格模式,从而涌现出问答、总结、翻译、写作、代码生成与多步推理等能力。

Transformer 是这一阶段最关键的结构基础。通过自注意力(Self-Attention)、残差连接和大规模预训练,语言模型第一次在统一架构中同时表现出较强的通用知识调用能力、生成能力和任务迁移能力。这也是为什么后续篇章会把 Transformer 和大模型单独拿出来展开。

几条主线的关系

这些主线不是互相替代的断裂历史,而是一条不断扩展的连续谱。机器学习提供了“从数据中学习”的基本范式;深度学习进一步把表示学习纳入模型内部;强化学习把学习目标扩展到行动与长期回报;大语言模型则把预训练、生成和通用迁移能力推到更高尺度。它们彼此叠加,而不是互相否定。

阶段 核心问题 主要特征 典型代表
机器学习 如何从数据中学习统计规律 特征工程重要;模型相对浅;强调监督学习与泛化 逻辑回归、SVM、随机森林、GBDT
深度学习 如何自动学习层级表示 多层神经网络;端到端训练;感知任务突破 CNN、RNN、ResNet、AlphaGo
强化学习 如何在行动中根据反馈优化长期策略 强调状态、动作、奖励和长期回报;面向决策与控制 Q-Learning、Policy Gradient、AlphaGo、RLHF
大语言模型 如何在统一架构中获得通用生成与迁移能力 Transformer、自监督预训练、生成式任务、规模效应 GPT、PaLM、Llama、Claude 类模型
为什么语言模型率先突破
语言是世界知识的高密度压缩

语言之所以在 AGI 讨论中占据中心位置,一个重要原因是:人类大量知识本来就以文本形式被压缩和记录。科学规律、历史经验、社会规范、技术文档、小说叙事、代码、对话、数学推理,许多内容都已经被写进文字体系。对模型而言,学习语言并不只是学习词语排列,而是在学习人类如何编码世界结构。

例如,“所以”常常隐含因果关系,“但是”常常隐含转折,“如果……那么……”隐含条件推理,故事叙事中又包含时间、动机、行为与结果的链式结构。语言并不是世界本身,但它是人类认知世界的一种高度压缩表示。因此,在海量文本上训练下一个 token 预测器,可能间接逼迫模型学习大量世界规律。

下一个 token 预测为什么会产生复杂能力

语言模型的训练目标表面上非常简单:给定上下文 \(x_{1:t-1}\),预测下一个 token \(x_t\),也就是最大化

\[p(x_t\mid x_1,\dots,x_{t-1})\]

但这个目标的约束其实非常强。若模型想要准确预测法律文本中的下一句,它就必须理解法律概念和逻辑结构;若想预测一段代码的下一行,它就必须理解语法、控制流与 API 用法;若想预测一个故事的结局,它就要理解人物动机、叙事结构和常识。这使得“下一个 token 预测”虽然形式简单,内在上却会逼迫模型学习深层模式。

因此,大语言模型看起来像是在逐词生成,实质上是在通过这个统一目标吸收大量分布式知识表示。这也是现代生成式 AI 产生涌现能力(Emergent Capability)的关键背景之一。

为什么不是视觉先走到通用智能

从直觉上看,视觉似乎比语言更接近真实世界,因此很多人曾认为计算机视觉(Computer Vision, CV)才是通向通用智能的最直接道路。这个判断并不荒谬,因为视觉确实与空间、物体、运动和物理交互关系更紧。但历史上率先爆发的却是语言模型,其重要原因在于:语言数据比高质量世界交互数据更容易大规模收集、更容易统一标注、更容易压缩高层知识结构。

换言之,视觉更贴近世界本体,语言更贴近人类已经整理好的世界知识。前者更“原始”,后者更“高密度”。语言模型之所以先爆发,不一定说明语言比空间更根本,而更可能说明语言先在可训练性、数据规模和目标统一性上形成了更好的工程条件。

当前 AI 的能力与边界
它擅长什么

若把当代 AI 的长处概括一下,它最擅长的是:在大规模数据中提取统计规律;在高维输入中学习分布式表示;在局部定义清晰的目标上反复优化;在单次或短链任务中产生非常强的模式识别、生成和匹配能力。图像分类、语音识别、推荐排序、检索匹配、文档摘要、代码补全和多轮问答,都属于这种优势可以被直接放大的领域。

这些能力的共同底层,是模型非常擅长处理大规模模式压缩与重组。它可以把海量经验浓缩进参数,把看似分散的线索组合成输出,这正是现代 AI 之所以显得“聪明”的原因。

它为什么还会犯低级错误

AI 的弱点同样有共性。第一,它学到的大多是分布规律,而不一定是人类意义上的显式因果结构。第二,它可能非常擅长局部模式匹配,但在长链规划、跨步骤一致性、外部事实校验和真实世界 grounding 上仍不稳定。第三,它的输出是否可信,很大程度上取决于训练分布、上下文、工具链和验证机制,而不是只取决于模型参数规模。

这也是为什么大模型会出现幻觉(Hallucination):模型并不总是在“查询一个外部真值数据库”,它更多是在根据训练中见过的大量分布模式,生成当前看起来最合理的延续。若任务需要精确事实、长链一致性或外部环境对齐,单靠内部参数往往不够,必须依赖检索、工具调用、状态管理与验证闭环。

会生成不等于已经理解世界

生成能力之所以容易让人误判,是因为流畅输出很像理解。一个模型能写得很像、说得很像、总结得很像,并不自动意味着它已经拥有与人类相同的世界模型。理解至少还涉及可迁移性、反事实推理、跨情境一致性、与环境交互后的自我修正能力,以及对物理和社会约束的稳定把握。

因此,导论里必须保留一个清醒的判断:现代 AI 已经极大突破了“模式识别”和“符号生成”的边界,但它距离稳定、统一、具身、可验证的通用智能仍有明显距离。既不能低估它已经做到的事,也不能因为生成效果惊艳就提前宣布问题已经全部解决。

AGI 仍然悬而未决
语言智能是否足够

即使语言模型取得巨大进展,是否仅靠语言就能实现 AGI,仍然存在强烈争议。一种观点认为,语言已经高度压缩了世界知识,大规模语言建模因此足以逼近通用智能;另一种观点则认为,语言只是世界的符号映射,而不是世界本身,真正的智能还需要空间感知、物理直觉、行动反馈和长期交互经验。

这种分歧的关键不在“语言有没有价值”,而在“语言是否足够”。如果一个系统不理解空间关系、物体恒常性、因果交互和物理约束,那么它可能仍然停留在对符号统计规律的高度拟合,而没有真正建立起可用于行动的世界模型(World Model)。

空间智能与世界模型

空间智能(Spatial Intelligence)强调,智能体不仅要会处理符号和文本,还要能理解物体、距离、运动、遮挡、三维结构和物理一致性。对生物而言,这种能力与生存高度相关;对机器而言,它决定了系统是否能从“会说”进一步走向“会看、会做、会交互”。

这也是为什么近年来多模态模型、世界模型、机器人学习和具身智能(Embodied AI)重新成为 AGI 讨论中的核心方向。未来更可能出现的,不是“语言智能”和“空间智能”二选一,而是多种能力逐步汇合:语言提供高密度知识压缩,感知与行动提供对真实世界约束的接触,二者共同构成更完整的通用智能基础。

如何阅读后续篇章
这一套 AI 知识为什么这样编排

AI 学习最常见的问题不是资料不够,而是层级混乱。很多人一开始就直接进入模型名称、训练技巧和论文细节,但没有先回答几个最根本的问题:模型为什么存在、训练到底在优化什么、泛化为什么重要、不同阶段的 AI 方法究竟解决了什么问题。没有这层导论,后续知识就容易变成孤立名词堆。

因此,这套 quick reference 采用从抽象到具体的顺序:

  • 第 0 篇先回答“什么是智能、什么是模型、AI 为什么能学”。
  • 第 1 篇给出数学语言:向量、矩阵、导数、概率、信息量。
  • 第 2 篇进入机器学习、神经网络、训练、评估与正则化。
  • 第 3 篇进入 Transformer、大模型、多模态与推理优化。
  • 第 4 篇进入上下文工程、RAG、Agent 与系统层落地。

按这条顺序阅读,后面的每一层都会回答前一层留下的问题,而不是凭空多出一个新术语体系。这样整套内容才更接近一张完整地图,而不是若干互不连通的知识岛。

← DevPod 远程开发环境搭建笔记
人工智能理论知识 - 数学基础 →

Leave a Reply Cancel reply

Your email address will not be published. Required fields are marked *

You may use these HTML tags and attributes: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code class="" title="" data-url=""> <del datetime=""> <em> <i> <q cite=""> <strike> <strong> <pre class="" title="" data-url=""> <span class="" title="" data-url="">

Related Posts

  • 吴恩达机器学习笔记
  • 人工智能理论知识 - 数学基础
  • 利用LangChain和语言模型交互
  • 人工智能理论知识 - Transformers和大模型
  • 人工智能理论知识 - 智能体

Recent Posts

  • 人工智能理论知识 - 智能体
  • 人工智能理论知识 - Transformers和大模型
  • 人工智能理论知识 - 算法和经典机器学习
  • 人工智能理论知识 - 数学基础
  • 人工智能理论知识 - 简介
ABOUT ME

汪震 | Alex Wong

江苏淮安人,现居北京。目前供职于腾讯云,专注国际售后AI落地。

GitHub:gmemcc

Git:git.gmem.cc

Email:gmemjunk@gmem.cc@me.com

ABOUT GMEM

绿色记忆是我的个人网站,域名gmem.cc中G是Green的简写,MEM是Memory的简写,CC则是我的小天使彩彩名字的简写。

我在这里记录自己的工作与生活,同时和大家分享一些编程方面的知识。

GMEM HISTORY
v2.00:微风
v1.03:单车旅行
v1.02:夏日版
v1.01:未完成
v0.10:彩虹天堂
v0.01:阳光海岸
MIRROR INFO
Meta
  • Log in
  • Entries RSS
  • Comments RSS
  • WordPress.org
Recent Posts
  • 人工智能理论知识 - 智能体
    这一篇处理模型之外的系统层问题,包括上下文工程、Harness Engineering、检索增强生成(RAG)与 ...
  • 人工智能理论知识 - Transformers和大模型
    这一篇从常用算法进入机器学习基础概念、经典机器学习与神经网络,重点讨论“模型如何被构造、训练、评估与正则化”。前 ...
  • 人工智能理论知识 - 算法和经典机器学习
    这一篇从常用算法进入机器学习基础概念、经典机器学习与神经网络,重点讨论“模型如何被构造、训练、评估与正则化”。前 ...
  • 人工智能理论知识 - 数学基础
    这一篇整理 AI 所需的数学基础,包括基础数学、线性代数、微积分与概率论统计。它回答的核心问题是:模型里的向量、 ...
  • 人工智能理论知识 - 简介
    这一篇作为整套 AI 总纲的导论,先不进入公式和具体模型细节,而是回答更根本的问题:什么叫智能,人工智能究竟在试 ...
  • DevPod 远程开发环境搭建笔记
    DevPod 是一个开源的开发环境管理工具,支持在 Docker、K8s、SSH 主机及多种云平台上创建可复现的 ...
  • OpenClaw学习笔记
    四个月,343,000 颗星 2025 年 11 月 24 日,一个名为 ...
  • Investigating and Solving the Issue of Failed Certificate Request with ZeroSSL and Cert-Manager
    In this blog post, I will walk ...
  • A Comprehensive Study of Kotlin for Java Developers
    Introduction Purpose of the Study Understanding the Mo ...
  • 利用LangChain和语言模型交互
    LangChain是什么 从名字上可以看出来,LangChain可以用来构建自然语言处理能力的链条。它是一个库 ...
  • K8S集群跨云迁移
    要将K8S集群从一个云服务商迁移到另外一个,需要解决以下问题: 各种K8S资源的迁移 工作负载所挂载的数 ...
  • Terraform快速参考
    简介 Terraform用于实现基础设施即代码(infrastructure as code)—— 通过代码( ...
  • 草缸2021
    经过四个多月的努力,我的小小荷兰景到达极致了状态。

  • 编写Kubernetes风格的APIServer
    背景 前段时间接到一个需求做一个工具,工具将在K8S中运行。需求很适合用控制器模式实现,很自然的就基于kube ...
  • 记录一次KeyDB缓慢的定位过程
    环境说明 运行环境 这个问题出现在一套搭建在虚拟机上的Kubernetes 1.18集群上。集群有三个节点: ...
  • eBPF学习笔记
    简介 BPF,即Berkeley Packet Filter,是一个古老的网络封包过滤机制。它允许从用户空间注 ...
  • IPVS模式下ClusterIP泄露宿主机端口的问题
    问题 在一个启用了IPVS模式kube-proxy的K8S集群中,运行着一个Docker Registry服务 ...
  • 念爷爷
      今天是爷爷的头七,十二月七日、阴历十月廿三中午,老人家与世长辞。   九月初,回家看望刚动完手术的爸爸,发

TOPLINKS
  • Zitahli's blue 91 people like this
  • 梦中的婚礼 64 people like this
  • 汪静好 61 people like this
  • 那年我一岁 36 people like this
  • 为了爱 28 people like this
  • 小绿彩 26 people like this
  • 杨梅坑 6 people like this
  • 亚龙湾之旅 1 people like this
  • 汪昌博 people like this
  • 彩虹姐姐的笑脸 24 people like this
  • 2013年11月香山 10 people like this
  • 2013年7月秦皇岛 6 people like this
  • 2013年6月蓟县盘山 5 people like this
  • 2013年2月梅花山 2 people like this
  • 2013年淮阴自贡迎春灯会 3 people like this
  • 2012年镇江金山游 1 people like this
  • 2012年徽杭古道 9 people like this
  • 2011年清明节后扬州行 1 people like this
  • 2008年十一云龙公园 5 people like this
  • 2008年之秋忆 7 people like this
  • 老照片 13 people like this
  • 火一样的六月 16 people like this
  • 发黄的相片 3 people like this
  • Cesium学习笔记 90 people like this
  • IntelliJ IDEA知识集锦 59 people like this
  • Bazel学习笔记 38 people like this
  • 基于Kurento搭建WebRTC服务器 38 people like this
  • NaCl学习笔记 32 people like this
  • PhoneGap学习笔记 32 people like this
  • 使用Oracle Java Mission Control监控JVM运行状态 29 people like this
  • Ceph学习笔记 27 people like this
  • 基于Calico的CNI 27 people like this
  • Three.js学习笔记 24 people like this
Tag Cloud
ActiveMQ AspectJ CDT Ceph Chrome CNI Command Cordova Coroutine CXF Cygwin DNS Docker eBPF Eclipse ExtJS F7 FAQ Groovy Hibernate HTTP IntelliJ IO编程 IPVS JacksonJSON JMS JSON JVM K8S kernel LB libvirt Linux知识 Linux编程 LOG Maven MinGW Mock Monitoring Multimedia MVC MySQL netfs Netty Nginx NIO Node.js NoSQL Oracle PDT PHP Redis RPC Scheduler ServiceMesh SNMP Spring SSL svn Tomcat TSDB Ubuntu WebGL WebRTC WebService WebSocket wxWidgets XDebug XML XPath XRM ZooKeeper 亚龙湾 单元测试 学习笔记 实时处理 并发编程 彩姐 性能剖析 性能调优 文本处理 新特性 架构模式 系统编程 网络编程 视频监控 设计模式 远程调试 配置文件 齐塔莉
Recent Comments
  • 杨松涛 on snmp4j学习笔记
  • kaka on Cilium学习笔记
  • JackZhouMine on Cesium学习笔记
  • 陈黎 on 通过自定义资源扩展Kubernetes
  • qg on Istio中的透明代理问题
  • heao on 基于本地gRPC的Go插件系统
  • 黄豆豆 on Ginkgo学习笔记
  • cloud on OpenStack学习笔记
  • 5dragoncon on Cilium学习笔记
  • Archeb on 重温iptables
  • C/C++编程:WebSocketpp(Linux + Clion + boostAsio) – 源码巴士 on 基于C/C++的WebSocket库
  • jerbin on eBPF学习笔记
  • point on Istio中的透明代理问题
  • G on Istio中的透明代理问题
  • 绿色记忆:Go语言单元测试和仿冒 on Ginkgo学习笔记
  • point on Istio中的透明代理问题
  • 【Maven】maven插件开发实战 – IT汇 on Maven插件开发
  • chenlx on eBPF学习笔记
  • Alex on eBPF学习笔记
  • CFC4N on eBPF学习笔记
  • 李运田 on 念爷爷
  • yongman on 记录一次KeyDB缓慢的定位过程
  • Alex on Istio中的透明代理问题
©2005-2026 Gmem.cc | Powered by WordPress | 京ICP备18007345号-2