关于AI大模型基础的一些基础理论见解

1386 字

7 分钟

关于AI大模型基础的一些基础理论见解

2025-10-10

学习笔记

博客

/

笔记

/

学习打卡

今天把 Datawhale 开源教程《Hello-Agents》的第三章——大语言模型基础给读完了。作为一个刚接触 AI 不久的小白，老实说，刚开始看到那些数学公式和模型架构时，脑子真的是发懵的。但一点点啃下来，再结合教程里的图解，我好像慢慢摸到了一点点门道。

在这里便是记录一下我的一点“理解”，希望能把这些高深的原理用我自己的白话梳理清楚，也希望自己在日后的学习中可以方便复盘，举一反三。因为自学入门，如果理解有偏差，也请各位大佬多多指教！🙏

一、机器到底是怎么“学说话”的?#

以前我总觉得 ChatGPT 像是有个灵魂，但今天看了教程才知道，原来它的底层逻辑其实是一场超大规模的“文字接龙”游戏——预测下一个词语出现的概率。

书里有一个很基础的连乘公式：

$P(S) = P(w_1) \cdot P(w_2 \mid w_1) \cdot P(w_3 \mid w_1, w_2) \cdots P(w_m \mid w_1, ..., w_{m-1})$

这个公式的含义：机器在说第 100 个字的时候，其实是在疯狂翻阅它脑子里的字典，看看在前面 99 个字都已经出现的条件下，哪个字接在后面的概率最大。

但在早年间，计算资源很差，根本算不过来这么长的前置条件。所以前辈们用了一个无奈的妥协——马尔可夫假设（N-gram模型）：

$P(w_i \mid w_1, ..., w_{i-1}) \approx P(w_i \mid w_{i-n+1}, ..., w_{i-1})$

这其实就是让机器“偷懒”，只看前面的两三个词。这也难怪以前的机器人总感觉像个“只有七秒记忆的小金鱼”，因为它们本质上只是在做短期的死记硬背，根本不懂整句话的逻辑。

二、努力记住更多上下文（从词嵌入到 RNN 的演进）#

为了让机器真的懂“语义”，科学家们发明了词嵌入（Word Embedding）。看到这里我不由得再次感慨数学能力在计算机网络的应用。在机器眼里，“苹果”不是水果，而是一串多维空间里的坐标。相似的词在这个空间里离得很近，语言居然变成了一门可以用加减法计算的几何学。

有了词的表示，怎么处理长句子呢？大家想到了 RNN（循环神经网络）。我对 RNN 架构的理解是：它就像是一个老老实实的记账员，逐字逐句地读，一边读一边把上一个词的“隐藏状态（记忆）”传给下一个词。 不过它有的致命缺陷：

老是忘事： 也就是书上说的“梯度消失”，传到最后，最前面的词完全被稀释掉了。
太慢了： 必须等上一个词读完才能读下一个，这在现在的我看来，简直白白浪费了显卡那么强大的并行计算能力。

三、现代的进化：Transformer 架构#

而真正意义上实现大模型的思考能力的是现代大模型的基石：Transformer 架构。基础架构示意图

以前的 RNN 是一条线顺着读，而 Transformer 则是直接“跳出三界外”。我的视角下是这样理解的：

一口气全吞下： 它不再挨个字读，而是把一整段话同时塞进模型里计算。那怎么知道谁先谁后呢？它极其巧妙地加上了“位置编码（Positional Encoding）”，这就好比给每个字发了一个号码牌，打破了时间的限制。
自注意力机制（Self-Attention）： 这个机制太神奇了。当它处理“苹果”这个词时，会让“苹果”和句子里所有的词去“握手”（算权重矩阵）。哪怕“手机”这个词隔了十万八千里，只要握手得分高，机器立马就知道这里指的是科技公司，而不是吃的水果。

四、总结#

哪怕是千亿参数的现代大模型，它本质上依然是一个拥有极强自然语言理解（NLU）能力的“超级赛博大脑”。它懂逻辑、懂常识，但它是一个只能坐在原地“说话”的大脑。

基于今天学到的基础，我对接下来要学习的 Agent有了初步的基础：既然我们已经有了这么聪明的“大脑”，那我们完全可以把它作为核心处理器（CPU）！

给它装上手脚： 如果我们用代码给大模型写好接口，让它学会调用计算器、搜索引擎或者文件系统（Tools API），它就能去真实世界里帮我们查资料、订机票了。
给它配个记事本： Transformer 虽然厉害但有上下文窗口限制。如果我们能外挂一个数据库当做它的“长期记忆（Memory）”，它不就能记住我上个月交代给它的工作偏好了吗？
教它学会规划： 面对复杂问题，让大模型先做“任务拆解”，一步步推导该用什么工具，这应该就是传说中的智能体思维链了。

路漫漫其修远兮，我的 AI 学习之旅才刚刚跨过门槛。大模型的底层原来是如此扎实的数学与工程奇迹。

关于AI大模型基础的一些基础理论见解

https://qiandaos.top/posts/hello-agent/agent-base/

作者

千岛寒流

发布于

2025-10-10

许可协议

CC BY-NC-SA 4.0

部分信息可能已经过时

Uboot中NFS下载一直显示“Loading：T T T ...” 或“CANNOT MOUNT”

Redis学习系列 | Redis学习结尾？

千岛の摸鱼小栈

一、 机器到底是怎么“学说话”的?#

二、 努力记住更多上下文（从词嵌入到 RNN 的演进）#

三、 现代的进化：Transformer 架构#

四、总结#

一、机器到底是怎么“学说话”的?#

二、努力记住更多上下文（从词嵌入到 RNN 的演进）#

三、现代的进化：Transformer 架构#