今天把 Datawhale 开源教程《Hello-Agents》的第三章——大语言模型基础给读完了。作为一个刚接触 AI 不久的小白,老实说,刚开始看到那些数学公式和模型架构时,脑子真的是发懵的。但一点点啃下来,再结合教程里的图解,我好像慢慢摸到了一点点门道。
在这里便是记录一下我的一点“理解”,希望能把这些高深的原理用我自己的白话梳理清楚,也希望自己在日后的学习中可以方便复盘,举一反三。因为自学入门,如果理解有偏差,也请各位大佬多多指教!🙏
一、 机器到底是怎么“学说话”的?
以前我总觉得 ChatGPT 像是有个灵魂,但今天看了教程才知道,原来它的底层逻辑其实是一场超大规模的“文字接龙”游戏——预测下一个词语出现的概率。
书里有一个很基础的连乘公式:
这个公式的含义:机器在说第 100 个字的时候,其实是在疯狂翻阅它脑子里的字典,看看在前面 99 个字都已经出现的条件下,哪个字接在后面的概率最大。
但在早年间,计算资源很差,根本算不过来这么长的前置条件。所以前辈们用了一个无奈的妥协——马尔可夫假设(N-gram模型):
这其实就是让机器“偷懒”,只看前面的两三个词。这也难怪以前的机器人总感觉像个“只有七秒记忆的小金鱼”,因为它们本质上只是在做短期的死记硬背,根本不懂整句话的逻辑。
二、 努力记住更多上下文(从词嵌入到 RNN 的演进)
为了让机器真的懂“语义”,科学家们发明了词嵌入(Word Embedding)。看到这里我不由得再次感慨数学能力在计算机网络的应用。在机器眼里,“苹果”不是水果,而是一串多维空间里的坐标。相似的词在这个空间里离得很近,语言居然变成了一门可以用加减法计算的几何学。
有了词的表示,怎么处理长句子呢?大家想到了 RNN(循环神经网络)。 我对 RNN 架构的理解是:它就像是一个老老实实的记账员,逐字逐句地读,一边读一边把上一个词的“隐藏状态(记忆)”传给下一个词。 不过它有的致命缺陷:
- 老是忘事: 也就是书上说的“梯度消失”,传到最后,最前面的词完全被稀释掉了。
- 太慢了: 必须等上一个词读完才能读下一个,这在现在的我看来,简直白白浪费了显卡那么强大的并行计算能力。
三、 现代的进化:Transformer 架构
而真正意义上实现大模型的思考能力的是现代大模型的基石:Transformer 架构。

以前的 RNN 是一条线顺着读,而 Transformer 则是直接“跳出三界外”。我的视角下是这样理解的:
- 一口气全吞下: 它不再挨个字读,而是把一整段话同时塞进模型里计算。那怎么知道谁先谁后呢?它极其巧妙地加上了“位置编码(Positional Encoding)”,这就好比给每个字发了一个号码牌,打破了时间的限制。
- 自注意力机制(Self-Attention): 这个机制太神奇了。当它处理“苹果”这个词时,会让“苹果”和句子里所有的词去“握手”(算权重矩阵)。哪怕“手机”这个词隔了十万八千里,只要握手得分高,机器立马就知道这里指的是科技公司,而不是吃的水果。
四、总结
哪怕是千亿参数的现代大模型,它本质上依然是一个拥有极强自然语言理解(NLU)能力的“超级赛博大脑”。它懂逻辑、懂常识,但它是一个只能坐在原地“说话”的大脑。
基于今天学到的基础,我对接下来要学习的 Agent有了初步的基础: 既然我们已经有了这么聪明的“大脑”,那我们完全可以把它作为核心处理器(CPU)!
- 给它装上手脚: 如果我们用代码给大模型写好接口,让它学会调用计算器、搜索引擎或者文件系统(Tools API),它就能去真实世界里帮我们查资料、订机票了。
- 给它配个记事本: Transformer 虽然厉害但有上下文窗口限制。如果我们能外挂一个数据库当做它的“长期记忆(Memory)”,它不就能记住我上个月交代给它的工作偏好了吗?
- 教它学会规划: 面对复杂问题,让大模型先做“任务拆解”,一步步推导该用什么工具,这应该就是传说中的智能体思维链了。
路漫漫其修远兮,我的 AI 学习之旅才刚刚跨过门槛。大模型的底层原来是如此扎实的数学与工程奇迹。
部分信息可能已经过时





