Mobile wallpaper 1Mobile wallpaper 2Mobile wallpaper 3Mobile wallpaper 4
1386 字
7 分钟
关于AI大模型基础的一些基础理论见解

今天把 Datawhale 开源教程《Hello-Agents》的第三章——大语言模型基础给读完了。作为一个刚接触 AI 不久的小白,老实说,刚开始看到那些数学公式和模型架构时,脑子真的是发懵的。但一点点啃下来,再结合教程里的图解,我好像慢慢摸到了一点点门道。

在这里便是记录一下我的一点“理解”,希望能把这些高深的原理用我自己的白话梳理清楚,也希望自己在日后的学习中可以方便复盘,举一反三。因为自学入门,如果理解有偏差,也请各位大佬多多指教!🙏


一、 机器到底是怎么“学说话”的?#

以前我总觉得 ChatGPT 像是有个灵魂,但今天看了教程才知道,原来它的底层逻辑其实是一场超大规模的“文字接龙”游戏——预测下一个词语出现的概率

书里有一个很基础的连乘公式:

P(S)=P(w1)P(w2w1)P(w3w1,w2)P(wmw1,...,wm1)P(S) = P(w_1) \cdot P(w_2 \mid w_1) \cdot P(w_3 \mid w_1, w_2) \cdots P(w_m \mid w_1, ..., w_{m-1})

这个公式的含义:机器在说第 100 个字的时候,其实是在疯狂翻阅它脑子里的字典,看看在前面 99 个字都已经出现的条件下,哪个字接在后面的概率最大。

但在早年间,计算资源很差,根本算不过来这么长的前置条件。所以前辈们用了一个无奈的妥协——马尔可夫假设(N-gram模型)

P(wiw1,...,wi1)P(wiwin+1,...,wi1)P(w_i \mid w_1, ..., w_{i-1}) \approx P(w_i \mid w_{i-n+1}, ..., w_{i-1})

这其实就是让机器“偷懒”,只看前面的两三个词。这也难怪以前的机器人总感觉像个“只有七秒记忆的小金鱼”,因为它们本质上只是在做短期的死记硬背,根本不懂整句话的逻辑。


二、 努力记住更多上下文(从词嵌入到 RNN 的演进)#

为了让机器真的懂“语义”,科学家们发明了词嵌入(Word Embedding)。看到这里我不由得再次感慨数学能力在计算机网络的应用。在机器眼里,“苹果”不是水果,而是一串多维空间里的坐标。相似的词在这个空间里离得很近,语言居然变成了一门可以用加减法计算的几何学。

有了词的表示,怎么处理长句子呢?大家想到了 RNN(循环神经网络)。 我对 RNN 架构的理解是:它就像是一个老老实实的记账员,逐字逐句地读,一边读一边把上一个词的“隐藏状态(记忆)”传给下一个词。 不过它有的致命缺陷:

  1. 老是忘事: 也就是书上说的“梯度消失”,传到最后,最前面的词完全被稀释掉了。
  2. 太慢了: 必须等上一个词读完才能读下一个,这在现在的我看来,简直白白浪费了显卡那么强大的并行计算能力。

三、 现代的进化:Transformer 架构#

而真正意义上实现大模型的思考能力的是现代大模型的基石:Transformer 架构基础架构示意图

以前的 RNN 是一条线顺着读,而 Transformer 则是直接“跳出三界外”。我的视角下是这样理解的:

  1. 一口气全吞下: 它不再挨个字读,而是把一整段话同时塞进模型里计算。那怎么知道谁先谁后呢?它极其巧妙地加上了“位置编码(Positional Encoding)”,这就好比给每个字发了一个号码牌,打破了时间的限制。
  2. 自注意力机制(Self-Attention): 这个机制太神奇了。当它处理“苹果”这个词时,会让“苹果”和句子里所有的词去“握手”(算权重矩阵)。哪怕“手机”这个词隔了十万八千里,只要握手得分高,机器立马就知道这里指的是科技公司,而不是吃的水果。

四、总结#

哪怕是千亿参数的现代大模型,它本质上依然是一个拥有极强自然语言理解(NLU)能力的“超级赛博大脑”。它懂逻辑、懂常识,但它是一个只能坐在原地“说话”的大脑。

基于今天学到的基础,我对接下来要学习的 Agent有了初步的基础: 既然我们已经有了这么聪明的“大脑”,那我们完全可以把它作为核心处理器(CPU)!

  1. 给它装上手脚: 如果我们用代码给大模型写好接口,让它学会调用计算器、搜索引擎或者文件系统(Tools API),它就能去真实世界里帮我们查资料、订机票了。
  2. 给它配个记事本: Transformer 虽然厉害但有上下文窗口限制。如果我们能外挂一个数据库当做它的“长期记忆(Memory)”,它不就能记住我上个月交代给它的工作偏好了吗?
  3. 教它学会规划: 面对复杂问题,让大模型先做“任务拆解”,一步步推导该用什么工具,这应该就是传说中的智能体思维链了。

路漫漫其修远兮,我的 AI 学习之旅才刚刚跨过门槛。大模型的底层原来是如此扎实的数学与工程奇迹。

关于AI大模型基础的一些基础理论见解
https://qiandaos.top/posts/hello-agent/agent-base/
作者
千岛寒流
发布于
2025-10-10
许可协议
CC BY-NC-SA 4.0

部分信息可能已经过时

封面
Sample Song
Sample Artist
封面
Sample Song
Sample Artist
0:00 / 0:00