大模型入门：到底什么是 LLM
#

Transformer 到底是什么
#

最近到处都在聊大模型、AI，感觉不了解点 LLM 都不好意思说自己学计算机的。但说实话，一开始我也是一头雾水。GPT、Transformer、Token，这些词满天飞，搜了好多资料才慢慢理出头绪。

LLM，Large Language Model，大语言模型。说白了就是一个超大的神经网络，用海量文本训练出来的，学会了"语言"这件事。你给它一段文字，它能接着往下写——本质上就是在预测下一个 Token。

底层架构叫 Transformer。2017 年 Google 那篇 “Attention is All You Need” 提出的，改变了整个 NLP 领域。

Transformer 的核心是注意力机制（Attention）。不用纠结数学细节，可以这么理解：模型处理一个词的时候，会"看"句子里所有其他词，判断谁跟它关系更密切。比如"我去银行取钱"，处理"银行"时模型注意到"取钱"，就知道这是金融机构不是河岸。

之前的 RNN/LSTM 按顺序一个词一个词处理，长文本又慢效果又差。Transformer 可以并行处理所有位置，效率高太多了。这也是大模型能做到几百亿参数的关键原因。

大模型训练分两个阶段。

预训练：拿海量文本数据（网页、书籍、代码、论文……），让模型学习预测下一个词。就这么简单的目标，在足够大的数据量和模型规模上，涌现出了各种能力——写代码、翻译、推理，都是"学"出来的。

微调：预训练完的模型像一个"什么都懂但不听话"的人。微调让它更符合人类期望。常见方法是 RLHF（基于人类反馈的强化学习）——人类给模型的回答打分，模型根据反馈调整行为。

ChatGPT 之所以好用，很大功劳在微调阶段。没经过微调的 base model，你问它问题它不会好好回答，只会一直"接龙"下去。

大模型不按"字"处理文本，而是按 Token。一个 Token 大概对应一个常见的词或子词片段。英文里一个单词通常 1-2 个 Token，中文一个字大概 1-2 个 Token。

上下文窗口（Context Window）是模型一次能处理的最大 Token 数。GPT-4 是 128K，Claude 支持到 200K。窗口越大，模型能"看到"的内容越多。

上下文窗口很重要——模型只能"看到"窗口以内的内容。跟它聊天聊久了，早期的对话超出窗口就被"遗忘"了。

Token 数也直接关系到使用成本。API 按 Token 收费，input 和 output 分开计价。所以写 Prompt 的时候别废话太多，能省就省。

现在主流的大模型，简单聊一下各自的特点：

GPT 系列（OpenAI）：GPT-4o 综合能力很强，几乎是目前的标杆。API 收费，国内直接访问不了。

Claude 系列（Anthropic）：Claude 4 / Claude 3.5 Sonnet，长文本处理很强，写代码也好使。上下文窗口大是一个优势。

Llama 系列（Meta）：开源模型的代表，Llama 3 出来之后效果相当不错。可以本地跑，适合研究和二次开发。

Qwen 系列（阿里通义千问）：国产开源模型里比较能打的。Qwen2.5 各种尺寸都有，7B 的小模型在笔记本上都能跑起来。

我个人的使用感受：日常用 GPT 或 Claude 都行。想折腾本地部署就选 Llama 或 Qwen。具体选哪个看场景和预算。

能干的事太多了：写代码、翻译、摘要总结、问答、头脑风暴、文案创作……我现在写作业都习惯先让大模型解释一下概念，比搜 CSDN 效率高多了。

但短板也明显：

话说回来，大模型的进化速度太快了。半年前的短板可能现在已经改善了不少。作为 CS 学生，我觉得了解大模型是必要的，不管以后做不做 AI 方向。这东西正在改变整个软件行业的开发方式，不能视而不见。