大模型入门:到底什么是 LLM#
Transformer 到底是什么#
最近到处都在聊大模型、AI,感觉不了解点 LLM 都不好意思说自己学计算机的。但说实话,一开始我也是一头雾水。GPT、Transformer、Token,这些词满天飞,搜了好多资料才慢慢理出头绪。
LLM,Large Language Model,大语言模型。说白了就是一个超大的神经网络,用海量文本训练出来的,学会了"语言"这件事。你给它一段文字,它能接着往下写——本质上就是在预测下一个 Token。
底层架构叫 Transformer。2017 年 Google 那篇 “Attention is All You Need” 提出的,改变了整个 NLP 领域。

Transformer 的核心是注意力机制(Attention)。不用纠结数学细节,可以这么理解:模型处理一个词的时候,会"看"句子里所有其他词,判断谁跟它关系更密切。比如"我去银行取钱",处理"银行"时模型注意到"取钱",就知道这是金融机构不是河岸。
之前的 RNN/LSTM 按顺序一个词一个词处理,长文本又慢效果又差。Transformer 可以并行处理所有位置,效率高太多了。这也是大模型能做到几百亿参数的关键原因。
预训练和微调#
大模型训练分两个阶段。
预训练:拿海量文本数据(网页、书籍、代码、论文……),让模型学习预测下一个词。就这么简单的目标,在足够大的数据量和模型规模上,涌现出了各种能力——写代码、翻译、推理,都是"学"出来的。
微调:预训练完的模型像一个"什么都懂但不听话"的人。微调让它更符合人类期望。常见方法是 RLHF(基于人类反馈的强化学习)——人类给模型的回答打分,模型根据反馈调整行为。
ChatGPT 之所以好用,很大功劳在微调阶段。没经过微调的 base model,你问它问题它不会好好回答,只会一直"接龙"下去。
Token 和上下文窗口#
大模型不按"字"处理文本,而是按 Token。一个 Token 大概对应一个常见的词或子词片段。英文里一个单词通常 1-2 个 Token,中文一个字大概 1-2 个 Token。
上下文窗口(Context Window)是模型一次能处理的最大 Token 数。GPT-4 是 128K,Claude 支持到 200K。窗口越大,模型能"看到"的内容越多。
上下文窗口很重要——模型只能"看到"窗口以内的内容。跟它聊天聊久了,早期的对话超出窗口就被"遗忘"了。
Token 数也直接关系到使用成本。API 按 Token 收费,input 和 output 分开计价。所以写 Prompt 的时候别废话太多,能省就省。
常见模型对比#
现在主流的大模型,简单聊一下各自的特点:
GPT 系列(OpenAI):GPT-4o 综合能力很强,几乎是目前的标杆。API 收费,国内直接访问不了。
Claude 系列(Anthropic):Claude 4 / Claude 3.5 Sonnet,长文本处理很强,写代码也好使。上下文窗口大是一个优势。
Llama 系列(Meta):开源模型的代表,Llama 3 出来之后效果相当不错。可以本地跑,适合研究和二次开发。
Qwen 系列(阿里通义千问):国产开源模型里比较能打的。Qwen2.5 各种尺寸都有,7B 的小模型在笔记本上都能跑起来。
我个人的使用感受:日常用 GPT 或 Claude 都行。想折腾本地部署就选 Llama 或 Qwen。具体选哪个看场景和预算。
大模型能干什么,不能干什么#
能干的事太多了:写代码、翻译、摘要总结、问答、头脑风暴、文案创作……我现在写作业都习惯先让大模型解释一下概念,比搜 CSDN 效率高多了。
但短板也明显:
- 会胡说八道(幻觉问题):模型不是真"知道"答案,而是在"生成"看起来合理的文本。它可能编造不存在的论文、写出有 bug 的代码。用的时候一定要验证。
- 知识有截止日期:训练数据有时间限制,最近发生的事它不知道。
- 复杂推理容易翻车:简单逻辑还行,复杂数学或多步推理就容易出错。
- 没有真正的"理解":它是统计模式匹配,不是真的理解世界。虽然表现看起来像懂了,但本质不同。
话说回来,大模型的进化速度太快了。半年前的短板可能现在已经改善了不少。作为 CS 学生,我觉得了解大模型是必要的,不管以后做不做 AI 方向。这东西正在改变整个软件行业的开发方式,不能视而不见。