1 Introduction to GenAI¶

生成式 AI（如 ChatGPT, Gemini, Claude）本质上就是大型语言模型。核心能力是 “文字接龙”（Autoregressive Generation）。

token

Token 是模型处理的最小单位。不仅是单词，也可以是字符、词组，甚至是图像或声音的编码片段。

词汇表 (Vocabulary)：模型有一个巨大的词汇表，涵盖所有可能的输出（不同语言、符号等）。

概率分布：对于每一个输入，模型会计算词汇表中每个 Token 出现的概率

模型并非天生聪明，而是通过三阶段训练学会知识与规范：

生成图片或声音本质上也是“接龙”，只是 Token 变成了图像块或声音取样点。这就是多模态生成。但是这个充满挑战，比如说要生成一张高解析度图片或一分钟语音，相当于进行百万次级的接龙运算，计算量巨大。

一个好的方法是使用 Encoder-Decoder 架构。

因为模型只是在“接龙”，它并不真正理解事实真伪。如果训练资料中没有正确资讯，它可能会根据概率编造一个看似合理但错误的答案（例如编造不存在的网址）。这种现象被称为 “幻觉”。

如果只接龙不仅会产生幻觉，也有很多限制。假如问大模型今天是几号，如果只通过大模型的推理，很明显得不到想要的结果。这就需要我们给他提供相应的上下文 Context，这样他才能做出正确的回答。

如果要让大模型拥有 “多轮对话记忆”，就将之前的对话历史重新作为输入传给模型（Context），让它继续接龙。如果对话太长超出限制，它就会“遗忘”前面的内容。

所以上下文的选择是很重要的。引出Context Engineering (上下文工程)：人类的责任是提供足够的信息（System Prompt, User Prompt），确保输入包含模型回答所需的所有背景知识。

评论区

对你有帮助的话请给我个赞和 star =>

欢迎跟我探讨！！！