这是我在这个 Substack 上的第 100 篇文章,它让我思考如何总结我写的关于如何使用 AI 的许多东西。我得出的结论是,我书中的建议仍然是我要给出的建议:只需使用 AI 来做你为工作或娱乐而做的事情,大约 10 小时,你就会发现一个惊人的数量。
但是,我确实认为对大型语言模型的工作方式有一点直觉有助于理解如何最好地使用它。我想请求我的技术读者的原谅,因为我在这里将进行简化,但这里有一些线索可以进入 AI 的“思想”:
LLM 执行下一个 token 预测
归根结底,大型语言模型是极其复杂的自动完成系统。他们使用庞大的人类语言模型来预测句子中的下一个词元。对于使用文本的模型,标记是单词或单词的一部分。许多常用词是单个词元或包含空格的词元,但其他词词被分解为多个词元。例如,一个分词器将 10 个单词的句子“This break up words (even phantasmagorically long words) into tokens”分成 20 个词元。
当您向 AI 提供提示时,您实际上是在要求它预测提示之后的下一个标记。然后,AI 获取之前编写的所有内容,通过语言的数学模型运行它,并生成序列中下一个可能出现的标记的概率。例如,如果我写“最好的宠物类型是 a”,LLM 会根据其人类语言模型预测接下来最有可能出现的标记是“狗”、“个人”、“主观”或“猫”。最有可能的实际上是狗,但 LLM 通常设置为包含一些随机性,这就是 LLM 答案有趣的原因,因此它并不总是选择最可能的标记(在大多数情况下,即使尝试消除这种随机性也无法完全消除它)。因此,我经常会得到 “dog”,但我可能会得到一个不同的词。
这些是 GPT-3.5 的实际概率,本文中的其他示例也是如此。 但是这些预测考虑了 LLM 内存中的所有内容(稍后会详细介绍内存),即使是微小的变化也会从根本上改变对接下来是什么 token 的预测。我创建了三个示例,对原始句子进行了细微的更改。如果我选择不将第一个单词大写,模型现在会说 “dog” 和 “cat” 比原来的答案更有可能,而 “fish” 则加入了前三个单词。如果我将句子中的单词 “type” 改为 “kind”,所有排名靠前的词的概率都会下降,我更有可能得到像 “calm” 或 “bunny” 这样的奇特答案。如果我在单词 “pet” 后添加一个额外的空格,那么 “dog” 甚至不在前三个预测 token 中!
但是 LLM 不只生成一个标记,而是在每个标记之后,它现在查看整个原始句子加上新标记(“The best type of pet is a dog”),并预测之后的下一个标记,然后使用整个句子加上下一个标记进行预测,依此类推。它就像火车上的汽车一样将一个 token 链接到另一个 token 。当前的 LLM 无法返回并更改之前的令牌,他们必须继续前进,一个单词接一个地添加。这会产生蝴蝶效应。如果第一个预测的词元是 “dog” 这个词,那么句子的其余部分就会这样,如果它是 “subjective” 的,那么你会得到一个完全不同的句子。两个不同答案中标记之间的任何差异都会导致截然不同的回答。
直觉: 这有助于解释为什么即使您问的问题完全相同,您也可能得到与使用相同 AI 的其他人截然不同的答案。概率的微小差异会导致非常不同的答案。它还让您了解为什么人们担心 AI 的偏见之一是它可能会根据人们的写作风格对人们做出不同的反应,因为下一个 token 的概率可能会导致更糟糕的答案。事实上,如果你以较少受教育的方式写作,一些早期的 LLM 给出的答案不太准确。
您还可以了解幻觉发生的一些原因,以及为什么它们如此有害。AI 不是从数据库中提取,而是根据其训练数据中的统计模式猜测下一个单词。这意味着它产生的东西不一定是真的(事实上,鉴于此,LLM 的许多惊喜之一是它们经常是正确的),但是,即使它提供了虚假信息,它听起来也可能是合理的。这使得很难判断它何时是编造的。
考虑令牌以了解 AI 为什么对某个主题固执己见也很有帮助。如果第一个预测是 “dog”,则 AI 更有可能继续生成有关狗有多棒的文本,因为这些标记的可能性更大。但是,如果它是“主观的”,即使你推动它,它也不太可能给你一个意见。此外,一旦 AI 写了什么东西,它就不能回头了,所以它需要在将来证明(或解释或撒谎)该陈述。我喜欢 Rohit Krishnan 分享的这个例子,你可以看到 AI 犯了一个错误,但随后试图证明结果的合理性。
警告: 说“AI 只是下一个 token 预测”在网上有点开玩笑,因为它并不能真正帮助我们理解为什么 AI 可以产生如此看似有创意、新颖和有趣的结果。如果你已经阅读了我的帖子一段时间,你就会意识到 AI 取得了令人印象深刻的结果,直观地说,我们不会期望自动完成系统取得这些结果。
Claude 按需制作主题 Excel 公式,并以令人愉快的方式解释它们。Next token prediction 能够产生许多意想不到的结果。
LLM 根据其训练数据进行预测
LLM 从哪里获得构建语言模型的材料?从它被训练的数据来看。现代 LLM 是在极其庞大的数据集上进行训练的,包括大量的 Web 和所有可能的免费书籍或档案(加上一些几乎可以肯定包含受版权保护的作品的档案)。AI 公司在使用这些信息之前基本上没有征求许可,但撇开法律和道德问题不谈,将训练数据概念化可能会有所帮助。
大多数主要 AI 公司都使用原始 Pile 数据集进行训练,其中大约 1/3 基于互联网,1/3 来自科学论文,其余部分用于书籍、编码、聊天等。因此,您的直觉通常是一个很好的指导 - 如果您期望某些内容在互联网或公共领域,那么它很可能在训练数据中。但我们可以更细致一些。例如,多亏了这项研究,我们对哪些小说最常出现在 GPT-4 的训练数据中有一个大致的了解,GPT-4 主要跟踪网络上最常见的书籍(前 20 名中的许多书籍都没有版权,除了一些明显的例外,这些书籍非常盗版)。
请记住,LLM 使用语言的统计模型,它们不会从数据库中提取。因此,训练数据中的一项工作越常见,AI 就越有可能在出现提示时准确“回忆”该数据。当我从其训练数据中最虚构的普通书籍 - Alice in Wonderland 中引用一句话时,你可以在工作中看到这一点。它使下一句完全正确,你可以看到几乎所有可能的下一个标记都会沿着原始段落的行继续。
让我们尝试一些不同的东西,来自一位相当不起眼的中世纪科幻小说作家科德韦纳·史密斯 (Cordwainer Smith) 的一段话,他不寻常的写作风格部分受到他在中国的时光(他是孙中山的教子)和他对多种语言的了解所塑造的。他的一个故事开始了:回到安方,回到安方的和平广场,安方的起点,万物开始的地方。 然后它继续说:它很光明。红色方块,死方块,透明方块,黄色的太阳下。如果我给 AI 第一部分,看看概率,它几乎不可能产生正确的下一个单词 “Bright”。相反,也许是受到神话语言和安方可能被中国人注册的事实的推动(它实际上是对德语中开始一词的玩笑),它创造了一段关于宗教旅程的段落。
直觉: 如果您尝试使用像 Google 这样的 LLM,那么 LLM 不直接调用文本的事实会令人沮丧,但 LLM 不像 Google。他们能够制作原创材料,而且,即使他们试图逐字逐句地给你爱丽丝梦游仙境,也会随机出现细微的差异,最终故事会有所不同。但是,了解训练数据中的内容可以通过多种方式为您提供帮助。
首先,它可以帮助您了解 AI 擅长什么。任何在其训练数据中常见的文档或写作风格都可能是 AI 非常擅长制作的东西。但是,更有趣的是,它可以帮助您思考如何从 AI 获得更多原创作品。通过你的提示将其推送到其概率空间的更不寻常的部分,你会得到与其他人截然不同的答案。要求 AI 以 Walter Pater 的风格编写备忘录会比要求专业备忘录(训练数据中有数百万个)给你更有趣的答案(和过度的答案)。
警告: 与某些人的看法相反,AI 很少从其训练数据中逐字生成大量文本。AI 提供的句子通常是完全新颖的,是从它学习的语言模式推断出来的。有时,模型可能会复制它从训练数据中记住的特定事实或短语,但更多时候,它会从学习的模式中泛化以生成新内容。
在训练之外,精心设计的提示可以指导模型生成更多原创或特定于任务的内容,展示一种称为“上下文学习”的能力。这允许 LLM 在对话中学习新任务,即使它们实际上并没有更新其底层模型,正如您将看到的。
LLM 的内存有限
鉴于我们对培训的讨论程度,得知 AI 通常不会从与您的对话中学到任何永久的东西,这可能会让人感到惊讶。训练通常是一个离散的事件,而不是一直发生的事情。如果您开启了隐私功能,您的聊天记录根本不会输入到训练数据中,但是,即使您的数据将用于训练,训练过程也不会连续。相反,聊天发生在所谓的 “上下文窗口” 内。这个上下文窗口就像 AI 的短期记忆 - 它是 AI 在生成下一个响应时可以考虑的先前文本的数量。只要您停留在单个聊天会话中并且对话符合上下文窗口,AI 就会跟踪正在发生的事情,但一旦您开始新的聊天,上一个聊天的记忆通常不会结转。您正在重新开始。唯一的例外是 ChatGPT 有限的“记忆”功能,它在记忆文件中记下关于您的零散事实,并将其插入每次对话的上下文窗口中。否则,AI 不会在聊天之间了解您。
即使在我写这篇文章的时候,我知道我会收到一些人的评论,他们认为我错了,以及来自 AI 的见解的描述,这些见解似乎违反了这条规则。人们经常被愚弄,因为 AI 是一个非常好的猜测者,西蒙·威利森 (Simon Willison) 在他关于向 AI 寻求自我洞察主题的精彩文章中详细解释了。值得一读。
直觉: 思考 AI 对你的了解和不了解会有所帮助。不要指望根据 AI 没有的信息获得深入的见解,但如果你推动它,它就会编造出听起来很有洞察力的东西。了解记忆的工作原理后,您还可以了解为什么当 AI 卡住时,或者您不喜欢对话中的事情发展方向时,开始新的聊天会有所帮助。此外,如果您使用 ChatGPT,您可能希望每隔一段时间检查一下并清理您的记忆。
警告: AI 的上下文窗口越来越长(Google 的 Gemini 可以在内存中保存 200 万个 token ),AI 公司希望使用其模型的体验感觉很个性化。我希望我们会看到更多技巧,让 AI 在即将实施的对话中记住关于您的事情。
所有这些都只是有点帮助
我们仍然没有一个确切的答案,关于 LLM 如何运作的这些基本原则是如何结合在一起,形成一个似乎比大多数人更有创造力的系统,我们喜欢与之交谈,并且在从公司战略到医学的任务中做得非常好。没有手册列出 AI 在哪些方面做得好或可能在哪些方面出错,我们只能从底层技术本身看出这么多。
了解令牌预测、训练数据和内存约束可以让我们了解幕后情况,但它并不能完全解释舞台上发生的魔术。也就是说,这些知识可以帮助您将 AI 推向更有趣的方向。想要更多原创作品吗?尝试在训练数据中转向不太常见的区域的提示。陷入对话的陈规?记住上下文窗口并重新开始。
但理解 AI 的真正方法是使用它。好多。在大约 10 个小时的时间里,只用 AI 做一些你为了工作或娱乐而做的事情。戳它,戳它,问它奇怪的问题。看看它在哪里闪耀,在哪里跌跌撞撞。您的实践经验将比任何文章(即使是这篇长篇文章)都教给您更多。您将了解有关如何有效使用 AI 的大量知识,您甚至可能会对自己的发现感到惊讶。