2023 年是大型语言模型(LLM)的突破年。我认为称它们为 AI 是可以的 —— 它们是迄今为止在从 1950 年代开始的人工智能学术领域中最新、(目前)最有趣的发展。
以下是我们试图汇总这些亮点的一些要点!
- 大型语言模型
- 它们实际上相当容易构建
- 自己的设备上运行 LLM
- 构建自己的精调模型
- 我们尚不知道如何构建 GPT-4
- 基于 Vibes 的开发
- LLM 既聪明又非常愚蠢
- 轻信性是最大的未解之谜
- 代码可能是最好的应用
- 这个空间的伦理问题依然极其复杂
大型语言模型
在过去的 24-36 个月里,我们的物种发现你可以拿一个巨大的文本语料库,通过一堆图形处理器来处理它,并用它来创建一种令人着迷的新型软件。 LLM 能做很多事情。它们可以回答问题、总结文件、将一种语言翻译成另一种语言、提取信息,甚至能写出相当称职的代码。 它们还可以帮你在作业中作弊,生成无限量的虚假内容,并用于各种不怀好意的目的。 到目前为止,我认为它们是一种正面的影响。我在个人层面上使用它们以各种不同的方式来提高我的工作效率(并且娱乐自己)。我认为那些学会如何有效使用它们的人可以极大地提高生活质量。 许多人尚未对它们的价值表示认同!有些人认为它们的负面影响超过了正面影响,有些人认为它们全是热闹,甚至有些人认为它们代表了对人类的存在威胁。
它们实际上相当容易构建
今年我们对 LLM 的最令人惊讶的发现是,它们实际上相当容易构建。
直觉上,人们可能会认为这么强大的系统需要数百万行复杂代码。但事实证明,几百行 Python 代码确实足够训练一个基本版本!
最重要的是训练数据。你需要大量的数据才能使这些东西运行,训练数据的数量和质量似乎是决定最终模型好坏的最重要因素。
如果你能收集到正确的数据,并且负担得起用来训练的图形处理器的费用,你就可以构建一个 LLM。
一年前,唯一发布了一个普遍有用的 LLM 的组织是 OpenAI。而现在,我们已经看到了由 Anthropic、Mistral、Google、Meta、EleutherAI、Stability AI、阿布扎比的 TII(Falcon)、微软研究、xAI、Replit、百度和其他一些组织发布的优于 GPT-3 类别的模型。
训练成本(硬件和电力成本)仍然是相当大的 —— 最初是数百万美元,但似乎已经降到了几万美元。微软的 Phi-2 声称使用了“96 个 A100 GPU 运行了 14 天”,按照当前 Lambda 定价约为 3.5 万美元。
所以训练一个 LLM 仍然不是一个爱好者可以负担得起的事情,但它不再是超级富豪的专属领域了。我喜欢将训练 LLM 的难度比作建造悬索桥的难度 —— 不是琐碎的事情,但全世界数百个国家都已经知道如何做了。
在自己的设备上运行 LLM
在今年的一月份,我以为要过很多年我才能在自己的电脑上运行一个有用的 LLM。GPT-3 和 3.5 几乎是唯一的选择,即使模型权重可用,我也认为需要一台价值 1 万美元以上的服务器才能运行它们。
然后在二月份,Meta 发布了 Llama。几周后的三月份,Georgi Gerganov 发布了代码,在 MacBook 上运行了它。
我写了一篇关于大型语言模型正在经历稳定扩散的文章,事后看来那是一个非常正确的判断!
这引发了一轮创新风暴,进一步加速了七月份 Meta 发布 Llama 2 —— 这是一个改进的版本,关键之处在于允许商业使用。
如今有成千上万的 LLM 可以在本地设备上运行,各种不同的设备都可以。
我在我的笔记本上运行了一堆模型。我在 iPhone 上运行 Mistral 7B(一个令人惊讶地好的模型)。你可以安装多种应用程序来获得自己的本地完全私密的 LLM。我的 LLM 项目提供了一个用于通过插件运行一系列不同模型的 CLI 工具。
你甚至可以在最新版本的 Chrome 中完全在浏览器中运行它们使用 WebAssembly!
构建自己的精调模型
我之前说过,构建一个 LLM 对爱好者来说仍然是不可触及的。这对于从头开始训练来说可能是正确的,但精调其中一个模型就是另一回事了。
现在有一个有趣的生态系统,人们在这些基础上训练自己的模型,发布这些模型,构建精调数据集并分享这些数据集。
Hugging Face 开放的 LLM 排行榜就是追踪这些的一个地方。我甚至无法尝试计数,而且任何计数都会在几小时内过时。
任何时候最好的公开许可的 LLM 很少是基础模型:相反,它是最近发现了最佳精调数据组合的社区模型。
这是开放模型胜过封闭模型的一个巨大优势:封闭的托管模型没有数千名研究人员和爱好者在全球范围内合作和竞争来改进它们。
我们尚不知道如何构建 GPT-4
令人沮丧的是,尽管今年我们有了巨大的进步,但我们尚未看到一种优于 GPT-4 的替代模型。
OpenAI 在三月份发布了 GPT-4,尽管后来发现我们在二月份 Microsoft 在新 Bing 中使用了它作为一部分。
这可能会在接下来的几周内改变:Google 的 Gemini Ultra 有很大的声称,但我们还不能试用它。
Mistral 背后的团队也在努力超越 GPT-4,考虑到他们的第一个公开模型仅于九月份发布,之后又发布了两个重要的改进,他们的成绩已经非常出色。
不过,我对目前还没有人能超越这款已经接近一年的 GPT-4 感到惊讶。OpenAI 显然还有一些实质性的技巧尚未分享。
基于 Vibes 的开发
作为一名计算机科学家和软件工程师,LLM 让人感到愤怒。
即使是开放许可的模型仍然是世界上最复杂的黑匣子。我们对它们能做什么、它们究竟如何工作以及如何最好地控制它们仍知之甚少。
我习惯于编程,那里电脑会严格按照我告诉它们的内容执行。引导一个 LLM 显然不是这样的!
最糟糕的部分是评估它们的挑战。
虽然有很多基准测试,但没有一个基准测试会告诉你,对于特定任务,LLM 是否“感觉”正确。
我发现我需要与 LLM 一起工作几周才能对它的优势和劣势有一个好的直觉。这极大地限制了我自己能评估的数量!
对我来说最令人沮丧的事情在于个别提示的层面。
有时我会调整提示,并大写其中的一些单词,以强调我真的希望它输出有效的 Markdown 或类似的内容。大写这些单词是否有影响?我仍然没有一个好的方法来弄清楚这一点。
我们最终得到的其实是基于 Vibes 的开发。从头到尾都是基于直觉。
我希望在 2024 年看到我们不再只是基于直觉了!
LLM 既聪明又非常愚蠢
LLM(大型语言模型)一方面展现出了令人惊叹的智能,但另一方面也表现出了极度愚蠢的一面。 首先,LLM 的新发现不断超出预期,包括训练模型的人士也未曾预料到的领域,这通常非常有趣! 然而,有时为了让这些模型表现正常,需要采取的方法却令人匪夷所思。 例如,ChatGPT 会在 12 月变得懒散吗?因为其隐藏系统提示包含当前日期,而其训练数据显示人们在假期临近时提供的答案较少有用? 坦率地说:“可能”!没有人能完全确定,但如果你给它不同的日期,它的回答可能会稍微冗长。 有时它会省略代码部分,让你来填写,但如果你告诉它你因为没有手指无法打字,它会代替你生成完整的代码。 还有许多类似的例子。向它提供现金小费以获得更好的答案。告诉它你的职业生涯取决于它。给予它积极的鼓励。这些方法看似愚蠢,但却有效! 易受骗性是目前最大的未解决问题# 我在去年九月创造了“提示注入”这个术语。 15 个月后,我很遗憾地发现我们仍然未能找到一个牢固可靠的解决方案。 我已经对此写了大量内容。 除了特定的安全漏洞类别外,我开始将这视为易受骗性的一个更广泛问题。 语言模型是易受骗的。它们“相信”我们告诉它们的东西——训练数据、微调数据和提示中的内容。 为了成为对我们有用的工具,我们需要它们相信我们输入的内容! 但事实证明,我们想要构建的很多东西都不需要它们如此轻信。 每个人都想要一个 AI 个人助理。如果你雇用一个现实中的个人助理,他们对任何人告诉他们的一切都深信不疑,你很快就会发现他们对你的生活产生积极影响的能力受到严重限制。 很多人对 AI 代理感到兴奋——这是一个令人烦恼的模糊术语,似乎意指“可以代表你行动的 AI 系统”。我们整年都在讨论它们,但我几乎没有看到它们在实际生产中运行的例子,尽管有很多令人兴奋的原型。 我认为这是因为易受骗性。 我们能解决这个问题吗?老实说,我开始怀疑你不能完全解决易受骗性问题而不实现 AGI。所以在那些代理梦想真正开始实现之前,也许还需要相当长的时间!
代码可能是最佳应用
随着一年的过程,越来越清楚的是,编写代码是 LLM(大型语言模型)最擅长的事情之一。
如果你思考一下它们的功能,这并不是多么令人惊讶。编程语言(如 Python 和 JavaScript)的语法规则比中文、西班牙语或英语的语法规则要简单得多。
但它们如此高效仍然让我感到惊讶。
LLM 的一个巨大弱点是它们有幻觉的倾向——会想象与现实不符的事物。你本以为这对于代码来说会是一个特别严重的问题——如果 LLM 幻觉出一个不存在的方法,那么代码应该是无用的。
但事实是…你可以运行生成的代码来检查它是否正确。而且有了像 ChatGPT Code Interpreter 这样的模式,LLM 可以执行代码本身,处理错误消息,然后重写代码并不断尝试,直到它能正确运行!
因此,对于代码生成,幻觉问题要比其他问题小得多。如果我们能有类似于代码解释器来对自然语言进行事实核查就好了!
作为软件工程师,我们应该如何看待这个问题呢?
一方面,这似乎是一个威胁:如果 ChatGPT 可以为你编写代码,谁还需要程序员呢?
另一方面,作为软件工程师,我们比其他任何人都更适合利用这一点。我们都曾拥有过奇怪的编码实习生——我们可以利用自己的深厚知识,促使他们更有效地解决编码问题,胜过其他任何人。
这个领域的伦理问题仍然非常复杂
去年九月,我和 Andy Baio 发布了关于稳定扩散背后未授权训练数据的首个重要报道。
此后,几乎每个主要的 LLM(以及大多数图像生成模型)都是在未经授权的数据上进行训练的。
就在本周,纽约时报对 OpenAI 和微软提起了一场具有里程碑意义的诉讼,针对的就是这个问题。这份 69 页的 PDF 真的值得一读——特别是前几页,以一种令人惊讶地易于理解的方式阐明了问题。文件的其余部分包括了我在任何地方读到的关于 LLM 是什么、它们如何工作以及如何构建的最清晰的解释。
这里的法律争论非常复杂。虽然我不是律师,但我认为这个案子不会轻易决定。无论结果如何,我预计这个案件将深刻影响未来这项技术的发展。
法律并不等同于伦理。在没有他们的许可下训练模型,然后将这些模型用于与这些人竞争的方式,这样做是否合适呢?
随着 AI 模型产生的结果质量在今年提高,这些问题变得更加紧迫。
这些模型对人类社会的影响已经巨大,尽管很难客观地衡量。
肯定有很多未被报道的故事。我希望 2024 年会有大量专门涉及这个主题的新闻报道。