2024 年我们对大语言模型的认知

原文为 Things we learned about LLMs in 2024，本文使用 Gemini 2.0 Flash Experimental 进行翻译。

The original article is Things we learned about LLMs in 2024, and this article is translated using Gemini 2.0 Flash Experimental.

在 2024 年，大型语言模型领域发生了翻天覆地的变化。本文将回顾过去 12 个月里我们对该领域的新认知，并尝试总结关键趋势和转折点。

这是我对 2023 年回顾的续篇。

GPT-4 的壁垒被全面突破

在 2023 年 12 月的回顾中，我曾写道我们还不知道如何构建 GPT-4——当时 OpenAI 最好的模型已经发布近一年，但还没有其他 AI 实验室能做出更好的模型。OpenAI 究竟掌握了什么我们不知道的秘密？

令我欣慰的是，在过去的 12 个月里，这种情况已彻底改变。目前，在 Chatbot Arena 排行榜上，已有 18 家机构的 70 个模型排名高于 2023 年 3 月发布的初代 GPT-4（即榜单上的 GPT-4-0314）。

AI 模型排名对比表格截图。表格标题：排名 (UB)、排名 (StyleCtrl)、模型、竞技场得分、95% 置信区间、投票数、机构、许可证。展示了 12 个模型，包括 GLM-4-0520、Llama-3-70B-Instruct、Gemini-1.5-Flash-8B-Exp-0827，以及排名、得分和许可详情。模型排名从 52 到 69 不等，竞技场得分在 1186 到 1207 之间。

其中最早的是 Google 的 Gemini 1.5 Pro，于 2 月发布。除了达到 GPT-4 级别的输出能力外，它还为该领域引入了几项全新功能，最引人注目的是其 100 万（后来增至 200 万）token 的输入上下文长度，以及视频输入能力。

我当时在 Gemini Pro 1.5 的杀手级应用是视频一文中对此进行了介绍，这让我在 5 月份的 Google I/O 开幕主题演讲中短暂地露了一小脸。

Gemini 1.5 Pro 也体现了 2024 年的一个关键趋势：更长的上下文长度。去年，大多数模型的上下文长度为 4,096 或 8,192 个 token，Claude 2.1 是个例外，它支持 200,000 个 token。如今，所有主流供应商都推出了支持 100,000+ token 的模型，而 Google 的 Gemini 系列更是支持高达 200 万个 token。

更长的输入极大地扩展了 LLM 可以解决的问题范围：你现在可以输入整本书并就其内容提问，更重要的是，你可以输入大量示例代码来帮助模型正确解决编程问题。对我来说，涉及长输入的 LLM 用例远比仅仅依赖模型权重中已有信息的短提示有趣得多。我的许多工具都是使用这种模式构建的。

回到那些超越 GPT-4 的模型：Anthropic 的 Claude 3 系列于 3 月发布，Claude 3 Opus 迅速成为我日常使用的首选。他们在 6 月份发布了 Claude 3.5 Sonnet，进一步提升了性能——这款模型在六个月后仍然是我的最爱（尽管它在 10 月 22 日进行了一次重大升级，但令人困惑的是，版本号仍然是 3.5。Anthropic 的粉丝们后来称其为 Claude 3.6）。

还有其他一些模型。如果你现在浏览 Chatbot Arena 排行榜——它仍然是基于直觉评估模型最有效的地方——你会发现 GPT-4-0314 已经跌至第 70 位左右。排名前 18 的机构分别是 Google、OpenAI、阿里巴巴、Anthropic、Meta、Reka AI、01 AI、亚马逊、Cohere、DeepSeek、英伟达、Mistral、NexusFlow、智谱 AI、xAI、AI21 Labs、普林斯顿大学和腾讯。

在 2023 年，训练一个超越 GPT-4 的模型是一件大事。而在 2024 年，这已经算不上什么特别了不起的成就了，尽管我个人仍然会为任何新机构加入这个行列而感到高兴。

部分 GPT-4 级模型已可在我的笔记本电脑上运行

我个人的笔记本电脑是 2023 年的 64GB M2 MacBook Pro。它性能强劲，但毕竟也快两年了——关键是，自从 2023 年 3 月我第一次在电脑上运行 LLM 以来，我一直使用这台笔记本电脑（参见大型语言模型正迎来它们的 Stable Diffusion 时刻）。

去年 3 月，这台笔记本电脑还只能勉强运行 GPT-3 级别的模型，而现在它已经可以运行多个 GPT-4 级别的模型了！以下是我的一些记录：

Qwen2.5-Coder-32B 是一款可以在我的 Mac 上运行且代码能力出色的 LLM 介绍了 11 月份发布的 Qwen2.5-Coder-32B——这是一款采用 Apache 2.0 许可证的模型！
我现在可以在我的笔记本电脑上运行 GPT-4 级模型了介绍了运行 Meta 的 Llama 3.3 70B（12 月发布）的情况

这仍然让我感到震惊。我原以为具有 GPT-4 能力和输出质量的模型需要配备一个或多个价值 40,000 美元以上 GPU 的数据中心级服务器。

这些模型占用了我 64GB 内存的很大一部分，以至于我并不经常运行它们——它们没有给其他应用留下太多空间。

它们能够运行这一事实证明了我们在过去一年中在训练和推理性能方面取得的令人难以置信的进步。事实证明，在模型效率方面还有很多唾手可得的成果。我预计未来还会有更多。

Meta 的 Llama 3.2 模型值得特别一提。它们可能还达不到 GPT-4 的水平，但其 1B 和 3B 的参数规模却展现出了远超其体量的能力。我使用免费的 MLC Chat iOS 应用在我的 iPhone 上运行 Llama 3.2 3B，对于其不到 2GB 的小巧体积来说，它的能力令人震惊。试着启动它并要求它提供“一部 Netflix 圣诞电影的情节大纲，讲述一位数据记者爱上一位当地陶艺家的故事”。以下是我得到的结果，速度达到了每秒 20 个 token：

MLC Chat：Llama - [系统] 准备好聊天了。一部 Netflix 圣诞电影的情节大纲，讲述一位数据记者爱上一位当地陶艺家的故事。显示为 Markdown 已开启。以下是一部 Netflix 圣诞电影的情节大纲：标题：“陶艺之恋” 情节大纲：我们见到了我们的主角杰西卡，一位刚刚回到家乡柳溪镇的数据记者，这是一个坐落在白雪皑皑的山脉中的迷人小镇。她回来是为了撰写一篇关于该镇历史以及中产阶级化对当地社区影响的报道。

这是其余的对话记录。它平淡无奇，但我的手机现在可以向 Netflix 推销平淡无奇的圣诞电影了！

得益于竞争和效率提升，LLM 价格大幅下降

在过去的 12 个月里，通过顶级托管 LLM 运行提示的成本急剧下降。

2023 年 12 月（这是 OpenAI 定价页面的互联网档案馆存档），OpenAI 对 GPT-4 的收费为每百万输入 token 30 美元，对当时新推出的 GPT-4 Turbo 收费为每百万 token 10 美元，对 GPT-3.5 Turbo 收费为每百万 token 1 美元。

如今，每百万 token 30 美元可以让你使用 OpenAI 最昂贵的模型 o1。GPT-4o 的价格为 2.50 美元（比 GPT-4 便宜 12 倍），GPT-4o mini 的价格为每百万 token 0.15 美元——比 GPT-3.5 便宜近 7 倍，而且功能强大得多。

其他模型提供商的收费甚至更低。Anthropic 的 Claude 3 Haiku（3 月份发布，但仍然是他们最便宜的模型）每百万 token 0.25 美元。Google 的 Gemini 1.5 Flash 每百万 token 0.075 美元，他们的 Gemini 1.5 Flash 8B 每百万 token 0.0375 美元——比去年的 GPT-3.5 Turbo 便宜 27 倍。

我一直在我的 llm-pricing 标签下跟踪这些价格变化。

这些价格下降是由两个因素驱动的：竞争加剧和效率提高。对于所有关心 LLM 环境影响的人来说，效率的提升非常重要。这些价格下降与运行提示所消耗的能量直接相关。

关于大型 AI 数据中心建设的环境影响，仍然有很多值得担忧的地方，但许多关于单个提示能源成本的担忧已不再可信。

这里有一个有趣的计算：使用 Google 最便宜的模型 Gemini 1.5 Flash 8B（10 月发布）为我的个人照片库中的 68,000 张照片生成简短描述需要多少成本？

每张照片需要 260 个输入 token 和大约 100 个输出 token。

260 * 68,000 = 17,680,000 个输入 token 17,680,000 * 0.0375 美元/百万 = 0.66 美元 100 * 68,000 = 6,800,000 个输出 token 6,800,000 * 0.15 美元/百万 = 1.02 美元

处理 68,000 张图像的总成本为 1.68 美元。这便宜得离谱，我算了三遍才确认我算对了。

这些描述的质量如何？以下是我通过此命令获得的结果：

llm -m gemini-1.5-flash-8b-latest describe -a IMG_1825.jpeg

针对这张在加州科学院拍摄的蝴蝶照片：

两只蝴蝶在红色托盘上进食的照片

一个浅盘子，可能是蜂鸟或蝴蝶喂食器，是红色的。盘子里可以看到橙子切片。

喂食器里有两只蝴蝶，一只是深棕色/黑色的蝴蝶，带有白色/奶油色的斑纹。另一只是较大的棕色蝴蝶，带有浅棕色、米色和黑色斑纹，包括明显的眼斑。较大的棕色蝴蝶似乎正在吃水果。

260 个输入 token，92 个输出 token。成本约为 0.0024 美分（不到 1 美分的 1/400）。

这种效率的提高和价格的下降是我在 2024 年最喜欢的趋势。我希望以更低的能源成本获得 LLM 的效用，看起来我们正在实现这一目标。

多模态视觉已成主流，音频和视频应用初露端倪

我上面提到的蝴蝶例子说明了 2024 年的另一个关键趋势：多模态 LLM 的兴起。

一年前，这类模型最著名的例子是 2023 年 11 月在 OpenAI 的 DevDay 上发布的 GPT-4 Vision。Google 的多模态 Gemini 1.0 于 2023 年 12 月 7 日发布，因此它也（刚好）属于 2023 年的范畴。

在 2024 年，几乎所有重要的模型供应商都发布了多模态模型。我们看到了 Anthropic 的 Claude 3 系列在 3 月份发布，Gemini 1.5 Pro 在 4 月份发布（支持图像、音频和视频），然后在 9 月份发布了 Qwen2-VL 和 Mistral 的 Pixtral 12B 以及 Meta 的 Llama 3.2 11B 和 90B 视觉模型。我们在 10 月份从 OpenAI 获得了音频输入和输出，然后在 11 月份看到了来自 Hugging Face 的 SmolVLM，12 月份看到了来自 Amazon Nova 的图像和视频模型。

10 月份，我升级了我的 LLM CLI 工具，通过附件支持多模态模型。它现在有一系列针对不同视觉模型的插件。

我认为那些抱怨 LLM 改进速度放缓的人往往忽略了这些多模态模型的巨大进步。能够针对图像（以及音频和视频）运行提示是一种应用这些模型的全新且有趣的方式。

语音和实时摄像头模式让科幻成为现实

已经开始出现的音频和实时视频模式值得特别一提。

与 ChatGPT 对话的功能于 2023 年 9 月首次出现，但这主要是一种错觉：OpenAI 使用了他们出色的 Whisper 语音转文本模型和一个新的文本转语音模型（创造性地命名为 tts-1）来实现与 ChatGPT 移动应用的对话，但实际的模型只能看到文本。

5 月 13 日发布的 GPT-4o 包含了一个全新语音模式的演示，其中真正的多模态 GPT-4o（o 代表“omni”）模型可以接受音频输入并输出令人难以置信的逼真语音，而无需单独的 TTS 或 STT 模型。

该演示听起来与斯嘉丽·约翰逊的声音非常相似… 在她提出投诉后，演示中的声音 Skye 从未出现在生产产品中。

在最初的演示之后延迟发布新的语音模式引起了很多混乱。我在 ChatGPT 的“4o”模式尚未运行新功能一文中对此进行了介绍。

当 ChatGPT 高级语音模式最终推出时（从 8 月到 9 月缓慢推出），它非常壮观。我在遛狗时广泛使用它，语调的改进极大地提升了体验。我还尝试了 OpenAI 音频 API，并从中获得了许多乐趣。

更有趣的是：高级语音模式可以模仿口音！以下是我告诉它我需要你假装成一只口音浓重的俄罗斯加州棕鹈鹕，但你只跟我说西班牙语时发生的情况。

OpenAI 并不是唯一拥有多模态音频模型的公司。Google 的 Gemini 也可以接受音频输入，Google Gemini 应用现在可以像 ChatGPT 一样说话。亚马逊还预先宣布了 Amazon Nova 的语音模式，但预计将在 2025 年第一季度推出。

Google 的 NotebookLM 于 9 月发布，它通过生成两个“播客主持人”之间关于你输入的任何内容的逼真对话，将音频输出提升到了一个新的水平。他们后来添加了自定义说明，所以我自然而然地把它们变成了鹈鹕：

您的浏览器不支持音频元素。

最近的进展同样来自 12 月（12 月发生了很多事情）是实时视频。ChatGPT 语音模式现在提供了与模型共享你的摄像头画面并实时谈论你所看到的内容的选项。Google Gemini 有一个相同功能的预览版，他们在 ChatGPT 发布的前一天发布了该功能。

这些功能才刚刚推出几周，我认为它们的影响还没有完全显现出来。如果你还没有尝试过，你真的应该试一试。

Gemini 和 OpenAI 都提供了对这些功能的 API 访问。OpenAI 最初提供了一个 WebSocket API，它使用起来相当有挑战性，但在 12 月，他们宣布了一个新的 WebRTC API，它更容易上手。现在构建一个用户可以通过语音与之交谈的 Web 应用非常容易！

基于提示词的应用生成已成为一种普及服务

这在 2023 年的 GPT-4 中就已经可以实现，但它提供的价值在 2024 年变得显而易见。

我们已经知道 LLM 在编写代码方面非常出色。如果你正确地提示它们，事实证明它们可以使用 HTML、CSS 和 JavaScript（如果你连接了一些额外的支持构建机制，还可以使用 React 等工具）为你构建一个完整的交互式应用程序——通常只需一个提示即可。

Anthropic 发布了 Claude Artifacts，将这一想法推向了高潮，这是一个开创性的新功能，最初由于在他们发布令人难以置信的 Claude 3.5 Sonnet 的公告中途才被描述，因此有点被淹没在噪音中。

借助 Artifacts，Claude 可以为你编写一个按需交互式应用程序，然后让你直接在 Claude 界面中使用它。

这是我的提取 URL 应用，完全由 Claude 生成：

提取 URL 工具。内容已粘贴。URL 已提取。显示提取的 URL 列表。

我发现自己经常使用这个功能。我在 10 月份注意到了我对它的依赖程度，并写了本周我用 Claude Artifacts 构建的所有内容，描述了我在 7 天内构建的 14 个小工具。

从那时起，许多其他团队也构建了类似的系统。GitHub 在 10 月份宣布了他们的版本——GitHub Spark。Mistral Chat 在 11 月份添加了一个名为 Canvas 的类似功能。

来自 Val Town 的 Steve Krouse 针对 Cerebras 构建了一个版本，展示了每秒 2,000 个 token 的 LLM 如何在不到一秒的时间内迭代应用程序并显示更改。

然后在 12 月，Chatbot Arena 团队推出了一个全新的排行榜，用于评估此功能，该排行榜由用户使用两个不同的模型构建相同的交互式应用两次并对答案进行投票驱动。很难找到更有说服力的论据来证明此功能现在已成为一种可以针对所有领先模型有效实现的普及服务。

我一直在为我的 Datasette 项目尝试类似的版本，目的是让用户使用提示来构建和迭代针对他们自己数据的自定义小部件和数据可视化。我还找到了一个类似的模式来编写一次性 Python 程序，由 uv 提供支持。

这种基于提示的自定义界面功能非常强大且易于构建（一旦你弄清楚了浏览器沙盒的复杂细节），我预计它将在 2025 年作为一项功能出现在各种产品中。

最佳模型的普及仅持续了短短几个月

今年有几个月的时间里，世界上大部分地区都可以免费使用三种最佳模型——GPT-4o、Claude 3.5 Sonnet 和 Gemini 1.5 Pro。

OpenAI 在 5 月份向所有用户免费提供了 GPT-4o，而 Claude 3.5 Sonnet 自 6 月份发布以来一直免费提供。这是一个重大的变化，因为在过去的一年里，免费用户主要只能使用 GPT-3.5 级别的模型，这意味着新用户对功能强大的 LLM 实际能做什么产生了非常不准确的认知。

随着 OpenAI 推出 ChatGPT Pro，那个时代似乎已经结束了，而且很可能是永久性的结束。这项每月 200 美元的订阅服务是访问他们最强大的模型 o1 Pro 的唯一途径。

由于 o1 系列（以及它无疑会激发的未来模型）背后的诀窍是花费更多的计算时间来获得更好的结果，我认为免费使用最佳可用模型的日子不太可能回来了。

“智能体” 尚未真正落地

我发现“智能体”这个术语非常令人沮丧。它缺乏一个单一、清晰且被广泛理解的含义……但使用这个术语的人似乎从未承认这一点。

如果你告诉我你正在构建“智能体”，你几乎没有向我传达任何信息。如果不读懂你的想法，我无法知道你指的是几十种可能的定义中的哪一种。

我看到的两个主要类别是那些认为 AI 智能体显然是代表你行动的东西——旅行社模式——以及那些认为 LLM 可以访问工具并在解决问题的循环中运行这些工具的人。术语“自主性”也经常被混入其中，同样没有明确的定义。

（几个月前，我还在 Twitter 上收集了 211 个定义——它们在 Datasette Lite 中——并让 gemini-exp-1206 尝试总结它们。）

无论这个术语的含义是什么，智能体仍然给人一种永远“即将到来”的感觉。

撇开术语不谈，我仍然对它们的实用性持怀疑态度，这再次基于轻信的挑战。LLM 会相信你告诉它们的任何事情。任何试图代表你做出有意义的决定的系统都会遇到同样的障碍：如果一个旅行社、一个数字助理，甚至一个研究工具无法区分事实和虚构，它又有什么用呢？

就在前几天，Google 搜索被发现提供了一个完全虚假的描述，关于不存在的电影“Encanto 2”。事实证明，它总结了粉丝小说维基中虚构的电影列表。

提示注入是这种轻信的自然结果。在 2024 年，我看到在解决这个问题方面几乎没有取得任何进展，而我们自 2022 年 9 月以来一直在讨论这个问题。

我开始认为最流行的“智能体”概念本身就依赖于 AGI。一个能够抵御轻信的模型确实是一个非常高的要求。

评估至关重要

Anthropic 的 Amanda Askell（负责 Claude 个性背后的大部分工作）：

好的系统提示背后无聊但至关重要的秘密是测试驱动开发。你不是写下系统提示并找到测试它的方法。你是写下测试并找到通过它们的系统提示。

在 2024 年的过程中，人们越来越清楚地认识到，为基于 LLM 的系统编写良好的自动化评估是构建基于这些模型的有用应用程序最需要的技能。如果你有一个强大的评估套件，你就可以比你的竞争对手更快地采用新模型，更好地迭代，并构建更可靠和更有用的产品功能。

Vercel 的 Malte Ubl：

当 @v0 首次问世时，我们非常担心用各种复杂的前后处理来保护提示。

我们完全改变了策略，让它自由发挥。没有评估、模型，尤其是用户体验的提示就像得到了一台没有说明书的损坏的 ASML 机器

我仍然在尝试为我自己的工作找出最佳模式。每个人都知道评估很重要，但仍然缺乏关于如何最好地实施它们的指导——我正在我的评估标签下跟踪这一点。我的骑自行车的 SVG 鹈鹕基准测试只是对真正的评估套件应该是什么样子的拙劣模仿。

苹果的智能很糟糕，但苹果的 MLX 库却很出色

作为一名 Mac 用户，今年我对自己的平台选择感觉好多了。

去年，我感觉自己没有配备 NVIDIA GPU 的 Linux/Windows 机器，这在尝试新模型方面是一个巨大的劣势。

从理论上讲，一台 64GB 的 Mac 应该是一台运行模型的绝佳机器，因为 CPU 和 GPU 可以共享相同的内存。实际上，许多模型都是以模型权重和库的形式发布的，这些模型权重和库更偏向于 NVIDIA 的 CUDA 而不是其他平台。

llama.cpp 生态系统在这方面帮助很大，但真正的突破是苹果的 MLX 库，“一个针对 Apple 芯片的阵列框架”。它太棒了。

苹果的 mlx-lm Python 支持在我的 Mac 上运行各种兼容 MLX 的模型，并且性能出色。mlx-community 在 Hugging Face 上提供了 1000 多个已转换为必要格式的模型。

Prince Canuma 出色且快速发展的 mlx-vlm 项目也将视觉 LLM 带到了 Apple 芯片上。我最近用它运行了 Qwen 的 QvQ。

虽然 MLX 是一个游戏规则改变者，但苹果自己的“苹果智能”功能大多令人失望。我在 6 月份写了关于他们最初的公告，我很乐观地认为苹果已经努力专注于那些保护用户隐私并最大程度地减少用户被混淆功能误导的 LLM 应用子集。

现在这些功能正在推出，但它们相当弱。作为一名 LLM 高级用户，我知道这些模型的功能，而苹果的 LLM 功能只是对前沿 LLM 功能的拙劣模仿。相反，我们得到的通知摘要歪曲了新闻标题，而写作辅助工具我发现一点用都没有。不过，Genmoji 还挺有趣的。

推理扩展“推理”模型的兴起

2024 年最后一个季度最有趣的发展是引入了一种新型 LLM，以 OpenAI 的 o1 模型为例——最初于 9 月 12 日以 o1-preview 和 o1-mini 的形式发布。

理解这些模型的一种方法是将其视为思维链提示技巧的扩展，该技巧首次在 2022 年 5 月的论文《大型语言模型是零样本推理器》中进行了探讨。

这个技巧是，如果你让模型大声说出它正在解决的问题，你通常会得到一个模型原本无法实现的结果。

o1 采用了这个过程，并将其进一步融入到模型本身中。细节有些模糊：o1 模型花费“推理令牌”来思考用户无法直接看到的问题（尽管 ChatGPT UI 显示了它们的摘要），然后输出最终结果。

这里最大的创新是它开辟了一种扩展模型的新方法：现在，模型可以通过在推理上花费更多计算来解决更难的问题，而不是仅仅通过在训练时增加计算来提高模型性能。

o1 的续集 o3（出于欧洲商标原因，他们跳过了“o2”）于 12 月 20 日发布，并在 ARC-AGI 基准测试中取得了令人印象深刻的成绩，尽管这可能涉及超过 1,000,000 美元的计算时间费用！

o3 预计将于 1 月份发布。我怀疑有多少人会遇到真正需要如此高昂计算支出的现实问题——我当然没有！——但它似乎是 LLM 架构中真正迈向解决更难问题的下一步。

OpenAI 并不是这里唯一的参与者。谷歌于 12 月 19 日发布了该类别的第一个参赛者 gemini-2.0-flash-thinking-exp。

阿里巴巴的 Qwen 团队于 11 月 28 日发布了他们的 QwQ 模型——采用 Apache 2.0 许可，而且这个模型我可以在自己的机器上运行。他们在 12 月 24 日又推出了一个名为 QvQ 的视觉推理模型，我也在本地运行了它。

DeepSeek 于 11 月 20 日通过其聊天界面提供了 DeepSeek-R1-Lite-Preview 模型供试用。

要了解有关推理扩展的更多信息，我推荐 Arvind Narayanan 和 Sayash Kapoor 撰写的《人工智能进展是否正在放缓？》。

Anthropic 或 Meta 还没有任何消息，但如果他们没有开发自己的推理扩展模型，我会感到非常惊讶。Meta 于 12 月发表了一篇相关论文《在连续潜在空间中训练大型语言模型进行推理》。

目前可用的最佳 LLM 是否在中国以低于 600 万美元的价格训练而成？

不完全是，但差不多！这确实是一个吸引眼球的标题。

年底的大新闻是 DeepSeek v3 的发布——在圣诞节那天发布在 Hugging Face 上，甚至没有 README 文件，然后在第二天发布了文档和论文。

DeepSeek v3 是一个庞大的 6850 亿参数模型——是目前可用的最大的公开许可模型之一，比 Meta 的 Llama 系列中最大的 Llama 3.1 4050 亿大得多。

基准测试将其与 Claude 3.5 Sonnet 相提并论。Vibe 基准测试（又名 Chatbot Arena）目前将其排名第 7，仅次于 Gemini 2.0 和 OpenAI 4o/o1 模型。这是迄今为止排名最高的公开许可模型。

DeepSeek v3 真正令人印象深刻的是训练成本。该模型在 2,788,000 个 H800 GPU 小时内训练完成，估计成本为 5,576,000 美元。Llama 3.1 4050 亿训练了 30,840,000 个 GPU 小时——是 DeepSeek v3 的 11 倍，而基准测试结果略差。

美国对中国 GPU 的出口管制似乎激发了一些非常有效的训练优化！

环境影响有所改善

模型效率提高的一个可喜结果——无论是托管模型还是我可以在本地运行的模型——是运行提示的能源使用和环境影响在过去几年中大幅下降。

与 GPT-3 时代相比，OpenAI 自己的提示收费降低了 100 倍。我有充分的理由相信，无论是 Google Gemini 还是 Amazon Nova（两个最便宜的模型提供商）都没有亏本运行提示。

我认为这意味着，作为个人用户，我们完全不需要为绝大多数提示所消耗的能源感到内疚。与开车上街甚至在 YouTube 上观看视频相比，这种影响可能微不足道。

同样，训练也是如此。DeepSeek v3 的训练成本低于 600 万美元，这是一个极好的迹象，表明训练成本可以而且应该继续下降。

对于效率较低的模型，我发现将它们的能源使用与商业航班进行比较很有用。最大的 Llama 3 模型的成本与从纽约到伦敦的满载客运航班的个位数大致相同。这当然不是什么都没有，但一旦训练完成，该模型就可以被数百万人使用，而无需额外的训练成本。

环境影响变得更糟

这里更大的问题是，人们想象这些模型在未来需要的基础设施正在进行大规模的竞争性建设。

像谷歌、Meta、微软和亚马逊这样的公司都在花费数十亿美元建设新的数据中心，这对电网和环境产生了非常重大的影响。甚至有人谈论启动新的核电站，但这可能需要几十年的时间。

这些基础设施是必要的吗？DeepSeek v3 的 600 万美元训练成本和 LLM 价格的持续暴跌可能暗示并非如此。但是，您是否愿意成为一位大型科技公司的高管，主张不建设这些基础设施，却在几年后被证明是错误的呢？

这里一个有趣的比较点可能是 19 世纪铁路在世界各地的铺设方式。建设这些铁路需要巨额投资，并对环境产生了巨大影响，而且许多已建成的线路被证明是不必要的——有时不同公司甚至有多条线路服务于完全相同的路线！

由此产生的泡沫导致了几次金融危机，请参阅维基百科上的 1873 年恐慌、1893 年恐慌、1901 年恐慌和英国的铁路狂热。它们给我们留下了许多有用的基础设施，但也留下了大量的破产和环境破坏。

垃圾之年

2024 年是“垃圾”一词成为专业术语的一年。我在 5 月份写过这篇文章，扩展了 @deepfates 的这条推文：

实时观察“垃圾”如何成为一个专业术语。就像“垃圾邮件”成为不需要的电子邮件的术语一样，“垃圾”将作为不需要的人工智能生成内容的术语进入字典

我将这个定义稍微扩展了一下：

垃圾描述了既未经请求又未经审查的人工智能生成内容。

我最终在《卫报》和《纽约时报》中被引用谈论垃圾。以下是《纽约时报》中我的原话：

社会需要简洁的方式来谈论现代人工智能——无论是积极的还是消极的。“忽略那封电子邮件，它是垃圾邮件”和“忽略那篇文章，它是垃圾”都是有用的教训。

我喜欢“垃圾”这个词，因为它如此简洁地概括了我们不应该使用生成式人工智能的方式之一！

垃圾甚至入围了 2024 年牛津年度词汇，但它输给了 brain rot。

合成训练数据效果很好

一个令人惊讶地似乎已经深入人心的想法是“模型崩溃”。这在 2023 年 5 月的论文《递归的诅咒：对生成数据进行训练会使模型遗忘》中首次被描述，并在 2024 年 7 月在《自然》杂志上以更引人注目的标题《人工智能模型在对递归生成的数据进行训练时会崩溃》重复出现。

这个想法很诱人：随着互联网充斥着人工智能生成的垃圾，模型本身将退化，以自己的输出为食，从而导致它们不可避免地消亡！

这显然没有发生。相反，我们看到人工智能实验室越来越多地使用合成内容进行训练——故意创建人工数据来帮助以正确的方式引导他们的模型。

我见过的对此最好的描述之一来自 Phi-4 技术报告，其中包括：

合成数据作为预训练的重要组成部分正变得越来越普遍，Phi 系列模型一直强调合成数据的重要性。合成数据不是有机数据的廉价替代品，而是比有机数据有几个直接优势。

结构化和渐进式学习。在有机数据集中，标记之间的关系通常是复杂和间接的。可能需要许多推理步骤才能将当前标记连接到下一个标记，这使得模型难以有效地从下一个标记预测中学习。相比之下，语言模型生成的每个标记根据定义都是由前面的标记预测的，这使得模型更容易遵循由此产生的推理模式。

另一种常见的技术是使用较大的模型来帮助为其较小、更便宜的替代模型创建训练数据——越来越多的实验室使用这种技巧。DeepSeek v3 使用了由 DeepSeek-R1 创建的“推理”数据。Meta 的 Llama 3.3 70B 微调使用了超过 2500 万个合成生成的示例。

仔细设计输入 LLM 的训练数据似乎是创建这些模型的整个游戏。仅仅抓取网络的完整抓取并将其不加选择地转储到训练运行中的日子早已一去不复返了。

LLM 不知何故变得更难使用

我一直在强调的一点是，LLM 是高级用户工具——它们是伪装成菜刀的电锯。它们看起来使用起来非常简单——向聊天机器人输入消息有多难？——但实际上，您需要大量的理解和经验才能充分利用它们并避免它们的许多陷阱。

如果有什么不同的话，这个问题在 2024 年变得更糟了。

我们已经构建了可以用人类语言与之交谈的计算机系统，它们会回答您的问题并且通常会答对！… 这取决于问题、您提问的方式以及它是否准确地反映在未记录的秘密训练集中。

可用系统的数量呈爆炸式增长。不同的系统有不同的工具可以应用于您的问题——比如 Python 和 JavaScript 以及网络搜索和图像生成，甚至可能还有数据库查找…… 所以您最好了解这些工具是什么，它们能做什么以及如何判断 LLM 是否使用了它们。

您知道 ChatGPT 现在有两种完全不同的方式来运行 Python 吗？

想要构建一个与外部 API 通信的 Claude Artifact？您最好先了解 CSP 和 CORS HTTP 标头。

这些模型可能变得更有能力，但大多数限制仍然相同。OpenAI 的 o1 可能最终能够（大部分）计算出草莓中 R 的数量，但它的能力仍然受到其作为 LLM 的性质以及运行它的工具对其施加的约束的限制。o1 无法运行网络搜索或使用代码解释器，但 GPT-4o 可以——两者都在同一个 ChatGPT UI 中。（如果您要求 o1 执行这些操作，它会假装执行，这是对 2023 年初的 URL 幻觉错误的回归）。

我们正在为此做些什么？不多。大多数用户都被扔进了深渊。默认的 LLM 聊天 UI 就像把全新的计算机用户扔进 Linux 终端并期望他们自己解决所有问题。

与此同时，最终用户对这些东西的工作原理和它们的能力产生严重不准确的心理模型的情况越来越普遍。我见过太多人们试图用 ChatGPT 的屏幕截图赢得争论的例子——这是一个固有的荒谬命题，因为这些模型固有的不可靠性与您可以通过正确提示让它们说任何话的事实相结合。

这也有另一面：许多消息更灵通的人完全放弃了 LLM，因为他们看不到任何人如何能从一个有这么多缺陷的工具中受益。充分利用 LLM 的关键技能是学习如何使用既不可靠又同时非常强大的技术。这绝对不是一项容易获得的技能！

这里有很大的空间可以提供有用的教育内容，但我们需要做得更好，而不是将所有内容都外包给那些在 Twitter 上夸夸其谈的人工智能骗子。

知识的分布极其不均

现在大多数人都听说过 ChatGPT。有多少人听说过 Claude？

积极关注这些东西的人与 99% 不关注这些东西的人之间的知识差距是巨大的。

变化的步伐也无济于事。就在过去的一个月里，我们看到了实时界面的普遍可用性，您可以在其中将手机的摄像头对准某物并用您的声音与之交谈…… 并且可以选择让它假装成圣诞老人。大多数自诩为书呆子的人甚至还没有尝试过。

鉴于这项技术对社会正在产生的（和潜在的）影响，我认为这种差距的大小是不健康的。我希望看到更多努力来改善这种情况。

LLM 需要更好的批评

很多人绝对讨厌这些东西。在我经常出没的一些地方（Mastodon、Bluesky、Lobste.rs，甚至偶尔还有 Hacker News）甚至暗示“LLM 很有用”都足以引发一场巨大的争吵。

我明白了。有很多理由不喜欢这项技术——环境影响、（缺乏）训练数据的伦理、缺乏可靠性、负面应用、对人们工作的潜在影响。

LLM 绝对值得批评。我们需要讨论这些问题，找到减轻这些问题的方法，并帮助人们学习如何以积极应用大于消极应用的方式负责任地使用这些工具。

我喜欢那些对这些东西持怀疑态度的人。两年多来，炒作一直震耳欲聋，而且存在大量的万金油和错误信息。许多非常糟糕的决定都是基于这种炒作做出的。持批评态度是一种美德。

如果我们希望拥有决策权的人就如何应用这些工具做出好的决定，我们首先需要承认确实存在好的应用，然后帮助解释如何在实践中应用这些工具，同时避免许多不直观的陷阱。

（如果您仍然认为根本没有任何好的应用，我不确定您为什么会读到本文的这一点！）

我认为告诉人们整个领域都是灾难性的环境剽窃机器，这些机器不断地编造东西，这对这些人是一种伤害，无论这代表了多少真相。这里有真正的价值，但获得这种价值是不直观的，需要指导。

我们这些了解这些东西的人有责任帮助其他人解决这个问题。

2024 年我在我的博客上标记为“llms”的所有内容

因为我无疑遗漏了一大堆东西，以下是我在 2024 年写的每一篇长篇博文，我都用 llms 标记了它们：

一月
- 7 日：可以称之为人工智能
- 9 日：关于人工智能一词我应该说些什么
- 17 日：在 Oxide and Friends 上谈论开源 LLM
- 26 日：LLM 0.13：带注释的发行说明
二月
- 21 日：Gemini Pro 1.5 的杀手级应用是视频
三月
- 5 日：提示注入和越狱不是一回事
- 8 日：GPT-4 障碍终于被打破
- 22 日：Claude 和 ChatGPT 用于临时任务
- 23 日：使用 ChatGPT 代码解释器构建和测试 SQLite 的 C 扩展
- 26 日：llm cmd undo last git commit——LLM 的一个新插件
四月
- 8 日：完全使用 Claude 3 Opus 构建 files-to-prompt
- 10 日：24 小时内发布三个主要的 LLM（以及周记）
- 17 日：数据新闻的人工智能：演示我们现在可以用这些东西做什么
- 22 日：使用 LLM 从终端访问 Llama 3 的选项
五月
六月
- 6 日：针对 RAG 应用程序的意外提示注入
- 10 日：关于 WWDC 2024 苹果智能主题演讲的想法
- 17 日：命令行中的语言模型
- 21 日：使用 Claude、Datasette 和 Val Town 构建基于搜索的 RAG
- 27 日：人工智能工程的开放挑战
七月
- 14 日：模仿智能，我在 PyCon US 2024 上的主题演讲
- 19 日：周记：GPT-4o mini、LLM 0.15、sqlite-utils 3.37 和构建暂存环境
八月
九月
- 6 日：从客户端 JavaScript 调用 LLM，将 PDF 转换为 HTML + 周记
- 10 日：我在软件事故播客上的出现的笔记
- 12 日：关于 OpenAI 新的 o1 思维链模型的说明
- 20 日：关于将 LLM 用于代码的说明
- 29 日：NotebookLM 自动生成的播客出奇地有效
- 30 日：周记：三个播客、两次旅行和一个新插件系统
十月
十一月
十二月
- 4 日：新 Amazon Nova LLM 的第一印象（通过新的 llm-bedrock 插件）
- 7 日：Prompts.js
- 9 日：我现在可以在我的笔记本电脑上运行 GPT-4 类模型
- 10 日：ChatGPT Canvas 现在可以发出 API 请求，但这很复杂
- 11 日：Gemini 2.0 Flash：一个出色的多模态 LLM，具有科幻流模式
- 19 日：使用 uv run 和 Claude Projects 通过一次性提示构建 Python 工具
- 19 日：Gemini 2.0 Flash“思考模式”
- 20 日：十二月的 LLM 发生了很多事情
- 20 日：直播博客：OpenAI 的第 12 天——“OpenAI o3 的早期评估”
- 24 日：试用 QvQ——Qwen 的新视觉推理模型
- 31 日：我们在 2024 年了解到的关于 LLM 的事情

（此列表是使用 Django SQL Dashboard 和 Claude 为我编写的 SQL 查询生成的。）

GPT-4 的壁垒被全面突破#

部分 GPT-4 级模型已可在我的笔记本电脑上运行#

得益于竞争和效率提升，LLM 价格大幅下降#

多模态视觉已成主流，音频和视频应用初露端倪#

语音和实时摄像头模式让科幻成为现实#

基于提示词的应用生成已成为一种普及服务#

最佳模型的普及仅持续了短短几个月#

“智能体” 尚未真正落地#

评估至关重要#

苹果的智能很糟糕，但苹果的 MLX 库却很出色#

推理扩展“推理”模型的兴起#

目前可用的最佳 LLM 是否在中国以低于 600 万美元的价格训练而成？#

环境影响有所改善#

环境影响变得更糟#

垃圾之年#

合成训练数据效果很好#

LLM 不知何故变得更难使用#

知识的分布极其不均#

LLM 需要更好的批评#

2024 年我在我的博客上标记为“llms”的所有内容#