【AI】我们没有护城河,OpenAI也没有
原文 https://www.semianalysis.com/p/google-we-have-no-moat-and-neither本文是其中文翻译据传是谷歌内部员工的一份研究报告这篇文章发布于2023年5月4日彼时Mate的开源模型llama系列Llama-1在2023年2月才发布Llama-2发布于2023年7月还未发布现在回头来看这篇文章对开源模型的发展有其惊人的预见性引人深思。弱小和无知不是生存的障碍傲慢才是。 ---《三体》刘慈欣我们一直在密切关注OpenAI。谁将迈过下一个里程碑下一步该怎么办但令人不安的事实是我们没有赢得这场竞争的优势OpenAI也没有。而在我们争吵不休的时候第三方悄悄地取而代之。当然我指的是开源社区。坦率地说他们正在超越我们。我们认为是“重大问题”的事情现在已经被解决了并且已经被所有人掌握。举几个例子手机上的LLMs人们在Pixel 6上以每秒5个token的速度运行基础模型。可扩展的个人AI你可以在笔记本电脑上微调个性化的AI一个晚上就能完成。负责任的发布这个问题可能不是被“解决”了而是被“消除”了。现在有网站整个都充满了没有任何限制的艺术模型而在文本领域这种网站的出现也不远了多模态最新的多模态模型ScienceQA SOTA是在一个小时内训练出来的。虽然我们的模型在质量上仍然稍微领先但差距也在迅速缩小。开源模型更快、更可定制、更私人而且在性能上更胜一筹。他们用100美元和130亿参数做出了我们花费1000万美元和5400亿参数才能实现的事情。而且他们能在几周内完成而不是几个月。这对我们会产生深远的影响我们没有秘密武器。我们最好的希望是从谷歌之外的其他人所做的事情中学习并合作。我们应该优先考虑启用第三方集成。当免费、不受限制的替代品在质量上相当时人们不会为受限制的模型付费。我们应该考虑我们真正的价值所在。巨型模型正在拖慢我们的速度。从长远来看最好的模型是那些可以快速迭代的。既然我们知道在小于20B参数范围内可能实现什么我们应该把小的模型变种视为重点而不仅仅是事后的补救措施。发生了什么在三月初开源社区获得了他们第一个真正有能力的基础模型因为Meta的LLaMA泄露了。它没有指令或对话调整也没有RLHF。尽管如此社区立即理解了他们所得到的东西的重要性。紧随其后的是大量的创新主要的进展仅仅在几天内就发生了详见文章下面时间线以获取完整细节。现在仅仅一个月后已经出现了具有指令调整、量化、质量改进、人类评估、多模态、RLHF等变体其中很多是相互建立在彼此之上的。最重要的是他们已经解决了规模化问题以至于任何人都可以进行微调。许多新的想法都来自普通人。进行训练和实验的门槛已经从一个研究机构共同产出降低到了一个人、一个晚上和一台强大的笔记本电脑。为什么我们本应该预见到这一点在很多方面这对任何人来说都不应该是一个意外。开源LLM当前的繁荣复兴紧跟在开源图像生成领域的复兴之后。社区对此有着清晰的认识许多人称之为LLM的“Stable Diffusion时刻”。在这两个场景中低成本的公众参与都是由于一种称为低秩适应LoRA的微调机制和规模上的重大突破图像合成领域的latent diffusionLLM的Chinchilla的结合。在这两个场景中都是足够高质量的模型的获得引发了来自世界各地的个人和机构一连串想法和迭代。在这两个场景中这种个人和小型机构的参与很快就超过了大型参与者。这些贡献对于图像生成领域来说至关重要使得“Stable Diffusion”与Dall-E的发展路径大相径庭。拥有一个开放的模型导致了产品整合、市场、用户界面和创新这些都没有在Dall-E中发生。这个效应是非常显著的在文化影响方面Stable Diffusion与OpenAI的解决方案Dall-E相比迅速占据主导地位而后者变得越来越无关紧要。关于LLM是否会发生同样的情况还有待观察但场景中的基本组成部分是相同的。我们忽视的事实开源最近取得成功的创新直接解决了我们仍在努力应对的问题。更多关注他们的工作可能有助于避免重复造轮子。LoRA是一种非常强大的技术我们可能应该更加关注它LoRA通过将模型更新表示为低秩因子分解将更新矩阵的大小减小了数千倍。这样就可以以较低的成本和时间对模型进行微调。在消费级硬件上能够在几小时内个性化一个语言模型是一件大事特别是对于那些涉及近实时融入新的多样化知识的愿景而言。尽管这项技术直接影响了我们一些最雄心勃勃的项目但谷歌内部对其的利用还不足。从头开始重新训练模型是一条艰难的道路LoRA之所以如此有效的一部分原因是就像其他形式的微调一样它是可以叠加的。像instruction tuning这样的改进可以被利用并在其他贡献者添加新的对话、推理或工具使用时进行进一步改进。虽然各个微调是低秩的但它们的总和不必是低秩的这允许模型进行全秩的更新并随着时间的推移逐渐累积。这意味着随着新的和更好的数据集和任务的出现可以廉价地使模型保持最新状态而无需支付完整训练的成本。相比之下从头开始训练巨型模型不仅会丢弃预训练的成果还会丢失在其上进行的任何迭代改进。在开源世界中不久之后这些改进就会占据主导地位使得完全重新训练的成本极高。我们应该深思熟虑每个新的应用或想法是否真的需要一个全新的模型。如果我们确实有重大的架构改进无法直接重用模型权重那么我们应该选择更激进的模型蒸馏形式以尽可能保留前一代模型的能力。如果我们可以更快地在小型模型上进行迭代那么大型模型在长期内并不更有优势对于最受欢迎的模型大小而言LoRA更新非常廉价约100美元。这意味着几乎任何有想法的人都可以生成并发布一个模型。训练时间不到一天已成常态。以这样的速度不久之后所有这些微调的累积效果就会克服起始时的规模劣势。事实上从工程师的工时角度来看这些模型的改进速度远远超过我们在最大型的模型变种上所能做到的而且其中的最佳模型已经与ChatGPT几乎无法区分。实际上将重点放在维护一些全球最大型的模型上会使我们处于劣势。数据质量比数据大小更具规模优势许多这些项目通过在小型、经过精心策划的数据集上进行训练来节省时间。这表明数据的规模扩展法则具有一定的灵活性。这些数据集的存在符合《数据并不是按你所想的那样起作用》一文中的思路并且它们正在迅速成为在谷歌之外进行训练的标准方式。这些数据集使用合成的方式构建例如从现有模型中筛选出最佳回答或者从其他项目中获取数据而这两种方法在谷歌并不占主导地位。幸运的是这些高质量的数据集是开源的因此可以免费使用。与开源直接竞争是一种失败的提议当前开源社区的这一进展对我们的业务战略有直接、即时的影响。如果存在一个无限制的免费高质量替代品谁会为具有使用限制的谷歌产品付费呢而且我们不应该指望能够迎头赶上。现代互联网之所以运行在开源软件上是有原因的。开源软件具有一些我们无法复制的重要优势。我们需要他们要多于他们需要我们保守我们的技术秘密一直是一项脆弱的提议。谷歌的研究人员会定期离职并就职其他公司所以我们可以假设他们知道我们知道的一切并且只要这条渠道一直存在他们也将会继续了解。但是现在随着前沿的LLM研究变得更加可负担保持在技术上的竞争优势变得更加困难。世界各地的研究机构在彼此的工作基础上进行建设以广度优先的方式探索解决方案空间这远远超过了我们自身的能力。我们可以试图紧紧捂住我们的秘密但外部创新则会持续削弱它们的价值亦或者我们可以试图相互学习。对个人的约束不如企业严格许多创新是在Meta泄漏的模型权重基础上进行的。虽然随着真正开放的模型变得更好这种情况必然会发生变化但重点在于他们不必等待。由于“个人用途”的法律保护和追究个人责任的不切实际性个人可以在这些技术火热时就获得访问权限。译者注当时Mate发布的LLama-1并不允许商用所以作者才有这一个说法成为自己的客户意味着你要深入理解场景纵览在图像生成领域被创造出来的大量模型我们可以看到无尽的创意涌现从动漫生成器到HDR景观图生成。这些模型被是被那些深入研究自己所在的垂直领域应用场景的人创建并且使用的这带来了我们无法匹敌的知识深度和共鸣。拥有生态系统让开源为我们工作具有讽刺意味的是在这一切的发展中唯一的明显赢家是Meta。因为泄漏的模型是他们的他们实际上获得了整个地球上的免费劳动力。由于大多数开源创新是在他们的架构之上进行的没有任何东西能阻止他们将其直接纳入产品中。拥有生态系统的价值不可低估。谷歌本身在其开源产品如Chrome和Android中成功使用了这种范式。作为创新平台所有者谷歌将自己塑造为为思想领袖和方向设定者的角色获得了塑造超越自身的思想的能力。我们控制模型的程度越高开放性的替代选择就越具吸引力。谷歌和OpenAI都采取了防御性的发布模式以便对其模型的使用保持严格控制。但是这种控制是虚幻的。任何试图将LLMs用于未经授权用途的人都可以随意选择免费可用的模型。谷歌应该在开源社区中确立自己的领导地位通过与广泛的对话进行合作而不是忽视它。这可能意味着采取一些不舒服的步骤例如发布小型ULM变体的模型权重。这必然意味着放弃对模型的某些控制。但是这种妥协是不可避免的。我们不能指望既推动创新又控制创新。结语OpenAI怎么办在谈论开源时考虑到OpenAI当前的政策我们可能会感觉不公平。如果他们不愿分享为什么我们要分享呢但事实是我们已经通过稳定的高级研究人员流失向他们分享了一切。在我们有能力阻止这种流失之前保密实际上是无关紧要的。而且到最后OpenAI可能并不重要。他们在与开源的态度上犯了与我们相同的错误他们保持竞争优势的能力必然会受到质疑。除非他们改变立场否则开源替代品最终将超越他们。至少在这方面我们可以先行一步。时间线2023年2月24日 – LLaMA发布Meta发布了LLaMA开源了代码但没有公开模型权重。此时LLaMA还没有经过指令或对话调优。与许多当前的模型一样它是一个相对较小的模型可用于7B、13B、33B和65B参数经过相对较长时间的训练因此相对于其大小而言非常强大。2023年3月3日 – 不可避免的事情发生了不到一周的时间LLaMA的模型权重泄露了出来。这对社区的影响不可低估。现有的许可证阻止其用于商业目的但突然间任何人都能进行实验。从这一点开始创新呈现出爆发式的增长。2023年3月12日 – 烤面包机上的语言模型一周多一点时间后Artem Andreenko将该模型成功运行在树莓派上。此时模型的运行速度过慢不实用因为需要将权重从内存中分页进出。尽管如此这为大规模缩小模型的努力铺平了道路。2023年3月13日 – 笔记本电脑上的微调接下来的一天斯坦福发布了Alpaca将指令调优添加到LLaMA中。然而比实际权重更重要的是Eric Wang的alpaca-lora项目该项目“在单个RTX 4090上的几小时内”进行了训练。突然间任何人都可以对模型进行微调以执行任何任务引发了低预算微调项目的竞争。各种论文都开始自豪地描述它们仅花费几百美元进行训练。而且低秩更新可以轻松地与原始权重分开分发使它们与Meta的原始许可证无关。任何人都可以分享和应用这些更新。2023年3月18日 – 现在速度更快了Georgi Gerganov使用4位量化在MacBook CPU上运行LLaMA。这是第一个速度足够快以实用的“无需GPU”解决方案。2023年3月19日 – 一个13B模型达到了与Bard的“同等水平”第二天一项跨大学的合作项目发布了Vicuna并使用GPT-4提供了模型输出的定性比较。尽管评估方法令人怀疑但该模型比之前的变体要好得多。训练成本300美元。值得注意的是尽管在API中有严格的限制他们还是获取到了来自ChatGPT的训练数据。他们只是轻易去类似于“ShareGPT”这样的网站中采样了那些被分享出来的优秀ChatGPT对话。2023年3月25日 – 选择你的模型Nomic创建了GPT4All这既是一个模型更重要的是一个生态系统。首次看到多个模型包括Vicuna汇集到一个地方。训练成本100美元。2023年3月28日 – 开源GPT-3Cerebras与我们自己的Cerebra不要混淆使用由Chinchilla实现的最佳计算调度和μ参数化实现的最佳扩展训练了GPT-3架构。这超过了现有的GPT-3克隆模型很多也是μ参数化在实际应用中的首次确认。这些模型是从头开始训练的意味着社区不再依赖LLaMA。2023年3月28日 – 一个小时内的多模态训练使用一种新颖的参数高效微调PEFT技术LLaMA-Adapter在一小时的训练中引入了指令调优和多模态功能。令人印象深刻的是他们仅使用了1.2M个可学习参数来实现这一点。该模型在多模态科学问答ScienceQA方面实现了新的SOTA。2023年4月3日 – 真人无法区分13B开源模型和ChatGPT伯克利发布了Koala这是一个完全使用可自由获取的数据训练的对话模型。他们采取了关键步骤通过实际测量人们对他们的模型和ChatGPT的偏好。尽管ChatGPT仍略胜一筹但超过50%的时间用户要么更喜欢Koala要么没有偏好。训练成本100美元。2023年4月15日 – 开源RLHF达到ChatGPT水平Open Assistant推出了一个模型更重要的是推出了一个用于通过RLHF实现对齐的数据集。他们的模型在人类偏好方面与ChatGPT接近48.3%对51.7%。除了LLaMA他们还展示了该数据集可以应用于Pythia-12B使人们有了使用完全开源堆栈来运行模型的选择。而且由于数据集是公开的对于小型实验者来说通过RLHF实现从不可实现到廉价且简单变得可能。