LLaMA 2:免费可商用的开源大语言模型

2023-07-20 星期四
🔗
  • 论文:Llama 2: Open Foundation and Fine-Tuned Chat Models[1]

  • 在线体验:Llama2 70B Chatbot[2]

  • 模型申请:Request access to the next version of Llama[3]

  • 模型型号:Model Details[4]

概述

Meta 宣布开源其大型语言模型 LLaMA 2[5]万字长文:LLM - 大语言模型发展简史LLM vs. ChatGPT:开源模型面临的真相与错觉!),使其免费供商业和研究使用,并与 OpenAI 的免费使用的 GPT-4 展开正面竞争(GPT-4 为 ChatGPT 和 Microsoft Bing 等工具提供支持)。

Meta 在微软 Inspire 活动中(Microsoft and Meta expand their AI partnership with Llama 2 on Azure and Windows[6])宣布了这一举措,并指出其对 Azure 和 Windows 的支持以及两家公司之间“日益增长”的合作关系。与此同时,微软透露了更多关于其 365 平台(AI 全家桶:Microsoft 365 Copilot)中内置的 AI 工具以及这些工具的定价详情。高通还宣布将与 Meta 合作,从 2024 年开始将 LLaMa 引入笔记本电脑、手机和头戴式设备,以支持无需依赖云服务即可运行的 AI 应用。

Meta 决定开放 LLaMA 的目的是为企业、创业公司和研究人员提供更多 AI 工具,以便作为一个社区进行试验。与 LLaMA 1 相比 LLaMA 2 在训练数据量上增加了40%,其中包括来自“公开在线数据源”的信息。还称其在推理、编码、熟练度和知识测试方面优于其他 LLM,如 Falcon 和 MPT。

LLaMA 2 预训练模型接受了 2 万亿个标记的训练,上下文长度是 LLaMA 1 的两倍。其微调模型已经接受了超过 100 万个人类标注的训练。
LLaMA 2 在许多外部基准测试中都优于其他开源语言模型,包括推理、编码、熟练程度和知识测试。
📌 Falcon

The Falcon has landed in the Hugging Face ecosystem[7]

Falcon 家族有两个基础模型: Falcon-40B[8]Falcon-7B[9]。40B 参数模型目前在 Open LLM 排行榜[10] 中名列前茅,而 7B 模型在同等参数量的模型中表现最佳。

运行 Falcon-40B 需要约 90GB 的 GPU 显存 —— 虽然还是挺多的,但比 LLaMA-65B 少了不少,且性能还优于 LLaMA-65B。而 Falcon-7B 只需要约 15GB 显存,即使在消费类硬件上也可以进行推理和微调。

Falcon-7B 和 Falcon-40B 分别基于 1.5 万亿和 1 万亿词元数据训练而得,其架构在设计时就充分考虑了推理优化。Falcon 模型质量较高的关键在于训练数据,其 80% 以上的训练数据来自于 RefinedWeb[11] —— 一个新的基于 CommonCrawl 的网络数据集。

📌 MPT

MPT (MosaicML Pretrained Transformer)[12]

MosaicML 使你可以轻松地在自己的数据和安全的环境中训练和部署 LLMs 和其他生成式 AI 模型。只需要一个命令,就可以大规模地训练大型 AI 模型。只需要几个简单的步骤,就可以在私有云中部署。你可以完全拥有自己的模型,包括模型权重。目前发布的模型有:

  • MPT-7B[13]:是 MosaicML 基础系列的第一款产品。MPT-7B 是一个在 1T 文本和代码标记上从头开始训练的 transformer。它是开源可商业的,质量与 LLaMA-7B 相当。MPT-7B 在 MosaicML 平台上经过 9.5 天的无人干预训练,成本约为 20 万美元。

  • MPT-7B-8K[14]:一个 7B 参数的开源 LLM,具有 8k 上下文长度,使用 MosaicML 平台进行训练。MPT-7B-8K 从 MosaicML 平台上的 H100 上的 MPT-7B 检查点开始,经过额外 3 天的预训练,使用了 256 个 NVIDIA H100 以及额外的 500B tokens 数据进行训练的。

  • MPT-30B[15]:它是 MosaicML 开源模型基础系列中功能更强大的新成员,在 NVIDIA H100 Tensor Core GPU 上使用 8k 上下文长度进行训练。

通过开放 LLaMA,Meta 表示希望改进安全性和透明度。LLaMA 2 模型(Llama 2: open source, free for research and commercial use[16])已经进行了“红队测试”,即通过“生成对抗提示以促进模型微调”进行了安全性测试,包括内部和外部。Meta 还公开了如何评估和调整模型。开源的 LLaMA 2 不仅可以通过微软的 Azure 平台提供,也将通过 AWS、Hugging Face 和其他提供商提供。

📌 安全性测试

在机器学习中,red-teamedgenerating adversarial prompts to facilitate model fine-tuning 这两个概念源自于对模型的安全性和稳健性进行评估和改进的需要。

  • Red-Teaming: 这个概念源自于军事和网络安全领域,其中一个“红队”(red team)会模拟对手的行为,以便测试和挑战一个系统的安全性和稳健性。在机器学习中,red-teaming 也有类似的用途。一个红队会尝试找到模型的弱点,包括如何操纵模型产生误导或不良输出的方法,然后反馈这些信息以便于改进模型。

  • Generating Adversarial Prompts to Facilitate Model Fine-tuning: 这个概念是关于如何改进机器学习模型的方法。在模型微调(fine-tuning)过程中,我们可能会利用对抗性提示(adversarial prompts)来生成一些能使模型出错或产生不良输出的场景。这样做的目的是找出模型的弱点并修复它,就像我们会针对软件的漏洞进行修复一样。这种方法可以帮助我们提高模型的稳健性和安全性,从而让模型在面对真实世界中的复杂和不可预见的问题时表现得更好。

LLaMA 2

📌 大佬笔记

以下内容整理翻译自 @DrJimFan[17]

你很快会在 Twitter 上看到很多 "LLaMA 已经打败 ChatGPT" 或 "OpenAI 完蛋了"的帖子。在你的时间线被淹没之前,我会分享我的笔记:

  • LLaMA 2 可能花费了超过 2000 万美元进行训练。Meta 通过以商业友好许可证发布模型,为社区做出了难以置信的服务。大公司的 AI 研究人员因为许可证问题对 LLaMA 1 保持警惕,但现在我认为他们中的许多人会加入进来并贡献他们的力量。

  • Meta 的团队对 4000 个提示进行了人类研究,以评估 LLaMA 2 的帮助性。他们使用“胜率”作为一个指标来比较模型,类似于 Vicuna 基准的精神。70B 模型大致与 GPT-3.5-0301 相当,并且明显优于Falcon,MPT 和 Vicuna。我更相信这些真正的人类评级,而不是学术基准,因为它们通常更好地捕捉到了“实战情境”。

  • LLaMA 2 还没有达到 GPT-3.5 的水平,主要是因为它的编码能力弱。在“人类评估”(标准编码基准)上,它还没有达到 StarCoder (StarCoder 代码助手: 愿源代码与你同在!)或许多其他专为编码设计的模型的水平。尽管如此,我几乎毫无疑问 LLaMA 2 会因为其开放的权重而显著改善。

  • Meta 的团队在 AI 安全问题上做得超出了常规。实际上,近半数的论文都在谈论安全护栏,红队和评估。对这样负责任的努力鼓掌!在先前的作品中,有一个棘手的权衡,那就是帮助性与安全性之间的权衡。Meta 通过训练 2 个独立的奖励模型来缓解这个问题。它们还没有开源,但对社区来说非常有价值。

  • 我认为 LLaMA 2 将大大推动多模态 AI 和机器人研究。这些领域需要的不仅仅是对 API 的黑箱访问。到目前为止,我们必须将复杂的感知信号(视频、音频、3D 感知)转换为文本描述,然后输入到一个 LLM 中,这很尴尬并且会导致大量信息的丢失。将感知模块直接接入一个强大的 LLM 背景会更有效。

  • 白皮书本身就是一部杰作。与 GPT-4 的论文共享了很少的信息不同,LLaMA 2 详细描述了整个配方,包括模型细节,训练阶段,硬件,数据管道和注释过程。例如,对 RLHF 效果的系统分析有很好的可视化。

  • 引用第 5.1 节:"我们认为,LLMs 的优越写作能力,如在某些任务中超过人类注释者所表现出的,是基于 RLHF 的。"

LLaMA 2 是一个强大的语言模型,基于 LLaMA 1 并在其基础上进行了实质性的技术扩展,包括数据质量、训练技术、能力评估、安全训练和负责任的发布等方面。基础模型的表现强大,微调的聊天模型与 ChatGPT 相当,为开源社区提供了重要的机会。它是一个非常重要的开源语言模型,其发布具有深远的影响。以下是一些主要信息点的概括:

原文地址:点击