Meta 开源 Llama3 模型

来了！Llama3 正式发布，开源模型的质量又将迎来再一次飞跃。

卧槽，最大的模型参数超过 400B，还在训练中，完成将会发布，还有多模态模型。

他们的测试结果看，70B全面超越Gemini Pro 1.5以及Claude3 Sonnet。

1️⃣性能测试：

预训练和指导微调模型是目前 8B 和 70B 参数尺度上最好的模型。

后期训练程序的改进大大降低了错误拒绝率，提高了对齐度，并增加了模型响应的多样性。

还发现，推理、代码生成和指令跟踪等能力也有了很大提高，这使得 Llama 3 的可操控性更强。

2️⃣模型架构：

Llama 3 使用了一个 128K 词库的标记化器，它能更有效地编码语言，从而大幅提高模型性能。

为了提高 Llama 3 模型的推理效率，在 8B 和 70B 大小的模型中都采用了分组查询关注 (GQA)。

在 8,192 个词组的序列上对模型进行了训练，并使用掩码来确保自我关注不会跨越文档边界。

3️⃣训练数据：

Llama 3 在超过 15T 的词库上进行了预训练，这些词库都是从公开来源收集的。

训练数据集是 Llama 2 的七倍，包含的代码数量也是 Llama 2 的四倍。

为了应对即将到来的多语言使用情况，Llama 3 的预训练数据集中有超过 5% 的高质量非英语数据，涵盖 30 多种语言。

开发了一系列数据过滤管道。这些管道包括使用启发式过滤器、NSFW 过滤器、语义重复数据删除方法和文本分类器来预测数据质量。

4️⃣如何使用：

Llama 3 模型将很快在 AWS、Databricks、Google Cloud、Hugging Face、Kaggle、IBM WatsonX、Microsoft Azure、NVIDIA NIM 和 Snowflake 上提供，并得到 AMD、AWS、戴尔、英特尔、NVIDIA 和高通提供的硬件平台的支持。

可以在Meta官方助手Meta AI上体验。

5️⃣未来支持：

在接下来的几个月里，将推出新的功能、更长的上下文窗口、更多的型号尺寸和更强的性能，并将与大家分享 Llama 3 研究论文。

产品

2024年4月19日

Meta 开源 Llama3 模型

阅读原文