Industry

产品

Client

2024年4月19日

Meta 开源 Llama3 模型

来了!Llama3 正式发布,开源模型的质量又将迎来再一次飞跃。

卧槽,最大的模型参数超过 400B,还在训练中,完成将会发布,还有多模态模型。

他们的测试结果看,70B全面超越Gemini Pro 1.5以及Claude3 Sonnet。

1️⃣性能测试:

预训练和指导微调模型是目前 8B 和 70B 参数尺度上最好的模型。

后期训练程序的改进大大降低了错误拒绝率,提高了对齐度,并增加了模型响应的多样性。

还发现,推理、代码生成和指令跟踪等能力也有了很大提高,这使得 Llama 3 的可操控性更强。




2️⃣模型架构:

Llama 3 使用了一个 128K 词库的标记化器,它能更有效地编码语言,从而大幅提高模型性能。

为了提高 Llama 3 模型的推理效率,在 8B 和 70B 大小的模型中都采用了分组查询关注 (GQA)。

在 8,192 个词组的序列上对模型进行了训练,并使用掩码来确保自我关注不会跨越文档边界。

3️⃣训练数据:

Llama 3 在超过 15T 的词库上进行了预训练,这些词库都是从公开来源收集的。

训练数据集是 Llama 2 的七倍,包含的代码数量也是 Llama 2 的四倍。

为了应对即将到来的多语言使用情况,Llama 3 的预训练数据集中有超过 5% 的高质量非英语数据,涵盖 30 多种语言。

开发了一系列数据过滤管道。这些管道包括使用启发式过滤器、NSFW 过滤器、语义重复数据删除方法和文本分类器来预测数据质量。

4️⃣如何使用:

Llama 3 模型将很快在 AWS、Databricks、Google Cloud、Hugging Face、Kaggle、IBM WatsonX、Microsoft Azure、NVIDIA NIM 和 Snowflake 上提供,并得到 AMD、AWS、戴尔、英特尔、NVIDIA 和高通提供的硬件平台的支持。

可以在Meta官方助手Meta AI上体验。

5️⃣未来支持:

在接下来的几个月里,将推出新的功能、更长的上下文窗口、更多的型号尺寸和更强的性能,并将与大家分享 Llama 3 研究论文。

© 2024 GUIZANG, Inc. All rights reserved.