Industry

研究

Client

2024年4月23日

Huggingface 发布 15T 数据集 FineWeb

Huggingface 21 号发布了一个 15T 的数据集 FineWeb,Llama 3 的训练数据量也是 15T,是不是可以开始自己训练 Llama3 了。

筛选并去除了2013年至2024年所有 CommonCrawl 数据中的重复内容。

在 FineWeb 数据集训练的模型表现超越了 RefinedWeb、C4、DolmaV1.6、The Pile 和 SlimPajama。

© 2024 GUIZANG, Inc. All rights reserved.