Industry
研究
Client
2024年4月23日
Huggingface 发布 15T 数据集 FineWeb
Huggingface 21 号发布了一个 15T 的数据集 FineWeb,Llama 3 的训练数据量也是 15T,是不是可以开始自己训练 Llama3 了。
筛选并去除了2013年至2024年所有 CommonCrawl 数据中的重复内容。
在 FineWeb 数据集训练的模型表现超越了 RefinedWeb、C4、DolmaV1.6、The Pile 和 SlimPajama。
© 2024 GUIZANG, Inc. All rights reserved.