Industry

动态

Client

2024年4月15日

EleutherAI发布了一个新的T5模型 Pile-T5

EleutherAI发布了一个新的T5模型 Pile-T5。

Pile-T5 旨在解决原始 T5 模型在处理代码相关任务时的不足,以及其分词器遗漏重要代码标记的问题。

Pile-T5 的训练量是原始 T5 模型的两倍,达到了200万步或2万亿个token。

模型描述:

Pile-T5 替代了原始的预训练数据集,并使用了新的 LLAMA 分词器。

训练过程中,Pile-T5 使用了与原始 T5 相同的超参数,并利用了 T5x。 该模型在微调下游任务时表现出显著的改进,尤其是在代码任务上。

性能评估:

Pile-T5 在 SuperGLUE 基准测试中表现出色,即使在 token-matched 设置中也大大超过了 T5-v1.1。

Pile-T5 在 CodeXGLUE 的 "代码到文本" 子任务上也显示出显著的性能提升。

© 2024 GUIZANG, Inc. All rights reserved.