怎么办?上万事OK网

问题:CLUECorpus2020:可能是史上最大的开源中文语料库以及高质量中文预训练模型集合

【答案】:

CLUECorpus2020:可能是史上最大的开源中文语料库以及高质量中文预训练模型集合

作者:中文任务基准评测

我们开放大规模的高质量100GB中文语料用于中文任务,来促进中文NLP的发展。可以用于语言模型和模型预训练、文本生成、词嵌入模型等多种任务;为了便于预训练等任务的使用,现已处理成了预训练的格式、多个小文件以及统一命名,并做了数据集拆分;另外我们对词表进行了精简,使其更加适用于中文的处理以及提高训练和推理速度;我们在此基础上预训练了多个高质量模型,这些模型也开放下载使用。

 

CLUECorpus2020:Large-scale Pre-training Corpus for Chinese 100G 中文预训练语料,项目地址:

https://github.com/CLUEbenchmark/CLUECorpus2020

 

CLUEPretrainedModels:高质量中文预训练模型集合---最先进大模型、最快小模型、相似度专门模型,项目地址:

https://github.com/CLUEbenchmark/CLUEPretrainedModels

 

论文地址:https://arxiv.org/abs/2003.01355

语料介绍

通过对Common Crawl的中文部分进行语料清洗,最终得到100GB的高质量中文预训练语料。具体的数据介绍和我们的实验分析参见我们的技术报告。实验产出的模型见:高质量中文预训练模型,大号、超小和相似度预训练模型

数据特点:

  1. 可直接用于预训练、语言模型或语言生成任务。
  2. 发布专用于简体中文NLP任务的小词表。

【关键字】:

首页 > IT » CLUECorpus2020:可能是史上最大的开源中文语料库以及高质量中文预训练模型集合

相关推荐

首页 |  家庭 | 升学 | 小学 | 中考 | 高考 | 考研 | 养老 | 育儿 | 旅游 | 宠物 | 美丽 | 家居 | 兴趣 | 健康 | 美食 | 商业 | 交通 | 艺术 | IT | 教育 | 体育 | 
© 2020 怎么办?上万事OK网