【答案】:
CLUECorpus2020:可能是史上最大的开源中文语料库以及高质量中文预训练模型集合
作者:中文任务基准评测
我们开放大规模的高质量100GB中文语料用于中文任务,来促进中文NLP的发展。可以用于语言模型和模型预训练、文本生成、词嵌入模型等多种任务;为了便于预训练等任务的使用,现已处理成了预训练的格式、多个小文件以及统一命名,并做了数据集拆分;另外我们对词表进行了精简,使其更加适用于中文的处理以及提高训练和推理速度;我们在此基础上预训练了多个高质量模型,这些模型也开放下载使用。
CLUECorpus2020:Large-scale Pre-training Corpus for Chinese 100G 中文预训练语料,项目地址:
https://github.com/CLUEbenchmark/CLUECorpus2020
CLUEPretrainedModels:高质量中文预训练模型集合---最先进大模型、最快小模型、相似度专门模型,项目地址:
https://github.com/CLUEbenchmark/CLUEPretrainedModels
论文地址:https://arxiv.org/abs/2003.01355
语料介绍
通过对Common Crawl的中文部分进行语料清洗,最终得到100GB的高质量中文预训练语料。具体的数据介绍和我们的实验分析参见我们的技术报告。实验产出的模型见:高质量中文预训练模型,大号、超小和相似度预训练模型
数据特点:
- 可直接用于预训练、语言模型或语言生成任务。
- 发布专用于简体中文NLP任务的小词表。