怎么办?上万事OK网

问题:预训练中文语料汇总(附数据)

【答案】:

预训练中文语料汇总(附数据)​

小米 算法工程师
1、自己有必要单独训练一个Pre-training LM吗?
2、语料链接

目前,一般情况下,大多数人在做NLP的任务时,会使用到来自于Google/Facebook/brightmart等提供Pre-training LM。那为什么我们要使用他们的训练语言模型呢?主要有以下2个限制条件:

  • 算力资源:一般来讲,如果要做基于BERT/ERNIE/RoBERTa/ALBERT等框架的Pre-training LM,需要非常强大的算力资源。与此同时,服务器的IO和CPU也有一定的要求。
  • 文本数据:如果要做一个Pre-training,首先需要准备训练所需的文本语料。语料需要尽可能地对各个领域有所覆盖,例如新闻、小说、文章、对话、聊天、评论、点评等。那么,这样的数据要准备多少呢?一般而言,我的建议是大于20G。

下面,我为大家解释下Pre-training LM by youself的原因。

 

1、自己有必要单独训练一个Pre-training LM吗?

对于这个问题,虽然不能100%给一个肯定的答复,但是80%的肯定答复是没有问题的。主要原因有以下几点:

  • 特殊领域:很大一部分人的NLP任务是在一个特定领域下的,例如美团点评、JDTM电商评论、医疗领域、健康领域等。所以在通用语料的基础上额外添加特定领域语料往往会让模型取得更好的效果。
  • 语料过时:每年都有新的词汇产生,每年的热门新闻和实事都在发生变化。
  • 大小合适:根据自己硬件的能力(CPU/GPU/IO),选择一个最合适自己的参数量。
  • 任务类型:如果自己的NLP任务主要针对短句(sequence_length<100),那么预训练选择短句首先在模型效果上会有所提升,其次模型训练的成本也会降低,另外模型大小也会得到瘦身。
  • 训练步速:如果条件允许,可以让MASK更加随机化,模型会可以取得更好的效果。

所以,如果条件允许,训练一个属于自己NLP任务的Pre-training LM,何乐而不为呢。

2、语料链接

为了方便大家直接训练使用,这些数据已经处理好了,可以直接一次性二进制读取然后进行训练。

新闻语料: news_zh_2016,大小8.6G,提取密码:4hg3
社区互动: web_zh_2019,大小3G,提取密码:2rk6
维基百科: wiki_zh_2019,大小1.2G,提取密码:87fa
百度百科: baike_zh_2019,大小1.5G,提取密码:7igq
亚马逊 : amazon,大小1.1G,提取密码:dvi6
美食点评: dianping,大小2.5G,提取密码:psza
电影点评: film,大小0.4G,提取密码:0b4g
电商评论: 大小2.2G

以上数据一共20.5G。


【关键字】:

首页 > IT » 预训练中文语料汇总(附数据)

相关推荐

首页 |  家庭 | 升学 | 小学 | 中考 | 高考 | 考研 | 养老 | 育儿 | 旅游 | 宠物 | 美丽 | 家居 | 兴趣 | 健康 | 美食 | 商业 | 交通 | 艺术 | IT | 教育 | 体育 | 
© 2020 怎么办?上万事OK网