这篇教程超大规模中文语料集写得很实用,希望能帮到您。
MNBVC(Massive Never-ending BT Vast Chinese corpus)超大规模中文语料集
https://github.com/esbatmop/MNBVC
响应符尧博士的号召,危机存亡之秋,为避免技术断代,为将几千年历史的中文之美传承给AI。
中文互联网上最古老最神秘(没有之一)的里屋社区于2023.1.1庄重宣布:
在英明神武的里屋管子带领下,决心发挥社区所长(哪都长),帮助开源社区长期更新一份最大的中文互联网语料集
MNBVC数据集不但包括主流文化,也包括各个小众文化甚至火星文的数据。MNBVC数据集包括新闻、作文、小说、书籍、杂志、论文、台词、帖子、wiki、古诗、歌词、商品介绍、笑话、糗事、聊天记录等一切形式的纯文本中文数据。数据均来源于互联网收集。
进度
目前总数据量1870GB,目标是达到chatGPT的40T数据,目前进度4.7%。
数据说明
压缩包密码为253874
压缩包内中文语料均清洗为txt和json(包括jsonl)格式
压缩包根目录的links.txt里有每个子文件夹数据来源的url
每个子文件夹内有一张png格式的图片,是数据来源的网页截图
收录的数据将去掉大于等于8位的数字串进行脱敏
压缩包内数据只做了粗加工,例如html&xml转txt、csv&tsv转json等
我们有一个小组负责将数据精加工成huggingface上开箱即用的语料集,但目前整个项目的算力和人力更优先用于堆量。
索引和分类
我们没有能力对数据来源进行版权审核。虽然本数据集包括了数据来源信息,但为了长而持久的提供数据集的更新和下载,为了尽量避免版权争议,本数据集不提供压缩包内数据的索引和分类。并恳请大家克制住自己的分享欲,不要讨论压缩包的索引及所包含具体内容的信息。请大家更多的关注大数据量语料本身的应用,拜托大家低调的使用数据。
下载信息:
http下载:http://dl.mnbvc.253874.net:9191/mnbvc/ p2p的下载正在继续测试中,待测试完毕会继续放出。
20221224.zip 压缩包4.57GB,原始13.45GB 百度网盘 提取码: dh2n
20221225.zip 压缩包7.53GB,原始17.68GB 百度网盘 提取码: gr63
20230101.zip 压缩包7.34GB,原始17.11GB 百度网盘 提取码: 78uq
20230102.zip 压缩包22.14GB,原始29.58GB 百度网盘 提取码: kvuz
20230103.zip 压缩包12.35GB,原始27.97GB 百度网盘 提取码: 71rj
20230104.zip 压缩包12.36GB,原始28.54GB 百度网盘 提取码: pkwy
20230105.zip 压缩包15.32GB,原始35.18GB 百度网盘 提取码: fk62
20230106.zip 压缩包8.87GB,原始19.45GB 百度网盘 提取码: upyg
20230107.zip 压缩包6.2GB,原始13.14GB 百度网盘 提取码: eape
20230108.zip 压缩包9.56GB,原始25.84GB 此包小文件众多,解压很慢 百度网盘 提取码: kywq
20230109.zip 压缩包7.63GB,原始20.84GB 百度网盘 提取码: 441t
20230110.zip 压缩包5.79GB,原始15.6GB 百度网盘 提取码: 8vf9
20230112.zip 压缩包11.26GB,原始23.92GB 百度网盘 提取码: b9sr
20230113.zip 压缩包8.21GB,原始17.54GB 百度网盘 提取码: fa49
20230114.zip 压缩包5.65GB,原始14.79GB 百度网盘 提取码: i6sd
20230115.zip 压缩包7.53GB,原始23.1GB 百度网盘 提取码: 2qnj
20230116.zip 压缩包3.29GB,原始10.81GB 百度网盘 提取码: ysqy
20230117.zip 压缩包11.71GB,原始29.54GB 百度网盘 提取码: biew
20230118.zip 压缩包11.71GB,原始31.47GB 百度网盘 提取码: x9yu
20230119.zip 压缩包11.21GB,原始31.33GB 百度网盘 提取码: xsa9
20230120.zip 压缩包12.32GB,原始31.45GB 百度网盘 提取码: kr3f
20230121.zip 压缩包13.44GB,原始32.08GB 百度网盘 提取码: 82cs
20230122.zip 压缩包12.49GB,原始29.5GB 百度网盘 提取码: bjnj
20230123.zip 压缩包11.84GB,原始28.08GB 百度网盘 提取码: issx
20230124.zip 压缩包10.57GB,原始27.16GB 百度网盘 提取码: fuyi
20230125.zip 压缩包4.41GB,原始15.42GB 百度网盘 提取码: vy5x
20230126.zip 压缩包9.12GB,原始26.44GB 百度网盘 提取码: mzte
20230127.zip 压缩包10.73GB,原始27.12GB 百度网盘 提取码: 47kr
20230128.zip 压缩包10.78GB,原始26.12GB 百度网盘 提取码: je3u
20230129.zip 压缩包13.72GB,原始31.09GB 百度网盘 提取码: isqm
20230130.zip 压缩包7.61GB,原始19.97GB 百度网盘 提取码: k8ue
20230131.zip 压缩包8.13GB,原始20.53GB 百度网盘 提取码: 79ti
20230132.zip 压缩包7.28GB,原始18.52GB 百度网盘 提取码: aabc
20230133.zip 压缩包6.95GB,原始17.54GB 百度网盘 提取码: 97dd
20230134.zip 压缩包5.20GB,原始21.87GB 百度网盘 提取码: u3fi
20230135.zip 压缩包4.57GB,原始18.55GB 百度网盘 提取码: xn2a
20230136.zip 压缩包5.16GB,原始20.94GB 百度网盘 提取码: xiwd
20230137.zip 压缩包4.99GB,原始20.39GB 百度网盘 提取码: vitu
20230138.zip 压缩包4.06GB,原始16.35GB 百度网盘 提取码: v6v6
20230139.zip 压缩包4.60GB,原始18.58GB 百度网盘 提取码: djef
20230140.zip 压缩包4.45GB,原始17.95GB 百度网盘 提取码: f3we
20230141.zip 压缩包4.59GB,原始20.41GB 百度网盘 提取码: 6j6b
20230142.zip 压缩包9.48GB,原始23.9GB 百度网盘 提取码: cicv
20230143.zip 压缩包12.16GB,原始27.23GB 百度网盘 提取码: b2es
20230144.zip 压缩包6.42GB,原始32.05GB 百度网盘 提取码: ea8r
20230145.zip 压缩包6.41GB,原始32.03GB 百度网盘 提取码: k31g
20230146.zip 压缩包6.39GB,原始31.91GB 百度网盘 提取码: 5gkm
20230147.zip 压缩包6.40GB,原始32GB 百度网盘 提取码: ezci
20230148.zip 压缩包6.42GB,原始32.1GB 百度网盘 提取码: wwbp
20230149.zip 压缩包6.40GB,原始31.91GB 百度网盘 提取码: ar95
20230150.zip 压缩包6.43GB,原始32.1GB 百度网盘 提取码: xtsu
20230151.zip 压缩包6.42GB,原始32.09GB 百度网盘 提取码: 9fas
20230152.zip 压缩包6.45GB,原始32.2GB 百度网盘 提取码: huqa
20230153.zip 压缩包6.42GB,原始32.04GB 百度网盘 提取码: kmqj
20230154.zip 压缩包6.43GB,原始32.1GB 百度网盘 提取码: mniw
20230155.zip 压缩包6.41GB,原始32.04GB 百度网盘 提取码: 5k3c
20230156.zip 压缩包6.42GB,原始32.06GB 百度网盘 提取码: 3w3h
20230157.zip 压缩包6.42GB,原始31.99GB 百度网盘 提取码: b6u7
20230158.zip 压缩包6.42GB,原始32.09GB 百度网盘 提取码: d8xp
20230159.zip 压缩包6.38GB,原始31.94GB 百度网盘 提取码: 6f5v
20230160.zip 压缩包6.41GB,原始32.05GB 百度网盘 提取码: w4hm
20230161.zip 压缩包6.4GB,原始31.89GB 百度网盘 提取码: ge4u
20230162.zip 压缩包6.42GB,原始32.06GB 百度网盘 提取码: 5pwq
20230163.zip 压缩包6.42GB,原始32.11GB 百度网盘 提取码: 5pwq
20230164.zip 压缩包6.42GB,原始32.1GB 百度网盘 提取码: 28fg
20230165.zip 压缩包6.4GB,原始32.02GB 百度网盘 提取码: uxeq
20230166.zip 压缩包6.45GB,原始32.19GB 百度网盘 提取码: n28t
20230167.zip 压缩包6.4GB,原始32.05GB 百度网盘 提取码: k279
20230168.zip 压缩包6.42GB,原始32.02GB 百度网盘 提取码: i9t4
20230169.zip 压缩包6.42GB,原始32.04GB 百度网盘 提取码: gdyk
20230170.zip 压缩包6.42GB,原始32.03GB 百度网盘 提取码: 441v python 把多个txt文件合并为一个txt文件 修改fashion_mnist.load_data()源码加载本地fashion_mnist数据集 |