用中文社区的力量,为中文AI训练提供充足的粮草。
MNBVC一周年总结
MNBVC项目于2023年1月1日正式启动,由里屋社区资深用户等战、零零发和龙骑兵的发起下,集结了广大志愿者共同参与,致力于构建一个超大规模的中文语料集。项目的主要目的是为中文自然语言处理提供高质量的数据资源,支持中文信息技术的发展。
项目名称【MNBVC】既是里屋社区早期时使用过的一个域名,也是“超大规模中文语料集”(Massive Never-ending BT Vast Chinese corpus)的缩写。
回首过去这一年,我们从一脸茫然但是目标鉴定的状态下,从自己收集语料和搭建一个简陋的项目主页开始启动了这个项目。最开始提出的对标GPT3.5 的40TB语料内容一度感觉遥不可及,到现在截止到2023年12月31日,我们居然已经清洗完成超过27TB的语料并上传,开源分享出去。似乎都觉得有些不可思议。
一年以来,MNBVC项目一共成立了15个专项任务小组,有3个项目经理、11个专项任务组长和61位开源项目参与组员,为项目开发工作做出了贡献,推动并实现了今天大家看到的MNBVC项目的所有成果。
社区一些网友对这个项目也从一开始完全不懂一脸懵逼“What are U 弄啥嘞”,到后来纷纷参与项目里各项语料收集行动,即便是对AI、对LLM不太了解的人也在努力的为这个中国AI基础项目贡献自己的力量。
感谢大家的支持,感谢所有参与者的支持!
回首2023年,我们做了这样一些事:
语料集规模及清洗
经过一年的努力,我们成功清洗了超过27TB的语料集,远超项目初期的预期。完成项目发起之初的40T语料目标的68.7%。这一成就标志着MNBVC项目在数据规模方面达到了新的高度。
志愿者参与及任务完成
来自全球的超过116名志愿者积极报名参与项目,共完成了219项开发任务。我们还组织了4次学术分享活动,召开了超过215次的会议,确保了项目的顺利进行。
小组建立完善了项目流程
目前,项目已建立14个专业小组,包括数据收集组、数据标准化组等。明年,我们计划筹建开源补丁组、智能测试组、基础保障组等新小组。
社区影响力
MNBVC项目在Github上建立了项目页面,获得超过2500个stars,同时建立了官方主页和 MNBVC wiki项目,总结了项目的所有经验和成果。
行业专家的加入
多位业界大神加入MNBVC项目,给与了MNBVC语料集很多帮助。包括:符尧,苏剑林,彭博,李沐,刘凯…
我们的语料集已被大多数中文模型采用,对整个中文信息技术领域产生了深远影响。
在2023年9月5日召开的百度云智2023大会上,百度的大模型专家在介绍数据集的时候,把MNBVC排到了最前面。
工具完善
项目团队共建立了18个语料处理工具的子项目,进一步提升了数据处理的效率和质量。
定期月报
为了保持透明度和持续性,我们实现了每月发布一份项目进展月报的目标,项目做到了每个月都有一份主动的定期月报,向社区汇报MNBVC项目的进展情况。
数据收集组为了收集语料发起了包括“语料元气弹”,“小河流水”和“汪洋大海”等项目,有力的支持了整个语料集的建设。
感谢所有开发小组的组长
Jia Li
负责平行语料小组和问答语料小组。是法国一家公司的CTO,已财富自由。参与huggingface的bigcode项目,stack code的数据库主要作者,非常乐于分享经验。带着公司同事加入MNBVC项目,是MNBVC项目最早的组长之一。
阿汐(Alan)
负责语料增强小组。里屋成都分部的成员,在中文乱码问题研究上做了非常多的研究,编写了很多文档来说明乱码问题。是对中文乱码问题研究最深的人之一,同时也是MNBVC项目最早的组长之一。
花火火
原负责数据清洗小组和数据标准化小组。贡献了非常多的代码,包括格式转换、去重、解压缩等等,是编码快枪手。目前暂离项目,正在考研,预祝成功上岸。
红酒炖香鸡(熊熊)
负责数据清洗小组和数据标准化小组。大厂的算法大佬,CV和NLP资深研究者,做事认真且仔细。对数据清洗有很多经验总结,并且很乐意给大家分享。
washing
负责代码语料小组。代码快枪手,就是快,发邮件都带错字的那种快。从不懂算法,到带组员每周周会读论文,是项目组里的成长最快的同学。最近也随着能力变强换了更好的工作。
wanng
负责多模态语料小组,日本某大学NLP和多模态方向的博士,带着师弟师妹们一起参加MNBVC的工作。
苍绮皓
负责多模态语料小组。文档智能研究者,目前负责 PDF 数据内容解析。为 AI 可以读懂各种各样的内容而努力奋斗。
银河
负责数据发布小组(号称小组但其实从来没给他分过人),大厂算法大佬,朋友圈里全是招聘。长期负责huggingface的数据上传工作,老想着摸鱼,但就不让他摸,被催债最多的苦力。huggingface更新不及时或者有报错、以及issue回复不及时都是他的锅。
xclimbing
负责数据存储小组,里屋成员,奔60的快退休的公务员。很会向上沟通,天天催项目组提供资源,但项目组就是哭穷啥都不给。
n_g
负责数据收集小组,里屋成员,勤勤恳恳的为项目一直做贡献。MNBVC项目啥地方缺人了,第一反应都是把他先填过去干一下。
water
原负责代码语料小组。腌入味儿的多年老程,四十多岁但仍然奋斗在编码一线的很有经验的程序员。几乎靠一己之力完成了早期代码语料小组的大量编码工作。
特别感谢
MNBVC项目三个项目经理:
在项目实施过程中展现出了卓越的领导才能和组织能力。能够有效地协调团队成员,确保项目进度和质量达到预期目标。
他们的专业素养和责任心为项目的成功实施提供了坚实的保障。
数据清洗小组&数据标准化小组
南山居士 、yufei、long、邬柏、纱代、draw、Pomelo、黎吉国
数据分发小组
pippipe、急云、catoxs、Ryan2016
数据收集小组
jooyi、武田信玄、倾听、cfan小破孩
数据发布小组
家铭
代码语料小组
廖星宇、子轩、🍋(盛同学)、林夕、智、逃课的人工智能、byeah、zhange、天空、棒、清泠、代码熊猫
语料增强小组:
花花、晓亮、王靖淞、张旭、326、春平、纱代、TA
平行语料小组
夜夜,CH3CH2OH,Xec,易水,阿伟,青禾,耿鬼
问答语料小组
图北,阿伟,挖泥船,Roger,curry,万璞瑀
多模态小组
风花(bhonny)、Tim、Akira、henry、赵山河、临风(leamon)、Catty、小河流水、四道风、王哪跑
智能测试小组(筹)
崔自成