• MNBVC

    Massive Never-ending BT Vast Chinese corpus
    超大规模中文语料集

    用中文社区的力量,为中文AI训练提供充足的粮草。

  • MNBVC一周年总结

    MNBVC项目于2023年1月1日正式启动,由里屋社区资深用户等战、零零发和龙骑兵的发起下,集结了广大志愿者共同参与,致力于构建一个超大规模的中文语料集。项目的主要目的是为中文自然语言处理提供高质量的数据资源,支持中文信息技术的发展。

     

    项目名称【MNBVC】既是里屋社区早期时使用过的一个域名,也是“超大规模中文语料集”(Massive Never-ending BT Vast Chinese corpus)的缩写。

     

    回首过去这一年,我们从一脸茫然但是目标鉴定的状态下,从自己收集语料和搭建一个简陋的项目主页开始启动了这个项目。最开始提出的对标GPT3.5 的40TB语料内容一度感觉遥不可及,到现在截止到2023年12月31日,我们居然已经清洗完成超过27TB的语料并上传,开源分享出去。似乎都觉得有些不可思议。

     

    一年以来,MNBVC项目一共成立了15个专项任务小组,有3个项目经理、11个专项任务组长和61位开源项目参与组员,为项目开发工作做出了贡献,推动并实现了今天大家看到的MNBVC项目的所有成果。

     

    社区一些网友对这个项目也从一开始完全不懂一脸懵逼“What are U 弄啥嘞”,到后来纷纷参与项目里各项语料收集行动,即便是对AI、对LLM不太了解的人也在努力的为这个中国AI基础项目贡献自己的力量。

     

    感谢大家的支持,感谢所有参与者的支持!

     

  • MNBVC是一个开源项目,我们致力于收集整理和清洗一切中文信息,为中文AI大模型训练提供预料支持。

    回首2023年,我们做了这样一些事:

    语料集规模及清洗

     

    经过一年的努力,我们成功清洗了超过27TB的语料集,远超项目初期的预期。完成项目发起之初的40T语料目标的68.7%。这一成就标志着MNBVC项目在数据规模方面达到了新的高度。

    志愿者参与及任务完成

    来自全球的超过116名志愿者积极报名参与项目,共完成了219项开发任务。我们还组织了4次学术分享活动,召开了超过215次的会议,确保了项目的顺利进行。

    小组建立完善了项目流程

    目前,项目已建立14个专业小组,包括数据收集组、数据标准化组等。明年,我们计划筹建开源补丁组、智能测试组、基础保障组等新小组。

    社区影响力

     

    MNBVC项目在Github上建立了项目页面,获得超过2500个stars,同时建立了官方主页MNBVC wiki项目,总结了项目的所有经验和成果。

    行业专家的加入

    多位业界大神加入MNBVC项目,给与了MNBVC语料集很多帮助。包括:符尧,苏剑林,彭博,李沐,刘凯…

    广泛应用

     

    我们的语料集已被大多数中文模型采用,对整个中文信息技术领域产生了深远影响。

    在2023年9月5日召开的百度云智2023大会上,百度的大模型专家在介绍数据集的时候,把MNBVC排到了最前面。

    工具完善

     

    项目团队共建立了18个语料处理工具的子项目,进一步提升了数据处理的效率和质量。

    定期月报

     

    为了保持透明度和持续性,我们实现了每月发布一份项目进展月报的目标,项目做到了每个月都有一份主动的定期月报,向社区汇报MNBVC项目的进展情况。

    发起多个专项语料收集项目

    数据收集组为了收集语料发起了包括“语料元气弹”,“小河流水”和“汪洋大海”等项目,有力的支持了整个语料集的建设。

  • 感谢所有开发小组的组长

    Jia Li

    负责平行语料小组和问答语料小组。是法国一家公司的CTO,已财富自由。参与huggingface的bigcode项目,stack code的数据库主要作者,非常乐于分享经验。带着公司同事加入MNBVC项目,是MNBVC项目最早的组长之一。

     

    阿汐(Alan)

    负责语料增强小组。里屋成都分部的成员,在中文乱码问题研究上做了非常多的研究,编写了很多文档来说明乱码问题。是对中文乱码问题研究最深的人之一,同时也是MNBVC项目最早的组长之一。

     

    花火火

    原负责数据清洗小组和数据标准化小组。贡献了非常多的代码,包括格式转换、去重、解压缩等等,是编码快枪手。目前暂离项目,正在考研,预祝成功上岸。

     

    红酒炖香鸡(熊熊)

    负责数据清洗小组和数据标准化小组。大厂的算法大佬,CV和NLP资深研究者,做事认真且仔细。对数据清洗有很多经验总结,并且很乐意给大家分享。

     

    washing

    负责代码语料小组。代码快枪手,就是快,发邮件都带错字的那种快。从不懂算法,到带组员每周周会读论文,是项目组里的成长最快的同学。最近也随着能力变强换了更好的工作。

     

    wanng

    负责多模态语料小组,日本某大学NLP和多模态方向的博士,带着师弟师妹们一起参加MNBVC的工作。

     

    苍绮皓

    负责多模态语料小组。文档智能研究者,目前负责 PDF 数据内容解析。为 AI 可以读懂各种各样的内容而努力奋斗。

     

    银河

    负责数据发布小组(号称小组但其实从来没给他分过人),大厂算法大佬,朋友圈里全是招聘。长期负责huggingface的数据上传工作,老想着摸鱼,但就不让他摸,被催债最多的苦力。huggingface更新不及时或者有报错、以及issue回复不及时都是他的锅。

     

    xclimbing

    负责数据存储小组,里屋成员,奔60的快退休的公务员。很会向上沟通,天天催项目组提供资源,但项目组就是哭穷啥都不给。

     

    n_g

    负责数据收集小组,里屋成员,勤勤恳恳的为项目一直做贡献。MNBVC项目啥地方缺人了,第一反应都是把他先填过去干一下。

     

    water

    原负责代码语料小组。腌入味儿的多年老程,四十多岁但仍然奋斗在编码一线的很有经验的程序员。几乎靠一己之力完成了早期代码语料小组的大量编码工作。

  • 特别感谢

    MNBVC项目三个项目经理:

    tasin、冷场、大光

    在项目实施过程中展现出了卓越的领导才能和组织能力。能够有效地协调团队成员,确保项目进度和质量达到预期目标。

    他们的专业素养和责任心为项目的成功实施提供了坚实的保障。

    特别感谢下列61名项目成员,为mnbvc项目开发付出了大量的工作时间,并出色的完成了大量的工作。

     

    数据清洗小组&数据标准化小组

    南山居士 、yufei、long、邬柏、纱代、draw、Pomelo、黎吉国

     

    数据分发小组

    pippipe、急云、catoxs、Ryan2016

     

    数据收集小组

    jooyi、武田信玄、倾听、cfan小破孩

     

    数据发布小组

    家铭

     

    代码语料小组

    廖星宇、子轩、🍋(盛同学)、林夕、智、逃课的人工智能、byeah、zhange、天空、棒、清泠、代码熊猫

     

    语料增强小组:

    花花、晓亮、王靖淞、张旭、326、春平、纱代、TA

     

    平行语料小组

    夜夜,CH3CH2OH,Xec,易水,阿伟,青禾,耿鬼

     

    问答语料小组

    图北,阿伟,挖泥船,Roger,curry,万璞瑀

     

    多模态小组

    风花(bhonny)、Tim、Akira、henry、赵山河、临风(leamon)、Catty、小河流水、四道风、王哪跑

     

    智能测试小组(筹)

    崔自成

  • 感谢!

    亲爱的MNBVC项目贡献者们, 随着2023年的落幕,我们想要特别感谢每一位为MNBVC项目付出努力和智慧的朋友。您的贡献不仅推动了项目的进步,也为我们整个社区带来了无限的活力和创新。

     

    我们深知,无论是代码贡献、文档编写,还是提出宝贵的意见和建议,每一份努力都是对MNBVC不可或缺的支持。您的每一行代码、每一个想法都在为这个项目的成长和完善贡献力量。

     

    请允许我们对Acmolin, Alan, Alan Zhang, Amen, Ayn, Betterme, Byeah, Catoxs, CG, Curry, Dreamer, Entropy, Hcw, Henry, IT-5, Jane·H, JANSON, Jia Li, Jiayu, Jiguo, Keene, Larryisthere, Lingeo, Long, Messi, Morty, Ng, Pomelo, Rahos, Rock修, Rood, Ryan, Standy, Tim, Vision, Wanng, Washing, Water, Xclimbing, XEC, Yufei, YzLiang, Zhange, Zzm88, 阿樊提, 棒,北玥,波波ouba, 苍绮皓, 炒饭, 陈, 大光, 等战, 耿鬼, 花火火, 急云, 叫我向量, 九筒, 可达鸭, 罗杰, 李方文, 李沐, 廖星宇,零零发, 刘家伟, 刘亚林, 刘潇, 刘仙升, 龙骑兵, 莫慢待, 南方,逆流时光, 皮皮, 千总, 青禾, 清冷, 荣荣, 庞伟, 秦总, 邱吕扬,盛鹏展, 守明,四道风, 图北, 万璞瑀, 王靖淞, 王哪跑, 王潇Xiao, 挖泥船,银河, 一骑红尘妃子笑, 易水, 夜夜, 杨家铭, 叶宁荣, 笑将, 小赵, 伊莉伊莉雅,智, 张艳, 张磊, 张睿, 张旭, 郑子安, 子轩,洲……

     

    等所有贡献者表示最深的感谢。

     

    让我们共同期待MNBVC在新的一年里取得更大的成就。感谢您与我们同行,让这个项目变得更加卓越和丰富多彩!