基于mnbvc的平行语料统计常见语种的使用频率最高的前1000个字符(CJK文字可能会上千,英文或拉丁语系可能只有几十个英文字符)。注意需要去掉在不同语种当中相同的字符编码,保持每个语种每一个字符都是全局唯一编码。 语料参考 [[https://hf-mirror.com/datasets/liwu/MNBVC/tree/main/game/Genshin_Anime/20230901]]