cjk中文需求
这是本文档旧的修订版!
全部转换成utf-8之后的语料,判断其是否为简体中文。
- 去除掉中文常用符号范围内的字符,不作为阈值比较。
- 判断简体中文加英文的比例大于95%。
- 95-99%之间的数据误差,人眼核对。
cjk中文需求.1713619401.txt.gz · 最后更改: (外部编辑)
这是本文档旧的修订版!
全部转换成utf-8之后的语料,判断其是否为简体中文。