数据故事
这是本文档旧的修订版!
pile数据集 大概有1/3的作者故意重复的数据,作者会在一篇文章内,将其中的段落都重复保存。使用这份数据做训练需要注意段落级别的去重重组。
数据故事.1690335957.txt.gz · 最后更改: (外部编辑)
这是本文档旧的修订版!
pile数据集 大概有1/3的作者故意重复的数据,作者会在一篇文章内,将其中的段落都重复保存。使用这份数据做训练需要注意段落级别的去重重组。