用户工具

站点工具


github分布式爬取

这是本文档旧的修订版!


第一步:从龙骑兵NG处获取 repos_list.txt 文件和你自己系统对应的爬虫工具

第二步:在剩余空间不小于100G的磁盘上新建一个文件夹,将 repos_list.txt 文件和爬虫工具一起放到里面;

第三步

  • windows用户双击 run.exe 文件即可运行;
  • mac 用户在当前目录打开终端,运行 ./run。(可能会需要输入电脑密码)

其他

  • 下载时会在当前文件夹下生成一个 output 文件夹,里面用来保存最终要提交的内容;
  • 爬取过程中可以随时中断,中断后也可以通过执行第三步操作来继续爬取;
  • 程序正常终止时会在最后输出 ALL DONE AT + 时间 的字样,这种情况可尝试再运行几次第三步,会重新扫描并下载之前有问题的部分;
  • 待观察 output 文件夹大小为 20G 左右,且不再有增长时,可视为爬虫完全结束。

提交:将整个 output 文件夹压缩成 zip 文件,并设置解压密码为 253874,压缩完成后提交即可。

github分布式爬取.1694504968.txt.gz · 最后更改: (外部编辑)