用户工具

站点工具


github分布式爬取

差别

这里会显示出您选择的修订版和当前版本之间的差别。

到此差别页面的链接

两侧同时换到之前的修订记录前一修订版
后一修订版
前一修订版
github分布式爬取 [2023/09/16 00:44] Linglingfagithub分布式爬取 [2025/06/02 15:17] (当前版本) – 外部编辑 127.0.0.1
行 1: 行 1:
-**第一步**:从''[[liwu:longqibing|龙骑兵]]''和''[[liwu:userNG|NG]]''处获取 ''repos_list.txt'' 文件和你自己系统对应的''爬虫工具''+**第一步**:从''[[liwu:longqibing|龙骑兵]]''和''[[liwu:userNG|N_G]]''处获取 ''repos_list.txt'' 文件和你自己系统对应的''爬虫工具''
  
 **第二步**: **第二步**:
行 15: 行 15:
   * 程序正常终止时会在最后输出 ''ALL DONE AT + 时间'' 的字样,这种情况可尝试再运行几次第三步,会重新扫描并下载之前有问题的部分;   * 程序正常终止时会在最后输出 ''ALL DONE AT + 时间'' 的字样,这种情况可尝试再运行几次第三步,会重新扫描并下载之前有问题的部分;
   * 待观察 ''output'' 文件夹大小为 20G 左右,且不再有增长时,可视为爬虫完全结束。   * 待观察 ''output'' 文件夹大小为 20G 左右,且不再有增长时,可视为爬虫完全结束。
 +  * 正常结束后会出现以下文字:
 +
 +{{:a7b0fa53d2b73e3d63227f342847276.png?400|}}
  
 **提交**:将整个 ''output'' 文件夹压缩成 ''zip'' 文件,并设置解压密码为 ''253874'',压缩完成后提交即可。 **提交**:将整个 ''output'' 文件夹压缩成 ''zip'' 文件,并设置解压密码为 ''253874'',压缩完成后提交即可。
github分布式爬取.1694796292.txt.gz · 最后更改: (外部编辑)