用户工具

站点工具


github分布式爬取

差别

这里会显示出您选择的修订版和当前版本之间的差别。

到此差别页面的链接

后一修订版
前一修订版
github分布式爬取 [2023/09/12 15:49] – 创建 MNBVC项目组github分布式爬取 [2025/06/02 15:17] (当前版本) – 外部编辑 127.0.0.1
行 1: 行 1:
-**第一步**:从''龙骑兵''和''NG''处获取 ''repos_list.txt'' 文件和你自己系统对应的''爬虫工具''+**第一步**:从''[[liwu:longqibing|龙骑兵]]''和''[[liwu:userNG|N_G]]''处获取 ''repos_list.txt'' 文件和你自己系统对应的''爬虫工具''
  
-**第二步**:在剩余空间不小于100G的磁盘上新建一个文件夹,将 ''repos_list.txt'' 文件和爬虫工具一起放到里面;+**第二步**: 
 +  * windows和mac用户在剩余空间不小于100G的磁盘上新建一个文件夹,将 ''repos_list.txt'' 文件和爬虫工具一起放到里面; 
 +  * linux用户将拿到的压缩包解压,并将 ''repos_list.txt'' 文件放到和 ''run.py'' 脚本相同目录。
  
 **第三步**: **第三步**:
   * windows用户双击 ''run.exe'' 文件即可运行;   * windows用户双击 ''run.exe'' 文件即可运行;
   * mac 用户在当前目录打开终端,运行 ''./run''。(可能会需要输入电脑密码)   * mac 用户在当前目录打开终端,运行 ''./run''。(可能会需要输入电脑密码)
 +  * linux用户需先执行 ''pip install -r requirements.txt'' 命令来安装依赖,再执行 ''python run.py'' 来启动脚本。
  
 **其他**: **其他**:
行 12: 行 15:
   * 程序正常终止时会在最后输出 ''ALL DONE AT + 时间'' 的字样,这种情况可尝试再运行几次第三步,会重新扫描并下载之前有问题的部分;   * 程序正常终止时会在最后输出 ''ALL DONE AT + 时间'' 的字样,这种情况可尝试再运行几次第三步,会重新扫描并下载之前有问题的部分;
   * 待观察 ''output'' 文件夹大小为 20G 左右,且不再有增长时,可视为爬虫完全结束。   * 待观察 ''output'' 文件夹大小为 20G 左右,且不再有增长时,可视为爬虫完全结束。
 +  * 正常结束后会出现以下文字:
 +
 +{{:a7b0fa53d2b73e3d63227f342847276.png?400|}}
  
 **提交**:将整个 ''output'' 文件夹压缩成 ''zip'' 文件,并设置解压密码为 ''253874'',压缩完成后提交即可。 **提交**:将整个 ''output'' 文件夹压缩成 ''zip'' 文件,并设置解压密码为 ''253874'',压缩完成后提交即可。
github分布式爬取.1694504968.txt.gz · 最后更改: (外部编辑)