用户工具

站点工具


数据打包小组常用shell命令

差别

这里会显示出您选择的修订版和当前版本之间的差别。

到此差别页面的链接

两侧同时换到之前的修订记录前一修订版
后一修订版
前一修订版
数据打包小组常用shell命令 [2024/04/11 16:31] MNBVC项目组数据打包小组常用shell命令 [2025/07/17 10:33] (当前版本) MNBVC项目组
行 159: 行 159:
 == 只出现在b文件中的行 == == 只出现在b文件中的行 ==
   comm -13 a b > c   comm -13 a b > c
 +  
 +== 远程同步文件夹 ==
 +  rsync --progress --partial -avz -e "ssh -p 22566" xxx@xxx.org:/home/data/ ./data/
 +  
 +== 批量解压目录下的zip包 ==
 +  find . -maxdepth 1 -name "*.zip" -exec unzip -n -q {} \;
 +  
 +== 批量生成目录 ==
 +  for day in {02..99}; do mkdir -p "./202503${day}/github.202503${day}.1.代码/"; done
 +  
 +== 查看parquet数据 ==
 +  parquet-tools show --head 1 test.parquet
 +  
 +== 使用代理和解除代理 == 
 +  export https_proxy=http://192.168.0.115:7890 http_proxy=http://192.168.0.115:7890 all_proxy=socks5://192.168.0.115:7890
 +  unset https_proxy
 +  
 +== 删除到某个关键词前的数据行 == 
 +  sed '1,/WO1984000765/d' wipo_urls.txt.1w_50w > wipo_urls.txt                    
 +  
数据打包小组常用shell命令.1712824301.txt.gz · 最后更改: (外部编辑)