Linux命令之大文件分割_飞道的博客

2020-06-13 11:48 1080人阅读评论(0)

我们有时候会遇到大文件需要处理，当文件过大时，Linux中使用vim、cat、vim、grep、awk 等这些工具对大文件进行分析执行速度缓慢，占用内存资源大，文件传输慢；

下面我有一个原始文件，sourcelist.xlsx ，比较大了，5G多，光是用wc -l统计行数，时间就花费了3分钟；

linux命令 split提供两种方式（按照行切割、或者按照大小切割，见后面第1和第2步骤）对文件进行切割：

1、根据行数切割，-l参数，以下命令是50w行一个文件， --verbose表示显示执行的详细过程，sourcelist.xlsx原文件名，target.xlsx是分割以后目标文件名：

split -l 500000 -d --verbose sourcelist.xlsx target.xlsx

生成后的文件名有一点问题，我们本来需要的是*.xlsx文件后缀，现在分割后的文件序号跑到了文件后缀的后面，需要处理一下：

for i in `ls|grep target`; do a=`echo $i|awk -F '.xlsx' '{print $1$2".xlsx"}'`; mv $i $a; done （这个命令我问的运维），执行完后：

然后我们再来看分割后的文件，行数是否跟之前预期匹配，貌似没有问题，50w行：wc -l target11.xlsx ，wc -l target12.xlsx

但是分割以后的文件大小不一样，因为每行文件内容不一样，所以下面第2种方式，按照大小分割的命令，我们不太推荐：

2、根据大小切割，-b（不推荐这种方式，如果linux强行按照大小去分割文件，那么可能会破坏原始数据的格式完整性，比如刚好在某一行数据中间，前后就被分割到了相邻的两个文件中）

split -b 60M -d --verbose sourcelist.xlsx target.xlsx，分割以后的文件如下：

3、说完了分割，那么合并文件的方式呢？

cat 命令

cat target00.xlsx target01.xlsx > targetmerge.xlsx，合并后的targetmerge.xlsx大小 120mb，合理：

备注：在上面第1步，split -l 500000 -d --verbose sourcelist.xlsx target.xlsx命令生成新文件，关于格式后缀的问题，

其实可以先生成得时候不加后缀，： split -l 500000 -d --verbose sourcelist.xlsx target

target**就是新文件名，我们通过命令来统一给新生成的文件再加上后缀：

find ./ -name 'target*' -printf %f\\n|awk -F'.' '{print $1}'|xargs -i{} mv {} {}.xlsx

查看评论