2025年3月17日 星期一 甲辰(龙)年 月十六 设为首页 加入收藏
rss
您当前的位置:首页 > 计算机 > 系统应用 > Linux

Linux文本命令技巧(下)

时间:01-25来源:作者:点击数:46

简介#

前一篇介绍了Linux中一些基本的文本命令与使用技巧,但是结合场景过少,本篇结合工作中一些常见的场景介绍一些技巧。

数据提取#

数据提取在文本处理中是常见,提取单个值可以使用grep -o功能,如下:

  • # 如下ifconfig的输出,目标是提取inet后面的ip
  • $ ifconfig
  • eth0: flags=4163<UP,BROADCAST,RUNNING,MULTICAST> mtu 1500
  • inet 172.22.82.18 netmask 255.255.240.0 broadcast 172.22.95.255
  • inet6 fe80::215:5dff:fec7:b486 prefixlen 64 scopeid 0x20<link>
  • ether 00:15:5d:c7:b4:86 txqueuelen 1000 (Ethernet)
  • RX packets 130047 bytes 83292033 (83.2 MB)
  • RX errors 0 dropped 0 overruns 0 frame 0
  • TX packets 72272 bytes 7117481 (7.1 MB)
  • TX errors 0 dropped 0 overruns 0 carrier 0 collisions 0
  • lo: flags=73<UP,LOOPBACK,RUNNING> mtu 65536
  • inet 127.0.0.1 netmask 255.0.0.0
  • inet6 ::1 prefixlen 128 scopeid 0x10<host>
  • loop txqueuelen 1000 (Local Loopback)
  • RX packets 0 bytes 0 (0.0 B)
  • RX errors 0 dropped 0 overruns 0 frame 0
  • TX packets 0 bytes 0 (0.0 B)
  • TX errors 0 dropped 0 overruns 0 carrier 0 collisions 0
  • # 通过-o可以仅输出匹配的部分,而不是匹配的行
  • $ ifconfig|grep -oP 'inet \w+.\w+.\w+.\w+'
  • inet 172.22.82.18
  • inet 127.0.0.1
  • # 通过添加\K,能够指定只输出\K后面的部分,而不是匹配部分
  • $ ifconfig|grep -oP 'inet \K\w+.\w+.\w+.\w+'
  • 172.22.82.18
  • 127.0.0.1

这样虽然达到了提取单个值的效果,但如果我们需要同时提取ip与netmask呢?仅通过grep就不那么容易实现了,如下:

  • # \K的效果,并没有只提取ip与netmask
  • $ ifconfig|grep -oP 'inet \K\w+.\w+.\w+.\w+ netmask \w+.\w+.\w+.\w+'
  • 172.22.82.18 netmask 255.255.240.0
  • 127.0.0.1 netmask 255.0.0.0
  • # 这里最直接的方法,是使用pcre2grep,它提供了捕获组的功能
  • $ ifconfig|pcre2grep -O '$1 $2' 'inet (\w+.\w+.\w+.\w+) netmask (\w+.\w+.\w+.\w+)'
  • 172.22.82.18 255.255.240.0
  • 127.0.0.1 255.0.0.0
  • # 也可以使用sed、awk来实现
  • $ ifconfig|sed -nE 's/.*inet (\w+.\w+.\w+.\w+) netmask (\w+.\w+.\w+.\w+).*/\1 \2/p'
  • 172.22.82.18 255.255.240.0
  • 127.0.0.1 255.0.0.0
  • $ ifconfig|awk 'match($0,/inet (\w+.\w+.\w+.\w+)/, a) && match($0,/netmask (\w+.\w+.\w+.\w+)/,b){print a[1],b[1]}'
  • 172.22.82.18 255.255.240.0
  • 127.0.0.1 255.0.0.0
  • # 通过shell的BASH_REMATCH也可以,这种相当于写脚本了,注意:BASH_REMATCH不支持\w,特殊字符需要用\转义
  • $ ifconfig|while read line;do [[ "$line" =~ inet\ ([0-9]+.[0-9]+.[0-9]+.[0-9]+)\ \ netmask\ ([0-9]+.[0-9]+.[0-9]+.[0-9]+) ]] && echo ${BASH_REMATCH[1]} ${BASH_REMATCH[2]}; done
  • 172.22.82.18 255.255.240.0
  • 127.0.0.1 255.0.0.0

最后一列带分隔符问题#

有些时候,文本的最后一列会包含分隔符,这种情况会使得cut、awk之类的命令处理起来很困难,比如ps -ef的输出:

  • # ps -f输出中的CMD字段值本身带有空格
  • $ ps -f
  • UID PID PPID C STIME TTY TIME CMD
  • root 2282 2281 0 Jan21 pts/1 00:00:00 /bin/bash -l -i -c . /mnt/c/Users/root/AppData/Local/Temp/Mxt123/tmp/MOBASC~2.SH;bash -i
  • root 2295 2282 0 Jan21 pts/1 00:00:04 bash -i
  • root 18166 2295 0 12:02 pts/1 00:00:00 ps -f
  • # 直接用awk来提取PID、CMD列,会发现CMD列丢失了一部分
  • $ ps -f|awk '{print $2,$8}'
  • PID CMD
  • 2282 /bin/bash
  • 2295 bash
  • 18177 ps
  • 18178 awk
  • # 办法1,使用split函数,然后定义一个jointon函数,将分拆的CMD列拼接还原
  • $ ps -ef|awk 'function jointon(f,s,n){for(i=n+1;i<=length(f);i++){f[n]=f[n] s[i-1] f[i]};return 1}
  • split($0,f,/\s+/,s) && jointon(f,s,8){print f[2],f[8]}'
  • PID CMD
  • 2282 /bin/bash -l -i -c . /mnt/c/Users/root/AppData/Local/Temp/Mxt123/tmp/MOBASC~2.SH;bash -i
  • 2295 bash -i
  • 18235 ps -f
  • # 办法2,将CMD列中的空格替换为特殊字符,之后再替换回来
  • $ ps -f|sed -E 's/\s+/-_-/8g'|awk '{print $2,$8}'|sed -E 's/-_-/ /g'
  • PID CMD
  • 2282 /bin/bash -l -i -c . /mnt/c/Users/root/AppData/Local/Temp/Mxt123/tmp/MOBASC~2.SH;bash -i
  • 2295 bash -i
  • 18221 ps -f
  • # 办法3,从CMD前将一行切成2行,并添加一个空行便于awk按段划分记录
  • $ ps -f|sed -E 's/\s+/\n/7;a\\n'
  • UID PID PPID C STIME TTY TIME
  • CMD
  • root 2282 2281 0 Jan21 pts/1 00:00:00
  • /bin/bash -l -i -c . /mnt/c/Users/root/AppData/Local/Temp/Mxt123/tmp/MOBASC~2.SH;bash -i
  • root 2295 2282 0 Jan21 pts/1 00:00:04
  • bash -i
  • root 18254 2295 0 12:15 pts/1 00:00:00
  • ps -f
  • $ ps -f|sed -E 's/\s+/\n/7;a\\n'|awk -F'\n' -v RS='' 'split($1,a,/\s+/){print a[2],$2}'
  • PID CMD
  • 2282 /bin/bash -l -i -c . /mnt/c/Users/root/AppData/Local/Temp/Mxt123/tmp/MOBASC~2.SH;bash -i
  • 2295 bash -i
  • 18295 ps -f

字符串连接#

将一行一行的数据,用某个字符拼接成一行,这个也非常有用,如下:

  • # 用paste是最简单的办法
  • $ seq 9|paste -s -d,
  • 1,2,3,4,5,6,7,8,9
  • # 用tr将换行符替换为,也可以
  • $ seq 9|tr '\n' ','
  • 1,2,3,4,5,6,7,8,9,
  • # xargs配合printf也可以,但注意xargs有时会将"抹掉,这时可加上-d'\n'解决
  • $ seq 9|xargs printf "%s,"
  • 1,2,3,4,5,6,7,8,9,
  • # sed将换行符替换为,也可以,不过这里需要使用-z选项将所有行读取进来,不然sed是一行一行处理的
  • $ seq 9|sed -z 's/\n\b/,/g'
  • 1,2,3,4,5,6,7,8,9
  • # awk当然也可以
  • $ seq 9|awk 'NR>1{printf ","}{printf $0}'
  • 1,2,3,4,5,6,7,8,9
  • $ seq 9|awk -v RS='^$' '{gsub(/\n/, ",", $0);print $0}'
  • 1,2,3,4,5,6,7,8,9,

数据变换#

将数据做简单的变换也是很常用的,什么是变换看看下面的例子就知道了:

  • # 用sed直接替换
  • $ seq 5|sed -E 's/.+/{"orderId":"&"}/'
  • {"orderId":"1"}
  • {"orderId":"2"}
  • {"orderId":"3"}
  • {"orderId":"4"}
  • {"orderId":"5"}
  • # 用awk当然也可以
  • $ seq 5|awk -v f='{"orderId":"%s"}\n' '{printf f,$0}'
  • {"orderId":"1"}
  • {"orderId":"2"}
  • {"orderId":"3"}
  • {"orderId":"4"}
  • {"orderId":"5"}
  • # xargs配合printf也行
  • $ seq 5|xargs printf '{"orderId":"%s"}\n'
  • {"orderId":"1"}
  • {"orderId":"2"}
  • {"orderId":"3"}
  • {"orderId":"4"}
  • {"orderId":"5"}

上面都是单行变换,有时我们还需要分组,比如每3行分一组,如下:

  • # 分组的话,这里最简单就是用paste
  • # 每3个一组,就用3个-
  • $ seq 8|paste -d, - - -
  • 1,2,3
  • 4,5,6
  • 7,8,
  • # 同样使用paste分组,这里- - -,是用yes加head生成的,不然如果1000个分一组,难道还手写1000个-
  • $ seq 8|paste -d, $(yes -|head -n3)
  • 1,2,3
  • 4,5,6
  • 7,8,
  • # 还是paste分组,不过分隔符指定多个,循环使用
  • $ seq 8|paste -sd "$(yes ,|head -n2|tr -d '\n')\n"
  • 1,2,3
  • 4,5,6
  • 7,8
  • # 用parallel加paste也很简单,这里parallel将每3行输入到一个paste命令里面去
  • $ seq 8|parallel --pipe -N3 paste -d, -s
  • 1,2,3
  • 4,5,6
  • 7,8
  • # xargs配合printf
  • $ seq 8|xargs -L3 bash -c 'printf "$@" && echo' - '%s,'
  • 1,2,3,
  • 4,5,6,
  • 7,8,
  • # xargs配合IFS
  • $ seq 8|xargs -L3 bash -c 'IFS=,; echo "$*"' -
  • 1,2,3
  • 4,5,6
  • 7,8
  • # sed也可以,用到了sed的分支功能,sed的一种高级用法
  • # :a表示一个标签,N表示将下一行也读取进来,而ba表示回到这个标签再次执行,所以0~3!{$!ba}表示读3行或读到最后一行
  • # s/\n/,/g替换换行为逗号,所以每读到的3行文本,就变成了逗号连接的3列
  • $ seq 8|sed ':a;N;0~3!{$!ba};s/\n/,/g'
  • 1,2,3
  • 4,5,6
  • 7,8
  • # awk当然也可以
  • $ seq 8|awk 'NR%3!=1{s=s","$0} NR%3==1{if(s)print s;s=$0} END{print s}'
  • 1,2,3
  • 4,5,6
  • 7,8

然后将上面两种方法一起使用,就可以达到先变换再分组的效果了,如下:

  • $ seq 8|sed -E 's/.+/{"orderId":"&"}/'|paste -d, $(yes -|head -n3)
  • {"orderId":"1"},{"orderId":"2"},{"orderId":"3"}
  • {"orderId":"4"},{"orderId":"5"},{"orderId":"6"}
  • {"orderId":"7"},{"orderId":"8"},

json数据变换

像这种分隔形式的数据变json,json变分隔形式的数据,使用jq也可以实现,因为jq就是专门处理json数据的啊!

  • # 比如这种数据
  • $ cat person.txt
  • 1,zhangsan
  • 2,lisi
  • 3,wangwu
  • # 用jq将其变换为json,splits可以写正则
  • $ cat person.txt |jq -R '[splits(",")] as [$f1,$f2]|{id: $f1, name: $f2}' -c
  • {"id":"1","name":"zhangsan"}
  • {"id":"2","name":"lisi"}
  • {"id":"3","name":"wangwu"}
  • # 当然前面说的变换方法也是可以的(注:结果同时写入到了person.json)
  • $ cat person.txt |sed -E 's/(\w+),(\w+)/{"id":"\1","name":"\2"}/' |tee person.json
  • {"id":"1","name":"zhangsan"}
  • {"id":"2","name":"lisi"}
  • {"id":"3","name":"wangwu"}
  • # 将json变换为,分隔形式
  • $ cat person.json |jq ' "\(.id),\(.name)" ' -r
  • 1,zhangsan
  • 2,lisi
  • 3,wangwu
  • # 当然,使用前面的数据提取过程也可以实现
  • $ cat person.json |awk 'match($0,/"id":"(\w+)"/,a) && match($0,/"name":"(\w+)"/,b){print a[1] "," b[1]}'
  • 1,zhangsan
  • 2,lisi
  • 3,wangwu
  • # 但对于多层级的json,awk也无能为力了,只能使用jq了,如下:
  • $ cat person.json
  • {"id":"1","name":"zhangsan","score":[{"yuwen":56},{"shuxue":76}]}
  • {"id":"2","name":"lisi","score":[{"yuwen":76},{"shuxue":83}]}
  • {"id":"3","name":"wangwu","score":[{"yuwen":92},{"shuxue":89}]}
  • $ cat person.json|jq ' "\(.id),\(.name),\([.score[]|values[]]|join(":"))" ' -r
  • 1,zhangsan,56:76
  • 2,lisi,76:83
  • 3,wangwu,92:89

jq本身也是个很强大的命令,具体可以man jq查看。

驼峰转下划线#

驼峰与下划线字段的互转,如下:

  • # 驼峰转下划线
  • $ echo "userId"|sed -E 's/([A-Z]+)/_\l\1/g'
  • user_id
  • # 下划线转驼峰
  • $ echo "user_id"|sed -E 's/_(.)/\u\1/g'
  • userId

超大日志文件搜索#

很多时候我们需要搜索一小段时间范围内日志,比如查看这段时间内是否有异常产生,从而导致某些接口超时,用grep、sed、awk命令都很容易处理这类事情。

比如只关注2021-01-22 15:00:10到2021-01-22 15:03:10的日志。

  • # grep通过正则可以实现范围型的过滤,但写起来有点费劲
  • grep -E '2021-01-22 15:(00:(1[0-9]|[2-9][0-9])|0[12]:[0-9][0-9]|03:(0[0-9]|10))' app.log
  • # sed、awk本身支持范围型查找,但必须日志中包含这两个日期
  • sed -n '/2021-01-22 15:00:10/,/2021-01-22 15:03:10/ p'
  • # awk改造一下,这样完善一些,在awk那篇介绍过
  • cat app.log|awk 'match($0,/^([0-9]{4}-[0-9]{2}-[0-9]{2} [0-9]{2}:[0-9]{2}:[0-9]{2})/,a){if(a[1]>="2021-01-22 15:00:10")print $0; if(a[1]>"2021-01-22 15:03:10")exit}'

但如果日志文件大小超过10G,上面那些方法都会执行得很慢,因为它们会将整个文件的内容都遍历一遍。

但其实我们只需要一小段时间范围的日志,可不可以只读取日志文件中那一小段范围的内容呢?

通过dd命令是可以的,dd命令可以做到从文件指定的偏移量开始读取,利用这个特性,可以写个脚本实现快速读取指定时间范围日志,如下:

  1. 先读开始位置第一行,看看时间是多少,并记下文件偏移量。
  2. 再读100M位置后的第一行,看看时间是多少,并记下文件偏移量。
  3. 再读200M位置后的第一行,看看时间是多少,并记下文件偏移量。
  4. 一直循环下去,直到文件结束。
  5. 然后看看我们需要的时间范围,在哪个100M内,使用dd从那个偏移量开始读100M,再通过上面介绍的grep、sed、awk过滤即可。
  • function every100m(){
  • let i=0;
  • let l=$(du -b $1|cut -f1);
  • while [[ $i -lt $l ]];do
  • time=$(dd if=$1 iflag=skip_bytes,count_bytes skip=$i count=10K 2>/dev/null|grep -m1 -oP '\d{4}-\d{2}-\d{2} \d{2}:\d{2}:\d{2}');
  • printf "%12s\t%s\n" $i "$time"
  • let i=i+104857600
  • done
  • }
  • # 这是一个510M的日志文件
  • $ every100m app.log
  • 0 2021-01-22 11:43:39
  • 104857600 2021-01-22 14:00:52
  • 209715200 2021-01-22 16:00:04
  • 314572800 2021-01-22 18:00:10
  • 419430400 2021-01-22 20:33:52
  • 524288000 2021-01-22 23:30:10
  • # 可以发现2021-01-22 15:00:10到2021-01-22 15:03:10的日志,都在104857600这个偏移量后的100M内
  • # 统计了一下,这个时间段有8587条日志,几乎秒出
  • $ dd if=app.log iflag=skip_bytes,count_bytes skip=104857600 count=100M 2>/dev/null|sed -n '/2021-01-22 15:00:10/,/2021-01-22 15:03:10/ p'|wc -l
  • 8587

大文件拆分#

split命令,用于将一个大文件拆分为多个小文件,如下:

将2.7G的日志,按一个500M大小,拆分为多个文件

  • $ ll
  • total 2.7G
  • -rw-r--r-- 1 work work 2.7G 2022-12-03 15:23:51 app.log
  • # 拆分文件,-b指定拆分大小,split_applog_表示拆分文件名的前缀
  • $ split -b 500m app.log split_applog_
  • $ ll
  • total 5.3G
  • -rw-r--r-- 1 work work 2.7G 2022-12-03 15:23:51 app.log
  • -rw-r--r-- 1 work work 500M 2022-12-03 15:29:28 split_applog_aa
  • -rw-r--r-- 1 work work 500M 2022-12-03 15:29:29 split_applog_ab
  • -rw-r--r-- 1 work work 500M 2022-12-03 15:29:30 split_applog_ac
  • -rw-r--r-- 1 work work 500M 2022-12-03 15:29:32 split_applog_ad
  • -rw-r--r-- 1 work work 500M 2022-12-03 15:29:33 split_applog_ae
  • -rw-r--r-- 1 work work 191M 2022-12-03 15:29:35 split_applog_af

对于日志文件拆分,一般不希望将整行拆分到不同文件中,这时可以使用-l选项,如下:

  • # 每30w行拆一个日志文件
  • $ split -l 30000 app.log split_applog_
  • # 使用csplit也可以
  • $ csplit -k app.log 300000 {*} -f split_applog_

标准输出拆分

在启动程序时,我们经常会需要将标准输出与标准错误重定向到一个日志文件中,如下:

  • java -jar app.jar > app_stdout.log

但由于这种后台程序,运行时间可能非常长,因此app_stdout.log有可能会变得非常大,我们想每小时保存一个日志文件,怎么办呢?

  1. 按行数拆分
    可以使用split来实现,如下:
  • java -jar app.jar > >(split -l 300000 - app_stdout_ --additional-suffix=.log)

这里用到了bash的进程替换语法>(command),重定向的标准输出日志,会被split写到拆分的文件中,若想按大小拆分的话,使用split -b即可。

  1. 按时间拆分
    比如每小时一个文件,可以使用timeout和cat命令实现,如下:
  • java -jar app.jar > >(while ((++n));do timeout 1h cat > app_stdout_$(date +%F-%H)_$n.log;[[ $? -ne 124 ]] && break;done)

重定向的标准输出日志,会被cat写到拆分的日志文件中,但timeout让cat每次只写1个小时。

csvkit#

对于csv文件的分析,可以使用csvkit这个软件包,基于python实现的,提供了很多实用的功能,不多说,体会一下:

  • # 安装csvkit
  • $ sudo pip install csvkit
  • # 将excel文件变成csv
  • $ in2csv data.xls > data.csv
  • # 将json文件变成csv
  • $ in2csv data.json > data.csv
  • # 将csv文件变成json
  • $ csvjson -y0 -I data.csv > data.json
  • # csv分隔符变成tab键,然后给awk处理,因为字段值本身太容易包含逗号了
  • $ csvformat data.csv -T|awk -F $'\t' 'NR>1{print $3}'
  • # mysql命令查询内容导出为csv
  • $ mysql -e 'select * from user'|csvformat -t > user.csv
  • # 直接使用SQL分析csv中的数据,这真是太实用了
  • $ csvsql -y0 -I --query "select a.id,a.name,b.age from name a join age b on a.id=b.id" name.csv age.csv| csvlook | less -S

pup#

对于html类型的数据,可以使用pup这个命令来解析提取,有了这个命令,就可以用脚本来实现简单的爬虫了,如下:

  • # 安装pup,go开发的
  • $ go get github.com/ericchiang/pup
  • # 获取title标签的文本内容,使用的是css selector语法,详细可以去github看下
  • $ curl -s www.baidu.com|pup 'title text{}'
  • 百度一下,你就知道
  • # 获取所有body标签下所有a标签的链接属性值
  • $ curl -s www.baidu.com|pup 'body a attr{href}'
  • http://news.baidu.com
  • http://www.hao123.com
  • http://map.baidu.com
  • http://v.baidu.com
  • http://tieba.baidu.com
  • # 同样的,返回json格式的数据
  • $ curl -s www.baidu.com|pup 'body a json{}'
  • [
  • {
  • "class": "mnav",
  • "href": "http://news.baidu.com",
  • "name": "tj_trnews",
  • "tag": "a",
  • "text": "新闻"
  • },
  • {
  • "class": "mnav",
  • "href": "http://www.hao123.com",
  • "name": "tj_trhao123",
  • "tag": "a",
  • "text": "hao123"
  • }
  • ]

总结#

上面这些Linux文本处理技巧,都是我在工作过程中,琢磨好久一个个想出来的,而且它们的实现思路和普通编程思路很不一样,所以学习这些命令对于扩展编程思路也会有帮助。

如果你也对这些命令非常感兴趣,一定要亲自试试这些命令,并将它们用于实际工作场景中。

方便获取更多学习、工作、生活信息请关注本站微信公众号城东书院 微信服务号城东书院 微信订阅号
推荐内容
相关内容
栏目更新
栏目热门