Linux grep命令详解：查找文件内容

时间：03-05来源：作者：点击数：123

很多时候，我们并不需要列出文件的全部内容，而是从文件中找到包含指定信息的那些行，要实现这个目的，可以使用 grep 命令。

grep 命令作为 Linux 文本处理三剑客的一员，另外两个是 sed 和 awk，它们会在后续章节中作详细介绍。

grep 命令的由来可以追溯到 UNIX 诞生的早期，在 UNIX 系统中，搜索的模式（patterns）被称为正则表达式（regular expressions），为了要彻底搜索一个文件，有的用户在要搜索的字符串前加上前缀 global（全面的），一旦找到相匹配的内容，用户就像将其输出（print）到屏幕上，而将这一系列的操作整合到一起就是 global regular expressions print，而这也就是 grep 命令的全称。

grep命令能够在一个或多个文件中，搜索某一特定的字符模式（也就是正则表达式），此模式可以是单一的字符、字符串、单词或句子。

正则表达式是描述一组字符串的一个模式，正则表达式的构成模仿了数学表达式，通过使用操作符将较小的表达式组合成一个新的表达式。正则表达式可以是一些纯文本文字，也可以是用来产生模式的一些特殊字符。为了进一步定义一个搜索模式，grep 命令支持如表 1 所示的这几种正则表达式的元字符（也就是通配符）。

表 1 正则表达式的通配符
通配符	功能
c*	将匹配 0 个（即空白）或多个字符 c（c 为任一字符）。
.	将匹配任何一个字符，且只能是一个字符。
[xyz]	匹配方括号中的任意一个字符。
[^xyz]	匹配除方括号中字符外的所有字符。
^	锁定行的开头。
$	锁定行的结尾。

需要注意的是，在基本正则表达式中，如通配符 *、+、{、|、( 和 )等，已经失去了它们原本的含义，而若要恢复它们原本的含义，则要在之前添加反斜杠 \，如 \*、\+、\{、\|、$ 和 $。

grep 命令是用来在每一个文件或中（或特定输出上）搜索特定的模式，当使用 grep 时，包含指定字符模式的每一行内容，都会被打印（显示）到屏幕上，但是使用 grep 命令并不改变文件中的内容。

grep 命令的基本格式如下：

[root@localhost ~]# grep [选项] 模式文件名

这里的模式，要么是字符（串），要么是正则表达式。而此命令常用的选项以及各自的含义如表 2 所示。

表 2 grep 命令常用选项及含义
选项	含义
-c	仅列出文件中包含模式的行数。
-i	忽略模式中的字母大小写。
-l	列出带有匹配行的文件名。
-n	在每一行的最前面列出行号。
-v	列出没有匹配模式的行。
-w	把表达式当做一个完整的单字符来搜寻，忽略那些部分匹配的行。

注意，如果是搜索多个文件，grep 命令的搜索结果只显示文件中发现匹配模式的文件名；而如果搜索单个文件，grep 命令的结果将显示每一个包含匹配模式的行。

【例 1】假设有一份 emp.data 员工清单，现在要搜索此文件，找出职位为 CLERK 的所有员工，则执行命令如下：

[root@localhost ~]# grep CLERK emp.data
#忽略输出内容

而在此基础上，如果只想知道职位为 CLERK 的员工的人数，可以使用“-c”选项，执行命令如下：

[root@localhost ~]# grep -c CLERK emp.data
#忽略输出内容

【例 2】搜索 emp.data 文件，使用正则表达式找出以 78 开头的数据行，执行命令如下：

[root@localhost ~]# grep ^78 emp.data
#忽略输出内容

grep 命令的功能非常强大，通过利用它的不同选项以及变化万千的正则表达式，可以获取任何我们所需要的信息。本节所介绍的 grep 命令，只介绍了它的一部分基础知识，比如说，grep 命令可用的选项还有很多，且用法也五花八门，不过对于初学者来说，本节所介绍的内容已经足以应付多数 Linux 系统的日常工作了。

方便获取更多学习、工作、生活信息请关注本站微信公众号 城东书院微信服务号