【工作必备知识】Linux系统sort排序与uniq去重
工作中数据太多太杂,不便于查看分析。这时是可以采用sort将数据排序,同时可以配合uniq命令进行去重。
场景:云平台中,日常工作包含巡检工作,是通过事先编写好的巡检脚本去检测云平台的和Node节点(Linux系统)的健康情况。有问题的信息会打印保存在日志中,这里面包含了很多IP(Node),而且具有大量重复IP(成百上千个IP等)。
为了定位到哪些Node节点存在问题以及都有什么问题。为了便于分析查看,需要对其IP进行排序以及去重处理。
sort 命令
sort
命令用于对文本数据进行排序
基本语法
1sort [选项]... [文件名]
如果没有指定文件名,sort
命令会从标准输入(stdin)读取数据,这使得它能够方便地与其他命令通过管道(|)组合使用
常用选项
-
-n:按数值大小进行排序 -
-r 或 --reverse:逆序排序 -
-t:指定分隔符,用于字段排序(例如 -t','
使用逗号作为分隔符) -
-k:指定排序的字段,格式为 -kN[,M]
,其中 N 是字段编号,M 可选,表示排序结束的字段,可以用于排序跨越多个字段 -
-u 或 --unique:输出唯一行,去除重复行 -
-m 或 --merge:合并已排序的文件 -
-o:将排序结果输出到文件而不是标准输出,例如 -o sorted.txt
示例
-
简单排序:按字母顺序排序文件内容
$ cat file.txt
d
c
b
a
h
e
# 字母顺序
$ sort file.txt
a
b
c
d
e
h -
数值排序:按数值从小到大排序
$ cat values.txt
23
123
456
88
21
3
# 按数值从小到大排序
$ sort -n values.txt
3
21
23
88
123
456 -
逆序排序:按字母顺序逆序排序
$ cat file.txt
d
c
b
a
h
j
e
q
e
# 按字母顺序逆序排序
$ sort -r file.txt
q
j
h
e
e
d
c
b
a -
字段排序:按文件中第二列排序
$ cat students.txt
Alice,90
Bob,85
Charlie,92
David,88
Eva,95
Alice,87
# 按文件中第二列排序
$ sort -t ',' -n -k2 students.txt
Bob,85
Alice,87
David,88
Alice,90
Charlie,92
Eva,95 -
去重并排序:先去重后排序
$ sort -u input.txt | sort
2
3
e
# 先去重后排序
$ cat input.txt
e
e
2
2
3
3
uniq 命令
uniq 命令,用于去除文件中的重复内容行
基本用法
-
语法:
uniq [选项]... [输入文件]
-
特点:
-
默认情况下,** uniq
只能识别并处理相邻的重复行**。这意味着在处理文件之前,如果要删除所有重复行而不考虑它们的位置,通常需要先使用sort
命令对文件进行排序。 -
如果不指定输入文件, uniq
会从标准输入(stdin)读取数据,这使得它能很好地与其他命令通过管道(|)结合使用。
-
常用选项
-
-c 或 --count:在每行前加上该行在输入中出现的次数。 -
-d 或 --repeated:只显示重复的行。 -
-u 或 --unique:只显示唯一的行,即不重复的行。 -
-i 或 --ignore-case:忽略大小写差异。 -
-f N 或 --skip-fields=N:跳过每行开始的N个字段。 -
-s N 或 --skip-chars=N:跳过每行开始的N个字符。 -
-w N 或 --check-chars=N:仅比较每行的前N个字符。
示例
-
删除相邻的重复行:
$ cat input.txt
e
e
2
2
3
3
# 删除相邻的重复行
$ uniq input.txt
e
2
3 -
统计每行出现次数:
$ cat input.txt
e
e
2
2
3
3
$ uniq -c input.txt
2 e
2 2
2 3 -
只显示唯一的行:
$ cat input.txt
e
e
2
2
3
3
ww
# 只显示唯一的行
$ uniq -u input.txt
ww -
结合
sort
去除所有重复行:$ cat data.txt
apple
banana
orange
apple
grape
banana
cherry
# 结合 sort 去除所有重复行
$ sort data.txt | uniq > unique_data.txt
$ cat unique_data.txt
apple
banana
cherry
grape
orange -
忽略大小写去重:
$ cat names.txt
Alice
alice
Bob
bob
Charlie
charlie
Alice
# 忽略大小写去重
$ sort -f names.txt | uniq -i
Alice
Bob
Charlie
End
- THE END -
最后修改:2024年11月28日
非特殊说明,本博所有文章均为博主原创。
如若转载,请注明出处:https://www.qiuyl.com/linux/257
共有 0 条评论