Linux CPU性能优化 —— CPU使用率及高CPU使用率排查

2021-05-02 11:07 684人阅读评论(0)

文章目录

CPU使用率的定义
查看CPU使用率：top和pidstat
排查高CPU使用率：pref
参考文献

写在前面：
由于之前在开发分布式系统中由于云服务器性能原因，导致系统总是断连等错误。但是之前一般只是简单gdb调试一下，定位错误异常艰难，所以决定开设此专栏，系统的记录我学习Linux 性能优化的历程。

作者邮箱：2107810343@qq.com
时间：2021/04/29 13:46
实现环境：Linux
系统：ubuntu 18.04

CPU使用率的定义

CPU使用率是一个衡量当前CPU瓶颈的重要指标。我们首先就需要知道CPU使用率是怎么计算出来的。

为了维护CPU时间，Linux会事先定义节拍率（内核表示HZ），触发时间中断，并维护全局变量Jiffies记录了开机以来的节拍数。每发生一次时间中断，Jiffies的值就加一。

注：
这也是CPU时间片轮转法实施的基础。

节拍数是内核的可配置选项，可以设置为100、250、1000等。不同的系统可能设置不同数值，可以通过查看/boot/config内核选项来查看它的配置值。

ubuntu@VM-0-2-ubuntu:~/ByteTalk/UserService$ grep 'CONFIG_HZ=' /boot/config-$(uname -r)
CONFIG_HZ=250
# 我这里设置就是250HZ，也就是4ms切换一次

Linux通过 /proc 虚拟文件系统，向用户空间提供系统内部状态信息，而/proc/stat提供的就是系统的CPU 和任务统级时间。

# 保留CPU的数据
ubuntu@VM-0-2-ubuntu:~/ByteTalk/UserService$ cat /proc/stat | grep ^cpu
cpu  15517599 934 269286 18794245 70312 0 3441 0 0 0
cpu0 11026589 293 105096 6155651 46206 0 1590 0 0 0
cpu1 4491010 640 164189 12638593 24106 0 1850 0 0 0

第一行时两个CPU各个时间的总和，以下是各个列的解释：

列名	含义
cpu	表示CPU编号，如cpu0，cpu1
user	代表用户态的CPU时间，不包括nice和guest时间
nice	待避岙低优先级用户态CPU时间，也就是进程的nice值被调整为1-19之间时的CPU时间
system	内核态CPU时间
idle	代表空闲时间，不包括等待I/O时间
iowait	等待I/O的CPU时间
irq	硬中断的CPU时间
softtrip	软中断的CPU时间
steal	代表当前系统运行在虚拟机中的时候，被其他虚拟机占用的CPU时间
guest	通过虚拟化运行其他操作系统的时间，也就是运行虚拟机的CPU时间
guest_nice	以低优先级运行虚拟机的时间

而CPU使用率，就是除了空闲时间外其他时间占总CPU时间的百分比：

但是这个公式是有缺陷的，/proc/stat里面统计的是开机以来的数据，我们真正需要的是瞬时值，所以公式就应该做个修改，每隔几秒取以下值，两次间隔中取差值去计算CPU使用率：

查看CPU使用率：top和pidstat

现在，我们来使用top查看一下CPU的使用率：

ubuntu@VM-0-2-ubuntu:~/ByteTalk/UserService$ top

在这个结果中，第三行就是CPU使用率了。然后下面白色行之后就是每个进程的情况，都有一个%CPU列，表示进程的CPU使用率。它是用户态和内核态CPU使用率的总和，包括进程用户空间使用的CPU、通过系统调用执行的内核空间CPU以及在就绪队列中等待运行的CPU。

但是top，没有具体解决如何查看用户态和内核态CPU使用率的问题，我们就需要使用pidstat来查看一下。

# 每秒输出一次数据，总共输出3组
ubuntu@VM-0-2-ubuntu:~/ByteTalk/UserService$ pidstat 1 3

可以看到红框圈出来一些数据，我们挨个来解读一下：

列名	含义
%user	用户态CPU使用率
%system	内核态CPU使用率
%guest	运行虚拟机CPU使用率
%wait	等待CPU使用率
%cpu	总CPU使用率

排查高CPU使用率：pref

我们刚刚在这幅图也看到了，node进程占用了非常高的CPU使用率，由于不是作者自己写的进程，我只能尝试着排查，给大家演示一下：

调试的话，熟悉Linux开发的小伙伴肯定第一时间想到的就是gdb调试了，但是gdb调试并不适合性能分析的早期应用。因为gdb调试程序的过程会中断程序运行，这在线上环境往往是不允许的。

我们现在来使用工具perf来分析CPU性能问题：
先安装一下perf吧：

ubuntu@VM-0-2-ubuntu:~/ByteTalk/UserService$ sudo apt install linux-tools-common
ubuntu@VM-0-2-ubuntu:~/ByteTalk/UserService$ sudo apt install linux-tools-generic
ubuntu@VM-0-2-ubuntu:~/ByteTalk/UserService$ sudo apt install linux-tools-4.15.0-140-generic

然后执行以下命令：

# 这个可以像top那样，实时显示占用CPU时钟最多的函数或者指令，因此可以查找热点函数
ubuntu@VM-0-2-ubuntu:~/ByteTalk/UserService$ perf top

第一行有三个数据：采样数（samples）、事件类型（event）和事件总数量（event count）
它的输出结果分别包括四种数据：

列名	含义
overhead	该符号的性能事件在所有采样中的比例
shared	该函数或指令所在动态库共享对象
object	共享对象的类型，[.]表示用户空间的可执行程序，或者动态连接库，[k]表示内核空间
symbol	函数名，当函数名未知的时候，用16进制的地址来表示

这里我们可以看到是node进程里面的某个函数（具体看图）造成的CPU高使用率。

注：
node是nodejs，是vscode中插件的依赖，可以直接kill

另外，由于perf top是实时查看CPU使用情况的，但是不会保存数据，也就无法用于离线或者后续的分析，我们就需要使用使用 perf record 和 perf report 了：

# 开启后自动捕捉数据，按ctrl+c结束采样
ubuntu@VM-0-2-ubuntu:~/ByteTalk/UserService$ sudo perf record
^C[ perf record: Woken up 5 times to write data ]
[ perf record: Captured and wrote 1.443 MB perf.data (24504 samples) ]

# 展示采样的数据
ubuntu@VM-0-2-ubuntu:~/ByteTalk/UserService$ sudo perf report

注：
这个采样百分比和某进程是否占用过高的CPU资源是无关的！

参考文献

[1] 倪朋飞.Linux性能优化实战.极客时间

转载：https://blog.csdn.net/shenmingxueIT/article/details/116266794

查看评论

小言_互联网的博客

小言_互联网的博客

个人资料

文章分类

文章存档

阅读排行

评论排行

推荐文章