鲲鹏devkit性能分析工具介绍（四）

2022-12-08 18:55 706人阅读评论(0)

鲲鹏devkit性能分析工具介绍（四）

前面我们已经介绍了鲲鹏devkit性能分析工具的全景分析、热点函数分析、进程/线程分析、微架构分析、和访存分析，由此可见进行性能调优绝对不能够仅仅去进行一方面的考察而是需要全方面的数据分析进行一定的舍去才能达到最终自己所需要的调优效果

I/O分析

I/O分析以存储块设备为分析对象，分析得出块设备的I/O操作次数、I/O数据大小、I/O队列深度、I/O操作时延等性能数据，并关联到造成这些I/O性能数据的具体I/O操作事件、进程/线程、调用栈、应用层I/O APIs等信息。根据I/O性能数据分析可以给出优化建议。

在分析报告中数据给出了

以块设备为分析对象，分析得出I/O操作次数、I/O数据大小、I/O队列深度、I/O吞吐率、I/O操作时延等信息。
支持关联I/O操作时的进程/线程及调用栈信息，包括时间、时间、块数、CPU核、进程ID进程名称、调用栈等信息。
支持关联I/O操作时应用层的I/O APIS，包括进程PID、函数名、调用次数、平均执行时间.
总执行时间、执行时问占比等信息。
基于I/O操作数据分布情况判断是随机操作还是顺序操作，并给出相应的优化建议。

I/O分析原理

在块设备层，通过ftrace工具跟踪内核的tracepoint事件，得到每个I/O操作的全部信息
通过关联这些tracepoint事件，分析得到操作数据大小、操作时延等信息。
针对一段时间内的I/O操作进行统计分析，进一步得到数据块分布、操作时延分布、数据大小分布等等信息。
tracepoint事件只能反映到内核针对I/O的处理，而无法反映应用层的处理(非direct方式)。所以通过获取应用层I/O API调用信息，形成内核层与应用层处理的简单映射，指导应用层的优化，例如通过某个段时间的数据块分布是连续还是随机，优化对应应用层的I/O请求。
支持获取自研盘内部性能数据。

I/O分析举例

sda的IOPS和吞吐量上不去。通过工具可以获取这段时间内的详细IO操作情况，得到进行IO操作的进程及其调用栈信息，可以得到进行IO操作的进程采用的是同步操作。

进一步进行IO APIs跟踪可以得到具体的调用信息

资源调度分析

采集进程/线程对CPU、内存、存储IO等资源的消耗情况，获得对应的使用率、饱和度、错误次数等指标，以此识别性能瓶颈。针对部分指标项，根据当前已有的基准值和优化经验提供优化建议。支持分析单个进程的系统调用情况。

进程/线程调度信息，识别线程是否频繁上下文切换；cpu是否频繁调度
NUMA节点切换情况，对于频繁切换的，会给出核绑优化建议
分析在进程线程在各个时间的运行情况，能够方便识别频繁上下文切换的线程
分析CPU核在各个时间点的运行状态，如：idle、running等。如果是running状态，能关联在cpu核上运行的进程/线程信息
同时能够高亮显示某个线程在各个cpu核上的运行情况

资源调度分析原理

分析工具会采集cpu调度事件数据，从进程/线程的角度排列各个事件，计算各个事件之间的时间差，并标记对应的状态
将每个事件进行排序，计算时间差来分析出那些会出现等待时间过长的情况
将事件的状态进行标记，最后进行统计分析

资源调度分析举例

多线程程序中，线程之间互相抢占，并目出现一个线程长期占用，导致其他线程长期处于等待状态，造成整个程序性能不高。这种情况一般是锁或互斥量被线程长期占用造成

在视频例子中由于加锁位置不当，导致线程占用资源时间过长，合理的减少加所范围最后使线程能够最大程度的运行起来

锁与等待分析

锁与等待分析基于Linux perf工具的采样数据，对glibc和开源软件（如MySQL、Open MP）的锁与等待函数（包括sleep、usleep、mutex、cond、spinlock、rwlock、semaphore等）进行分析，关联到其归属的进程和调用点，并根据当前已有的优化经验给出优化建议。

HPC场景

OpenMP/MPI分析通过采集系统的PMU事件并配合采集面向OpenMP和MPI应用的关键指标，帮助用户精准获得Parallel region及Barrier-to-Barrier的串行及并行时间、校准的2层微架构指标、指令分布及L3的利用率和内存带宽等信息。
1.OpenMP运行时指标，新增细化指标
2.MPI运行时指标
3.top-down微架构指标
4.平均DRAM带宽
5.指令分布 (Instruction Mix)
6. Hotspots

内存诊断

内存诊断可以分为：

内存泄漏诊断：主要分析应用程序存在的内存泄漏点(包括内存未释放和异常释放)，得出具体的泄漏信息，并支持关联出调用栈信息和源码；分析后得出结果信息主要为Call Tree信息、源码信息、内存消耗信息、OOM信息。
内存越界诊断：主要分析应用程序的内存异常访问点，给出异常访问类型和内存访问信息，并支持关联出调用栈和源码。

内存诊断原理

采用hook技术实现获取内存申请和释放信息，通过内存地址匹配申请点和释放点，判断是否泄漏或异常释放。其中，针对拉起进程的场景，采用preload加载用于hook函数的动态库;针对附着进程的场景，采用ptrace加载用于hook函数的动态库，并替换GOT PLT表。

内存越界是通过集成Google AddressSanitizer实现。AddressSanitizer在编译时插桩，对每块内存空间(8字节)增加shadowmemory。对所有的memory access都去检查该内存所对应的shadow memory的状态

调优助手原理

采集的数据覆盖OS、应用、硬件等系统各层的配置和性能指标，并根据硬件资源的消耗，来关联消耗这些硬件资源的软件信息，再从这些软件信息，来查看软件对其他的硬件资源的消耗，从而推断出性能瓶颈。将数据从应用消耗、物理消耗以及硬件关联在一起。

java性能分析

针对Java程序进行性能分析，能图形化显示Java程序的堆、线程、锁、垃圾回收等信息收集热点函数、定位程序瓶颈点，帮助用户进行问题的定位和性能调优。
Profiling (在线分析)
基于attach技术，实现对目标java程序的内部数据的动态采集。包括Java虚拟机的内部状态，如Heap、GC活动、线程状态以及应用层的相关数据，如热点函数、锁分析、I0等。Sampling(采样分析)
基于JFR技术，通过采样的方式收集JVM的内部活动/性能事件，通过录制及回放的方式来进行离线分析。在默认情况下，JFR的性能损耗小于1%。

转载：https://blog.csdn.net/m0_63694520/article/details/128105476

查看评论

小言_互联网的博客

小言_互联网的博客

个人资料

文章分类

文章存档

阅读排行

评论排行

推荐文章