• 技术文章 >运维 >linux运维

    Linux命令拾遗之理解系统负载(整理分享)

    长期闲置长期闲置2022-01-10 18:45:35转载80
    本篇文章给大家带来了Linux中负载的概念与问题诊断方法相关知识,其中包括了负载是什么以及线程状态等,希望对大家有帮助。

    一般在类unix系统上,都会有系统负载(load average)这个指标,用来形容系统的繁忙程度,值越大则代表系统越繁忙。

    查看负载

    $ uptime
    19:59:57 up 29 days,  7:08,  1 user,  load average: 0.57, 0.26, 0.18

    我们关注load average后的3个值,分别代表1分钟、5分钟、15分钟的系统平均负载,如果1分钟值>5分钟值>15分钟值,则代表近15分钟内系统压力越来越大,反之亦然。

    同样,在top命令的第一行,也能看到系统负载,它的含义和uptime是一样的。

    负载是什么

    一般来说,系统线程基本都在这3个状态上:运行中,可运行,阻塞等待,其中,运行中的线程正在CPU上跑,可运行的线程等待CPU调度,而阻塞的线程等待锁释放或io完成。

    在传统unix系统上(如BSD),系统负载由正在运行的线程以及可运行的线程这2个部分组成。

    它能很好的说明CPU的饱和情况,比如4核的CPU,如果负载一直高于4,那说明CPU资源饱和了。

    而Linux扩大了负载的定义,如下:

    Linux负载由正在运行的线程和可运行的线程,以及D状态的线程(一般是等待io完成)这3个部分组成。

    因为Linux认为,虽然D状态的线程并不消耗CPU资源,但是它会消耗磁盘、网卡等硬件资源以及锁这样的软件资源,因此它也应该被用来计算系统负载,想来也合理,毕竟系统负载是用来描述整个系统的繁忙程度的,而不仅仅是CPU的。

    线程状态D

    在Linux里面,线程有如下常见状态:

    这里面的R与D状态的线程会影响系统负载,因此,当系统负载较高时,可以通过如下命令了解是哪些线程导致的:

    ps -eLo pid,tid,stat,comm | grep -E " R|D"

    小实验:将系统负载升到100

    # 使用vfork函数创建一个子进程,子进程如果不调用exec系统调用,它的状态会一直是D。

    $ cat uninterruptible.c 
    int main() {
        vfork();
        sleep(600);
        return 0;
    }
    # 编译成可执行程序
    $ gcc -o uninterruptible uninterruptible.c
    # 运行100个程序
    $ for i in {1..100}; do ./uninterruptible &; done

    等待1分钟,就会发现系统负载升到了快100,如下:

    $ uptime
    20:24:42 up 29 days,  7:32,  1 user,  load average: 99.94, 74.82, 35.87
    # 可以看到很多D状态的进程
    $ ps -eLo pid,tid,stat,pcpu,wchan:32,comm | grep " D"
    3774195 3774195 D     0.0 do_fork                          uninterruptible
    3774196 3774196 D     0.0 do_fork                          uninterruptible
    3774197 3774197 D     0.0 do_fork                          uninterruptible
    3774198 3774198 D     0.0 do_fork                          uninterruptible

    如上,通过ps命令可以看到线程状态,还有一个wchan字段,它显示的是线程当前被阻塞在什么内核函数上,这能看出一些蛛丝马迹。

    另外,通过/proc/sysrq-trigger可以看到D线程阻塞时的代码路径,如下:

    # 写入一个w即可,需要root权限执行
    $ echo w > /proc/sysrq-trigger
    # 然后内核会把D状态线程调用栈输出到内核日志,这可以通过dmesg查看
    $ dmesg

    12.png

    这里就能很清楚的看到,是由于vfork系统调用引起的负载上升。

    之前介绍过bcc工具集里的offcputime工具,它可以用来绘制offcpu火焰图,同样的,诊断高负载问题时,也可以用这个工具,传一个参数,让其只关注D状态线程的offcpu行为即可,如下:

    # ubuntu安装bcc工具集
    $ sudo apt install bpfcc-tools
    # 使用root身份进入bash
    $ sudo bash
    # --state 2用于指定抓取TASK_UNINTERRUPTIBLE即D状态线程的offcpu栈
    $ offcputime-bpfcc -K --state 2 -f 60  > d_state_offcpu_stack.out
    # 绘制为offcpu火焰图
    $ awk '{ print $1, $2 / 1000 }' d_state_offcpu_stack.out | ./FlameGraph/flamegraph.pl --color=io --countname=ms > d_state_offcpu.svg

    13.png

    相关推荐:《Linux视频教程

    以上就是Linux命令拾遗之理解系统负载(整理分享)的详细内容,更多请关注php中文网其它相关文章!

    声明:本文转载于:掘金,如有侵犯,请联系admin@php.cn删除
    专题推荐:linux
    上一篇:嵌入式linux和linux的区别是什么 下一篇:Linux命令拾遗之动态追踪工具(实例详解)

    相关文章推荐

    • linux怎样关闭端口• linux怎样测试端口通不通• linux怎样永久关闭防火墙• linux怎样取消挂载• linux怎样关闭网卡

    全部评论我要评论

  • 取消发布评论发送
  • 1/1

    PHP中文网