Cet article vous apporte des connaissances sur les outils de traçage dynamique de commandes Linux, notamment strace, arthas, bpftrace, etc., qui sont des outils de traçage dynamique couramment utilisés au travail. J'espère que cela aide tout le monde.
L'analyse des threads et de la mémoire ne peut observer que la situation globale du processus. Parfois, nous devons observer un certain niveau de méthode, par exemple lors de l'appel de la méthode test(), quels sont les paramètres transmis et quel est le retour. valeur ? Combien de temps cela a-t-il pris ? Dans ce cas, nous devons utiliser certains outils de traçage dynamique, tels que strace, arthas, bpftrace, systemtap, etc.
strace et ltrace
strace est un outil utilisé sous Linux pour observer les appels système. Quiconque a étudié les principes du système d'exploitation sait que le système d'exploitation expose un certain nombre d'interfaces d'appel système aux applications et que les applications ne peuvent les utiliser. Ces Le système appelle l'interface pour accéder au système d'exploitation, comme l'application de mémoire, de fichiers ou d'opérations d'E/S réseau, etc.
L'utilisation est la suivante :
# -T 打印系统调用花费的时间 # -tt 打印系统调用的时间点 # -s 输出的最大长度,默认32,对于调用参数较长的场景,建议加大 # -f 是否追踪fork出来子进程的系统调用,由于服务端服务普通使用线程池,建议加上 # -p 指定追踪的进程pid # -o 指定追踪日志输出到哪个文件,不指定则直接输出到终端 $ strace -T -tt -f -s 10000 -p 87 -o strace.log
Exemple : Capturez le SQL réellement envoyé
Parfois, nous trouverons du SQL parfaitement correct dans le code, mais aucune donnée ne peut être trouvée. Cela est probablement dû au problème. dans le projet Certains frameworks sous-jacents réécrivent SQL, ce qui fait que le SQL réel envoyé est différent du SQL dans le code.
Lorsque vous rencontrez cette situation, ne vous précipitez pas pour extraire le code du framework sous-jacent. Cela prendra plus de temps. Après tout, le temps des programmeurs est précieux, sinon ils devront faire des heures supplémentaires. Comment puis-je confirmer rapidement si c'est le cas. la raison ?
Il existe deux méthodes. La première consiste à utiliser Wireshark pour capturer les paquets, et la seconde est le strace présenté dans cet article. Puisque le programme doit envoyer des commandes SQL à la base de données via des appels système liés au réseau io, nous n'avons besoin que d'utiliser strace. pour suivre tous les appels système, puis récupérer les appels système qui envoient du SQL, comme suit :
$ strace -T -tt -f -s 10000 -p 87 |& tee strace.log
Il est clairement visible sur l'image que le pilote jdbc de mysql envoie du SQL via l'appel système sendto et recvfrom. En obtenant le résultat renvoyé, vous constaterez que puisque SQL est une chaîne, strace nous aide automatiquement à l'identifier. Cependant, comme le résultat renvoyé est binaire, il n'est pas facile à identifier. Vous devez être très familier avec le protocole mysql.
De plus, il est en fait facile de voir à partir de ce qui précède combien de temps prend l'exécution de SQL. Calculez simplement la différence de temps entre sendto et recvfrom avec le même numéro de thread.
Étant donné que la plupart des processus utilisent essentiellement la bibliothèque c de base au lieu des appels système, comme glibc sous Linux et msvc sous Windows, il existe également un outil ltrace qui peut être utilisé pour suivre les appels de bibliothèque comme suit. :
$ ltrace -T -tt -f -s 10000 -p 87 -o ltrace.log
L'utilisation de base est la même que celle de strace. De manière générale, utiliser strace est suffisant.
arthas est un outil de suivi dynamique sous Java. Il peut observer les paramètres d'appel et les valeurs de retour des méthodes Java. De plus, il fournit également de nombreuses fonctions pratiques, telles que la décompilation et le profilage. , des vidages de mémoire tas, des graphiques de flamme, et bien plus encore.
Télécharger et utiliser
# 下载arthas $ wget -O # 解压 $ unzip -d arthas && cd arthas/ # 进入arthas命令交互界面 $ java -jar arthas-boot.jar `pgrep -n java` [INFO] arthas-boot version: 3.4.6 [INFO] arthas home: /home/work/arthas [INFO] Try to attach process 3368243 [INFO] Attach process 3368243 success. [INFO] arthas-client connect 3658 ,---. ,------. ,--------.,--. ,--. ,---. ,---. / O \ | .--. ''--. .--'| '--' | / O \ ' .-' | .-. || '--'.' | | | .--. || .-. |`. `-. | | | || |\ \ | | | | | || | | |.-' | `--' `--'`--' '--' `--' `--' `--'`--' `--'`-----' wiki tutorials version 3.4.6 pid 3368243 time 2021-11-13 13:35:49 # help可查看arthas提供了哪些命令 [arthas@3368243]$ help # help watch可查看watch命令具体用法 [arthas@3368243]$ help watch
watch, trace and stack
Dans arthas, utilisez les commandes watch, trace et stack pour observer l'invocation de la méthode, comme suit :
# watch观测执行的查询SQL,-x 3指定对象展开层级 [arthas@3368243]$ watch org.apache.ibatis.executor.statement.PreparedStatementHandler parameterize '{target.boundSql.sql,target.boundSql.parameterObject}' -x 3 method=org.apache.ibatis.executor.statement.PreparedStatementHandler.parameterize location=AtExit ts=2021-11-13 14:50:34; [cost=0.071342ms] result=@ArrayList[ @String[select id,log_info,create_time,update_time,add_time from app_log where id=?], @ParamMap[ @String[id]:@Long[41115], @String[param1]:@Long[41115], ], ] # watch观测耗时超过200ms的SQL [arthas@3368243]$ watch com.mysql.jdbc.PreparedStatement execute '{target.toString()}' 'target.originalSql.contains("select") && #cost > 200' -x 2 Press Q or Ctrl+C to abort. Affect(class count: 3 , method count: 1) cost in 123 ms, listenerId: 25 method=com.mysql.jdbc.PreparedStatement.execute location=AtExit ts=2021-11-13 14:58:42; [cost=1001.558851ms] result=@ArrayList[ @String[com.mysql.jdbc.PreparedStatement@6283cfe6: select count(*) from app_log], ] # trace追踪方法耗时,层层追踪,就可找到耗时根因,--skipJDKMethod false显示jdk方法耗时,默认不显示 [arthas@3368243]$ trace com.mysql.jdbc.PreparedStatement execute 'target.originalSql.contains("select") && #cost > 200' --skipJDKMethod false Press Q or Ctrl+C to abort. Affect(class count: 3 , method count: 1) cost in 191 ms, listenerId: 26 ---ts=2021-11-13 15:00:40;thread_name=http-nio-8080-exec-47;id=76;is_daemon=true;priority=5;TCCL=org.springframework.boot.web.embedded.tomcat.TomcatEmbeddedWebappClassLoader@5a2d131d ---[1001.465544ms] com.mysql.jdbc.PreparedStatement:execute() +---[0.022119ms] com.mysql.jdbc.PreparedStatement:checkClosed() #1274 +---[0.016294ms] com.mysql.jdbc.MySQLConnection:getConnectionMutex() #57 +---[0.017862ms] com.mysql.jdbc.PreparedStatement:checkReadOnlySafeStatement() #1278 +---[0.008996ms] com.mysql.jdbc.PreparedStatement:createStreamingResultSet() #1294 +---[0.010783ms] com.mysql.jdbc.PreparedStatement:clearWarnings() #1296 +---[0.017843ms] com.mysql.jdbc.PreparedStatement:fillSendPacket() #1316 +---[0.008543ms] com.mysql.jdbc.MySQLConnection:getCatalog() #1320 +---[0.009293ms] java.lang.String:equals() #57 +---[0.008824ms] com.mysql.jdbc.MySQLConnection:getCacheResultSetMetadata() #1328 +---[0.009892ms] com.mysql.jdbc.MySQLConnection:useMaxRows() #1354 +---[1001.055229ms] com.mysql.jdbc.PreparedStatement:executeInternal() #1379 +---[0.02076ms] com.mysql.jdbc.ResultSetInternalMethods:reallyResult() #1388 +---[0.011517ms] com.mysql.jdbc.MySQLConnection:getCacheResultSetMetadata() #57 +---[0.00842ms] com.mysql.jdbc.ResultSetInternalMethods:getUpdateID() #1404 ---[0.008112ms] com.mysql.jdbc.ResultSetInternalMethods:reallyResult() #1409 # stack追踪方法调用栈,找到耗时SQL来源 [arthas@3368243]$ stack com.mysql.jdbc.PreparedStatement execute 'target.originalSql.contains("select") && #cost > 200' Press Q or Ctrl+C to abort. Affect(class count: 3 , method count: 1) cost in 138 ms, listenerId: 27 ts=2021-11-13 15:01:55;thread_name=http-nio-8080-exec-5;id=2d;is_daemon=true;priority=5;TCCL=org.springframework.boot.web.embedded.tomcat.TomcatEmbeddedWebappClassLoader@5a2d131d @com.mysql.jdbc.PreparedStatement.execute() at at org.apache.ibatis.executor.statement.PreparedStatementHandler.query( at org.apache.ibatis.executor.statement.RoutingStatementHandler.query( at org.apache.ibatis.executor.SimpleExecutor.doQuery( at org.apache.ibatis.executor.BaseExecutor.queryFromDatabase( at org.apache.ibatis.executor.BaseExecutor.query( at org.apache.ibatis.executor.BaseExecutor.query( at org.apache.ibatis.session.defaults.DefaultSqlSession.selectList( at org.apache.ibatis.session.defaults.DefaultSqlSession.selectList( at org.apache.ibatis.session.defaults.DefaultSqlSession.selectOne( at sun.reflect.GeneratedMethodAccessor75.invoke(null:-1) at sun.reflect.DelegatingMethodAccessorImpl.invoke( at java.lang.reflect.Method.invoke( at org.mybatis.spring.SqlSessionTemplate$SqlSessionInterceptor.invoke( at com.sun.proxy.$Proxy113.selectOne(null:-1) at org.mybatis.spring.SqlSessionTemplate.selectOne( at org.apache.ibatis.binding.MapperMethod.execute( at org.apache.ibatis.binding.MapperProxy.invoke( at com.sun.proxy.$Proxy119.selectCost(null:-1) at
Vous pouvez voir watch, trace, Les expressions conditionnelles peuvent être spécifiées dans la commande stack, à condition que la syntaxe de l'expression ognl soit respectée. La syntaxe complète de ognl est très compliquée. En voici quelques-unes couramment utilisées :
.Vous pouvez utiliser directement la commande ognl pour afficher les valeurs des variables statiques, comme suit :
# 调用System.getProperty静态函数,查看jvm默认字符编码 [arthas@3368243]$ ognl '@System@getProperty("file.encoding")' @String[UTF-8] # 找到springboot类加载器 [arthas@3368243]$ classloader -t +-BootstrapClassLoader +-sun.misc.Launcher$ExtClassLoader@492691d7 +-sun.misc.Launcher$AppClassLoader@764c12b6 +-org.springframework.boot.loader.LaunchedURLClassLoader@4361bd48 # 获取springboot中所有的beanName,-c指定springboot的classloader的hash值 # 一般Spring项目,都会定义一个SpringUtil的,用于获取bean容器ApplicationContext [arthas@3368243]$ ognl -c 4361bd48 '#context=@com.demo.example.web.SpringUtil@applicationContext, #context.beanFactory.beanDefinitionNames' @String[][ @String[org.springframework.context.annotation.internalConfigurationAnnotationProcessor], @String[org.springframework.context.annotation.internalAutowiredAnnotationProcessor], @String[org.springframework.context.annotation.internalCommonAnnotationProcessor], @String[testController], @String[apiController], @String[loginService], ... ] # 获取springboot配置,如server.port是配置http服务端口的 [arthas@3368243]$ ognl -c 4361bd48 '#context=@com.demo.example.web.SpringUtil@applicationContext, #context.getEnvironment().getProperty("server.port")' @String[8080] # 查看server.port定义在哪个配置文件中 # 可以很容易看到,server.port定义在application-web.yml [arthas@3368243]$ ognl -c 4361bd48 '#context=@com.demo.example.web.SpringUtil@applicationContext, #context.environment.propertySources.propertySourceList.{? containsProperty("server.port")}' @ArrayList[ @ConfigurationPropertySourcesPropertySource[ConfigurationPropertySourcesPropertySource {name='configurationProperties'}], @OriginTrackedMapPropertySource[OriginTrackedMapPropertySource {name='applicationConfig: [classpath:/application-web.yml]'}], ] # 调用springboot中bean的方法,获取返回值 [arthas@3368243]$ ognl -c 4361bd48 '#context=@com.demo.example.web.SpringUtil@applicationContext, #context.getBean("demoMapper").queryOne(12)' -x 2 @ArrayList[ @HashMap[ @String[update_time]:@Timestamp[2021-11-09 18:38:13,000], @String[create_time]:@Timestamp[2021-04-17 15:52:55,000], @String[log_info]:@String[TbTRNsh2SixuFrkYLTeb25a6zklEZj0uWANKRMe], @String[id]:@Long[12], @String[add_time]:@Integer[61], ], ] # 查看springboot自带tomcat的线程池的情况 [arthas@3368243]$ ognl -c 4361bd48 '#context=@com.demo.example.web.SpringUtil@applicationContext,[0].connectors[0].protocolHandler.endpoint.executor' @ThreadPoolExecutor[ sm=@StringManager[org.apache.tomcat.util.res.StringManager@16886f49], submittedCount=@AtomicInteger[1], threadRenewalDelay=@Long[1000], workQueue=@TaskQueue[isEmpty=true;size=0], mainLock=@ReentrantLock[java.util.concurrent.locks.ReentrantLock@69e9cf90[Unlocked]], workers=@HashSet[isEmpty=false;size=10], largestPoolSize=@Integer[49], completedTaskCount=@Long[10176], threadFactory=@TaskThreadFactory[org.apache.tomcat.util.threads.TaskThreadFactory@63c03c4f], handler=@RejectHandler[org.apache.tomcat.util.threads.ThreadPoolExecutor$RejectHandler@3667e559], keepAliveTime=@Long[60000000000], allowCoreThreadTimeOut=@Boolean[false], corePoolSize=@Integer[10], maximumPoolSize=@Integer[8000], ]
Autres commandes
arthas fournit également un disque jvm, un profilage de thread, un vidage de tas, une décompilation, un graphique de flamme et d'autres fonctions , comme suit :
# 显示耗cpu较多的前4个线程 [arthas@3368243]$ thread -n 4 "C2 CompilerThread0" [Internal] cpuUsage=8.13% deltaTime=16ms time=46159ms "C2 CompilerThread1" [Internal] cpuUsage=4.2% deltaTime=8ms time=47311ms "C1 CompilerThread2" [Internal] cpuUsage=3.06% deltaTime=6ms time=17402ms "http-nio-8080-exec-40" Id=111 cpuUsage=1.29% deltaTime=2ms time=624ms RUNNABLE (in native) at Method) ... at com.mysql.jdbc.MysqlIO.checkErrorPacket( at com.mysql.jdbc.MysqlIO.sendCommand( at com.mysql.jdbc.MysqlIO.sqlQueryDirect( at com.mysql.jdbc.ConnectionImpl.execSQL( ... at # 堆转储 [arthas@3368243]$ heapdump Dumping heap to /tmp/heapdump2021-11-13-15-117226383240040009563.hprof ... Heap dump file created # cpu火焰图,容器环境下profiler start可能用不了,可用profiler start -e itimer替代 [arthas@3368243]$ profiler start Started [cpu] profiling [arthas@3368243]$ profiler stop OK profiler output file: /home/work/app/arthas-output/20211113-151208.svg # dashboard就类似Linux下的top一样,可看jvm线程、堆内存的整体情况 [arthas@3368243]$ dashboard # jvm就类似Linux下的ps一样,可以看jvm进程的一些基本信息,如:jvm参数、类加载、线程数、打开文件描述符数等 [arthas@3368243]$ jvm # 反编译 [arthas@3368243]$ jad com.demo.example.web.controller.TestController
On voit qu'arthas a Ce n'est pas un simple outil de suivi dynamique, il comprend presque toutes les fonctions de diagnostic couramment utilisées sous jvm.
arthas ne peut suivre que les programmes Java, mais ne peut rien faire sur les programmes natifs (tels que MySQL). Heureusement, l'écosystème Linux fournit un grand nombre de mécanismes et d'outils de support qui peuvent être utilisés pour suivre les programmes. appels de programmes natifs, tels que perf , bpftrace, systemtap, etc. Puisque bpftrace est moins difficile à utiliser, cet article présente principalement son utilisation.
bpftrace est un outil de suivi dynamique basé sur la technologie ebpf. Il encapsule la technologie ebpf et implémente un langage de script, tout comme arthas présenté ci-dessus est basé sur ognl, le langage de script qu'il implémente est similaire à awk et encapsule le bloc d'instructions commun. fournit des variables et des fonctions intégrées, comme suit :
$ sudo bpftrace -e 'BEGIN { printf("Hello, World!\n"); } ' Attaching 1 probe... Hello, World!
Exemple : Suivi du SQL lent du côté appelant
# 查找sendto|recvfrom系统调用的追踪点,可以看到sys_enter_开头的追踪点应该是进入时触发,sys_exit_开头的退出时触发 $ sudo bpftrace -l '*tracepoint:syscalls*' |grep -E 'sendto|recvfrom' tracepoint:syscalls:sys_enter_sendto tracepoint:syscalls:sys_exit_sendto tracepoint:syscalls:sys_enter_recvfrom tracepoint:syscalls:sys_exit_recvfrom # 查看系统调用参数,方便我们编写脚本 $ sudo bpftrace -lv tracepoint:syscalls:sys_enter_sendto tracepoint:syscalls:sys_enter_sendto int __syscall_nr; int fd; void * buff; size_t len; unsigned int flags; struct sockaddr * addr; int addr_len;
#!/usr/local/bin/bpftrace BEGIN { printf("Tracing jdbc SQL slower than %d ms by sendto/recvfrom syscall\n", $1); printf("%-10s %-6s %6s %s\n", "TIME(ms)", "PID", "MS", "QUERY"); } tracepoint:syscalls:sys_enter_sendto /comm == "java"/ { // mysql协议中,包开始的第5字节指示命令类型,3代表SQL查询 $com = *(((uint8 *) args->buff)+4); if($com == (uint8)3){ @query[tid]=str(((uint8 *) args->buff)+5, (args->len)-5); @start[tid]=nsecs; } } tracepoint:syscalls:sys_exit_recvfrom /comm == "java" && @start[tid]/ { $dur = (nsecs - @start[tid]) / 1000000; if ($dur > $1) { printf("%-10u %-6d %6d %s\n", elapsed / 1000000, pid, $dur, @query[tid]); } delete(@query[tid]); delete(@start[tid]); }
$ sudo BPFTRACE_STRLEN=80 bpftrace Attaching 3 probes... Tracing jdbc SQL slower than 0 ms by sendto/recvfrom syscall TIME(ms) PID MS QUERY 6398 3368243 125 select sleep(0.1) 16427 3368243 22 select id from app_log al order by id desc limit 1 16431 3368243 20 select id,log_info,create_time,update_time,add_time from app_log where id=11692 17492 3368243 21 select id,log_info,create_time,update_time,add_time from app_log where id=29214
$ which mysqld /usr/local/mysql/bin/mysqld # objdump可导出可执行文件的动态符号表,做几张mysqld的火焰图就可发现,dispatch_command是SQL处理的入口函数 # 另外,由于mysql是c++写的,方法名是编译器改写过的,这也是为啥下面脚本中要用*dispatch_command*模糊匹配 $ objdump -tT /usr/local/mysql/bin/mysqld | grep dispatch_command 00000000014efdf3 g F .text 000000000000252e _Z16dispatch_commandP3THDPK8COM_DATA19enum_server_command 00000000014efdf3 g DF .text 000000000000252e Base _Z16dispatch_commandP3THDPK8COM_DATA19enum_server_command
#!/usr/bin/bpftrace BEGIN{ printf("Tracing mysqld SQL slower than %d ms. Ctrl-C to end.\n", $1); printf("%-10s %-6s %6s %s\n", "TIME(ms)", "PID", "MS", "QUERY"); } uprobe:/usr/local/mysql/bin/mysqld:*dispatch_command*{ if (arg2 == (uint8)3) { @query[tid] = str(*arg1); @start[tid] = nsecs; } } uretprobe:/usr/local/mysql/bin/mysqld:*dispatch_command* /@start[tid]/{ $dur = (nsecs - @start[tid]) / 1000000; if ($dur > $1) { printf("%-10u %-6d %6d %s\n", elapsed / 1000000, pid, $dur, @query[tid]); } delete(@query[tid]); delete(@start[tid]); }
#!/usr/bin/bpftrace BEGIN{ printf("Tracing mysqld SQL scan row than %d. Ctrl-C to end.\n", $1); printf("%-10s %-6s %6s %10s %s\n", "TIME(ms)", "PID", "MS", "SCAN_NUM", "QUERY"); } uprobe:/usr/local/mysql/bin/mysqld:*dispatch_command*{ $COM_QUERY = (uint8)3; if (arg2 == $COM_QUERY) { @query[tid] = str(*arg1); @start[tid] = nsecs; } } uprobe:/usr/local/mysql/bin/mysqld:*row_search_mvcc*{ @scan_num[tid]++; } uretprobe:/usr/local/mysql/bin/mysqld:*dispatch_command* /@start[tid]/{ $dur = (nsecs - @start[tid]) / 1000000; if (@scan_num[tid] > $1) { printf("%-10u %-6d %6d %10d %s\n", elapsed / 1000000, pid, $dur, @scan_num[tid], @query[tid]); } delete(@query[tid]); delete(@start[tid]); delete(@scan_num[tid]); }
$ sudo BPFTRACE_STRLEN=80 bpftrace 200 Attaching 4 probes... Tracing mysqld SQL scan row than 200. Ctrl-C to end. TIME(ms) PID MS SCAN_NUM QUERY 150614 1892 4 300 select * from app_log limit 300 # 全表扫描,慢! 17489 1892 424 43717 select count(*) from app_log # 大范围索引扫描,慢! 193013 1892 253 20000 select count(*) from app_log where id < 20000 # 深分页,会查询前20300条,取最后300条,慢! 213395 1892 209 20300 select * from app_log limit 20000,300 # 索引效果不佳,虽然只会查到一条数据,但扫描数据量不会少,慢! 430374 1892 186 15000 select * from app_log where id < 20000 and seq = 15000 limit 1
