首頁 >系統教程 >Linux >Linux 核心崩潰的偵測工具 Kdump

Linux 核心崩潰的偵測工具 Kdump

王林轉載: 2024-01-03 19:25:421457瀏覽

導讀	kdump 是獲取崩潰的 Linux 核心轉儲的一種方法，但是想找到解釋其使用和內部結構的文件可能有點困難。在本文中，我將研究 kdump 的基本使用方法，以及 kdump/kexec 在核心中如何實作。

kexec 是一個 Linux 核心到核心的引導程序，可以幫助從第一個核心的上下文引導到第二個核心。 kexec 會關閉第一個內核，繞過 BIOS 或韌體階段，並跳到第二個內核。因此，在沒有 BIOS 階段的情況下，重新啟動變得更快。

kdump 可以與kexec 應用程式一起使用—— 例如，當第一個核心崩潰時第二個核心啟動，第二個核心用於複製第一個核心的記憶體轉儲，可以使用gdb 和crash 等工具分析崩潰的原因。（在本文中，我將使用術語“第一內核”作為當前運行的內核，“第二內核” 作為使用 kexec 運行的內核，“捕獲內核” 表示在當前內核崩潰時運行的內核。）

kexec 機制在核心以及使用者空間中都有元件。核心提供了幾個用於 kexec 重新啟動功能的系統呼叫。名為 kexec-tools 的使用者空間工具使用這些調用，並提供可執行檔來載入和引導“第二核心”。有的發行版還會在 kexec-tools 上新增封裝器，這有助於擷取並保存各種轉儲目標配置的轉儲。在本文中，我將使用名為 distro-kexec-tools 的工具來避免上游 kexec 工具和特定於發行版的 kexec-tools 程式碼之間的混淆。我的範例將使用 Fedora Linux 發行版。

Fedora kexec-tools 工具

使用 dnf install kexec-tools 指令在 Fedora 機器上安裝 fedora-kexec-tools。在安裝 fedora-kexec-tools 後可以執行 systemctl start kdump 指令來啟動 kdump 服務。當此服務啟動時，它將建立一個根檔案系統（initramfs），其中包含了要掛載到目標位置的資源，以保存 vmcore，以及用來複製和轉儲 vmcore 到目標位置的命令。然後，該服務將核心和 initramfs 載入到崩潰核心區域內的合適位置，以便在核心崩潰時可以執行它們。

Fedora 封裝器提供了兩個使用者設定檔：

/etc/kdump.conf 指定修改後需要重建 initramfs 的設定參數。例如，如果將轉儲目標從本機磁碟變更為 NFS 掛載的磁碟，則需要由「捕獲核心」載入的 NFS 相關的核心模組。
/etc/sysconfig/kdump 指定修改後不需要重新建置 initramfs 的設定參數。例如，如果只需修改傳遞給「捕獲核心」的命令列參數，則不需要重新建構 initramfs。
如果核心在 kdump 服務啟動之後發生故障，那麼「捕獲核心」就會執行，其將進一步執行 initramfs 中的 vmcore 保存過程，然後重新啟動到穩定的核心。

kexec-tools 工具

編譯 kexec-tools 的原始碼得到了一個名為 kexec 的執行檔。這個同名的可執行檔可用於載入和執行“第二內核”，或載入“捕獲內核”，它可以在內核崩潰時執行。

載入「第二核心」的指令：

# kexec -l kernel.img --initrd=initramfs-image.img –reuse-cmdline

--reuse-command 參數表示使用與「第一個核心」相同的命令列。使用 --initrd 傳遞 initramfs。 -l 表示你正在載入“第二核心”，可以由 kexec 應用程式本身執行（kexec -e）。使用 -l 載入的核心不能在內核崩潰時執行。為了載入可以在內核崩潰時執行的“捕獲內核”，必須傳遞參數 -p 取代 -l。

載入捕獲內核的命令：

# kexec -p kernel.img --initrd=initramfs-image.img –reuse-cmdline

echo c > /pros/sysrq-trigger 可用於使核心崩潰以進行測試。有關 kexec-tools 提供的選項的詳細信息，請參閱 man kexec。在轉到下一個部分之前，請先看這個 kexec_dump 的示範：

kdump: 端對端流

下圖展示了流程圖。必須在引導「第一個核心」期間為捕獲內核保留 crashkernel 的記憶體。您可以在核心命令列中傳遞 crashkernel=Y@X，其中 @X 是可選的。 crashkernel=256M 適用於大多數 x86_64 系統；然而，為崩潰核心選擇適當的記憶體取決於許多因素，如核心大小和 initramfs，以及 initramfs 中包含的模組和應用程式運行時的記憶體需求。有關傳遞崩潰內核參數的更多方法，請參閱 kernel-parameters 文件。
Kdump 检查 Linux 内核崩溃！

pratyush_f1.png

您可以将内核和 initramfs 镜像传递给 kexec 可执行文件，如（kexec-tools）部分的命令所示。“捕获内核”可以与“第一内核”相同，也可以不同。通常，一样即可。Initramfs 是可选的；例如，当内核使用 CONFIG_INITRAMFS_SOURCE 编译时，您不需要它。通常，从第一个 initramfs 中保存一个不一样的捕获 initramfs，因为在捕获 initramfs 中自动执行 vmcore 的副本能获得更好的效果。当执行 kexec 时，它还加载了 elfcorehdr 数据和 purgatory 可执行文件（LCTT 译注：purgatory 就是一个引导加载程序，是为 kdump 定作的。它被赋予了“炼狱”这样一个古怪的名字应该只是一种调侃）。 elfcorehdr 具有关于系统内存组织的信息，而 purgatory 可以在“捕获内核”执行之前执行并验证第二阶段的二进制或数据是否具有正确的 SHA。purgatory 也是可选的。
当“第一内核”崩溃时，它执行必要的退出过程并切换到 purgatory（如果存在）。purgatory 验证加载二进制文件的 SHA256，如果是正确的，则将控制权传递给“捕获内核”。“捕获内核”根据从 elfcorehdr 接收到的系统内存信息创建 vmcore。因此，“捕获内核”启动后，您将看到 /proc/vmcore 中“第一内核”的转储。根据您使用的 initramfs，您现在可以分析转储，将其复制到任何磁盘，也可以是自动复制的，然后重新启动到稳定的内核。

内核系统调用

内核提供了两个系统调用：kexec_load() 和 kexec_file_load()，可以用于在执行 kexec -l 时加载“第二内核”。它还为 reboot() 系统调用提供了一个额外的标志，可用于使用 kexec -e 引导到“第二内核”。

kexec_load()：kexec_load() 系统调用加载一个可以在之后通过 reboot() 执行的新的内核。其原型定义如下：

long kexec_load(unsigned long entry, unsigned long nr_segments,
struct kexec_segment *segments, unsigned long flags);

用户空间需要为不同的组件传递不同的段，如内核，initramfs 等。因此，kexec 可执行文件有助于准备这些段。kexec_segment 的结构如下所示：

struct kexec_segment {
void *buf;
/* 用户空间缓冲区 */
size_t bufsz;
/* 用户空间中的缓冲区长度 */
void *mem;
/* 内核的物理地址 */
size_t memsz;
/* 物理地址长度 */
};

当使用 LINUX_REBOOT_CMD_KEXEC 调用 reboot() 时，它会引导进入由 kexec_load 加载的内核。如果标志 KEXEC_ON_CRASH 被传递给 kexec_load()，则加载的内核将不会使用 reboot(LINUX_REBOOT_CMD_KEXEC) 来启动；相反，这将在内核崩溃中执行。必须定义 CONFIG_KEXEC 才能使用 kexec，并且为 kdump 定义 CONFIG_CRASH_DUMP。

kexec_file_load()：作为用户，你只需传递两个参数（即 kernel 和 initramfs）到 kexec 可执行文件。然后，kexec 从 sysfs 或其他内核信息源中读取数据，并创建所有段。所以使用 kexec_file_load() 可以简化用户空间，只传递内核和 initramfs 的文件描述符。其余部分由内核本身完成。使用此系统调用时应该启用 CONFIG_KEXEC_FILE。它的原型如下：

long kexec_file_load(int kernel_fd, int initrd_fd, unsigned long
cmdline_len, const char __user * cmdline_ptr, unsigned long
flags);

请注意，kexec_file_load 也可以接受命令行，而 kexec_load() 不行。内核根据不同的系统架构来接受和执行命令行。因此，在 kexec_load() 的情况下，kexec-tools 将通过其中一个段（如在 dtb 或 ELF 引导注释等）中传递命令行。

目前，kexec_file_load() 仅支持 x86 和 PowerPC。

当内核崩溃时会发生什么

当第一个内核崩溃时，在控制权传递给 purgatory 或“捕获内核”之前，会执行以下操作：

准备 CPU 寄存器（参见内核代码中的 crash_setup_regs()）;
更新 vmcoreinfo 备注（请参阅 crash_save_vmcoreinfo()）;
关闭非崩溃的 CPU 并保存准备好的寄存器（请参阅 machine_crash_shutdown() 和 crash_save_cpu()）;
您可能需要在此处禁用中断控制器；
最后，它执行 kexec 重新启动（请参阅 machine_kexec()），它将加载或刷新 kexec 段到内存，并将控制权传递给进入段的执行文件。输入段可以是下一个内核的 purgatory 或开始地址。

ELF 程序头

kdump 中涉及的大多数转储核心都是 ELF 格式。因此，理解 ELF 程序头部很重要，特别是当您想要找到 vmcore 准备的问题。每个 ELF 文件都有一个程序头：

由系统加载器读取，
描述如何将程序加载到内存中，
可以使用 Objdump -p elf_file 来查看程序头。

vmcore 的 ELF 程序头的示例如下：

# objdump -p vmcore
vmcore:
file format elf64-littleaarch64
Program Header:
NOTE off 0x0000000000010000 vaddr 0x0000000000000000 paddr 0x0000000000000000 align 2**0 filesz
0x00000000000013e8 memsz 0x00000000000013e8 flags ---
LOAD off 0x0000000000020000 vaddr 0xffff000008080000 paddr 0x0000004000280000 align 2**0 filesz
0x0000000001460000 memsz 0x0000000001460000 flags rwx
LOAD off 0x0000000001480000 vaddr 0xffff800000200000 paddr 0x0000004000200000 align 2**0 filesz
0x000000007fc00000 memsz 0x000000007fc00000 flags rwx
LOAD off 0x0000000081080000 vaddr 0xffff8000ffe00000 paddr 0x00000040ffe00000 align 2**0 filesz
0x00000002fa7a0000 memsz 0x00000002fa7a0000 flags rwx
LOAD off 0x000000037b820000 vaddr 0xffff8003fa9e0000 paddr 0x00000043fa9e0000 align 2**0 filesz
0x0000000004fc0000 memsz 0x0000000004fc0000 flags rwx
LOAD off 0x00000003807e0000 vaddr 0xffff8003ff9b0000 paddr 0x00000043ff9b0000 align 2**0 filesz
0x0000000000010000 memsz 0x0000000000010000 flags rwx
LOAD off 0x00000003807f0000 vaddr 0xffff8003ff9f0000 paddr 0x00000043ff9f0000 align 2**0 filesz
0x0000000000610000 memsz 0x0000000000610000 flags rwx

在这个例子中，有一个 note 段，其余的是 load 段。note 段提供了有关 CPU 信息，load 段提供了关于复制的系统内存组件的信息。
vmcore 从 elfcorehdr 开始，它具有与 ELF 程序头相同的结构。参见下图中 elfcorehdr 的表示：
Kdump 检查 Linux 内核崩溃！

pratyush_f2.png

kexec-tools 读取 /sys/devices/system/cpu/cpu%d/crash_notes 并准备 CPU PT_NOTE 的标头。同样，它读取 /sys/kernel/vmcoreinfo 并准备 vmcoreinfo PT_NOTE 的标头，从 /proc/iomem 读取系统内存并准备存储器 PT_LOAD 标头。当“捕获内核”接收到 elfcorehdr 时，它从标头中提到的地址中读取数据，并准备 vmcore。

Crash note

Crash notes 是每个 CPU 中用于在系统崩溃的情况下存储 CPU 状态的区域；它有关于当前 PID 和 CPU 寄存器的信息。

vmcoreinfo

该 note 段具有各种内核调试信息，如结构体大小、符号值、页面大小等。这些值由捕获内核解析并嵌入到 /proc/vmcore 中。 vmcoreinfo 主要由 makedumpfile 应用程序使用。在 Linux 内核，include/linux/kexec.h 宏定义了一个新的 vmcoreinfo。一些示例宏如下所示：

VMCOREINFO_PAGESIZE()
VMCOREINFO_SYMBOL()
VMCOREINFO_SIZE()
VMCOREINFO_STRUCT_SIZE()

makedumpfile

vmcore 中的许多信息（如可用页面）都没有用处。makedumpfile 是一个用于排除不必要的页面的应用程序，如：

填满零的页面；
没有私有标志的缓存页面（非专用缓存）;
具有私有标志的缓存页面（专用缓存）;
用户进程数据页；
可用页面。

此外，makedumpfile 在复制时压缩 /proc/vmcore 的数据。它也可以从转储中删除敏感的符号信息；然而，为了做到这一点，它首先需要内核的调试信息。该调试信息来自 VMLINUX 或 vmcoreinfo，其输出可以是 ELF 格式或 kdump 压缩格式。

典型用法：

# makedumpfile -l --message-level 1 -d 31 /proc/vmcore makedumpfilecore

详细信息请参阅 man makedumpfile。

kdump 调试

新手在使用 kdump 时可能会遇到的问题：

kexec -p kernel_image 没有成功

检查是否分配了崩溃内存。

cat /sys/kernel/kexec_crash_size 不應該有零值。
cat /proc/iomem | grep "Crash kernel" 應該有一個分配的範圍。
如果未分配，則在命令列中傳遞正確的 crashkernel= 參數。
如果沒有顯示，則在 kexec 命令中傳遞參數 -d，並將輸出訊息傳送至 kexec-tools 郵件清單。

在「第一核心」的最後一個訊息之後，在控制台上看不到任何東西（例如「bye」）

檢查 kexec -e 之後的 kexec -l kernel_image 指令是否運作。
可能缺少支援的體系結構或特定機器的選項。
可能是 purgatory 的 SHA 驗證失敗。如果您的體系結構不支援 purgatory 中的控制台，則很難進行偵錯。
可能是「第二核心」早已崩壞。
將您的系統的 earlycon 或 earlyprintk 選項傳遞給「第二核心」的命令列。
使用 kexec-tools 郵件清單共用第一個核心和捕獲核心的 dmesg 日誌。

資源 fedora-kexec-tools

#GitHub 倉庫：git://pkgs.fedoraproject.org/kexec-tools
郵件清單：[email protected]
說明：Specs 檔案和腳本提供了使用者友善的命令和服務，以便 kexec-tools 可以在不同的使用者場景下自動化。

kexec-tools

GitHub 倉庫：git://git.kernel.org/pub/scm/utils/kernel/kexec/kexec-tools.git
郵件清單：[email protected]
說明：使用核心系統呼叫並提供使用者命令 kexec。

Linux kernel

#GitHub 倉庫： git://git.kernel.org/pub/scm/linux/kernel/git/torvalds/linux.git
郵件清單：[email protected]
說明：實作了 kexec_load()、kexec_file_load()、reboot() 系統呼叫和特定體系結構的程式碼，例如 machine_kexec() 和 machine_crash_shutdown()。

Makedumpfile

#GitHub 倉庫： git://git.code.sf.net/p/makedumpfile/code
#郵件清單：[email protected]
說明：從轉儲檔案壓縮並過濾不必要的元件。

（題圖：Penguin、 Boot，修改：Opensource.com. CC BY-SA 4.0）

作者簡介：

Pratyush Anand - Pratyush 正在以以為 Linux 核心專家的身份與 Red Hat 合作。他主要負責 Red Hat 產品和上游所面臨的幾個 kexec/kdump 問題。他還處理 Red Hat 支援的 ARM64 平台周圍的其他核心調試、追蹤和效能問題。除了 Linux 內核，他還在上游的 kexec-tools 和 makedumpfile 專案中做出了貢獻。他是一名開源愛好者，並在教育機構舉辦志工講座，促進了 FOSS。

以上是Linux 核心崩潰的偵測工具 Kdump的詳細內容。更多資訊請關注PHP中文網其他相關文章！

架构 echo 封装 include 结构体命令行参数 protected github git https linux 自动化系统架构

陳述：

本文轉載於：linuxprobe.com。如有侵權，請聯絡admin@php.cn刪除

上一篇：介紹CentOS系統的回收站功能增強下一篇：介紹CentOS系統的回收站功能增強

看更多