淺析Linux中的零拷貝技術-linux運維-PHP中文網

首頁

運維

linux運維

淺析 Linux 中的零拷貝技術

Linux中文社区

Aug 04, 2023 pm 04:23 PM

linux拷貝

本文探討Linux中主要的幾種零拷貝技術以及零拷貝技術適用的場景。為了迅速建立起零拷貝的概念，我們拿一個常用的場景進行介紹：

#引用

##在寫一個服務端程式時（Web Server或檔案伺服器），檔案下載是一個基本功能。這時候服務端的任務是：將服務端主機磁碟中的檔案不做修改地從已連接的socket發出去，我們通常用下面的程式碼完成：

while((n = read(diskfd, buf, BUF_SIZE)) > 0)
    write(sockfd, buf , n);

基本操作就是循環的從磁碟讀入檔案內容到緩衝區，再將緩衝區的內容傳送到socket。但是由於Linux的I/O操作預設是緩衝I/O。這裡面主要使用的也就是read和write兩個系統調用，我們並不知道作業系統在其中做了什麼。實際上在上述I/O操作中，發生了多次的資料拷貝。

當應用程式存取某塊資料時，作業系統首先會檢查，是否最近訪問過此文件，文件內容是否緩存在內核緩衝區，如果是，作業系統則直接根據read系統呼叫提供的buf位址，將核心緩衝區的內容拷貝到buf所指定的使用者空間緩衝區中去。如果不是，作業系統則先將磁碟上的資料拷貝的核心緩衝區，這一步目前主要依靠DMA來傳輸，然後再把核心緩衝區上的內容拷貝到使用者緩衝區中。

接下來，write系統呼叫再把使用者緩衝區的內容拷貝到網路堆疊相關的核心緩衝區中，最後socket再把核心緩衝區的內容傳送到網卡上。說了這麼多，不如看圖片清楚：

淺析 Linux 中的零拷貝技術

#資料拷貝
#

从上图中可以看出，共产生了四次数据拷贝，即使使用了DMA来处理了与硬件的通讯，CPU仍然需要处理两次数据拷贝，与此同时，在用户态与内核态也发生了多次上下文切换，无疑也加重了CPU负担。

在此过程中，我们没有对文件内容做任何修改，那么在内核空间和用户空间来回拷贝数据无疑就是一种浪费，而零拷贝主要就是为了解决这种低效性。

什么是零拷贝技术（zero-copy）？

零拷贝主要的任务就是避免CPU将数据从一块存储拷贝到另外一块存储，主要就是利用各种零拷贝技术，避免让CPU做大量的数据拷贝任务，减少不必要的拷贝，或者让别的组件来做这一类简单的数据传输任务，让CPU解脱出来专注于别的任务。这样就可以让系统资源的利用更加有效。

我们继续回到引文中的例子，我们如何减少数据拷贝的次数呢？一个很明显的着力点就是减少数据在内核空间和用户空间来回拷贝，这也引入了零拷贝的一个类型：

让数据传输不需要经过 user space。

使用 mmap

我们减少拷贝次数的一种方法是调用mmap()来代替read调用：

buf = mmap(diskfd, len);
write(sockfd, buf, len);

应用程序调用mmap()，磁盘上的数据会通过DMA被拷贝的内核缓冲区，接着操作系统会把这段内核缓冲区与应用程序共享，这样就不需要把内核缓冲区的内容往用户空间拷贝。应用程序再调用write(),操作系统直接将内核缓冲区的内容拷贝到socket缓冲区中，这一切都发生在内核态，最后，socket缓冲区再把数据发到网卡去。同样的，看图很简单：

淺析 Linux 中的零拷貝技術

mmap

#使用mmap替代read很明顯減少了一次拷貝，當拷貝資料量很大時，無疑提升了效率。但是使用mmap是有代價的。當你使用mmap時，你可能會遇到一些隱藏的陷阱。例如，當你的程式map了一個文件，但是當這個文件被另一個進程截斷(truncate)時, write系統調用會因為訪問非法地址而被SIGBUS信號終止。 SIGBUS訊號預設會殺死你的進程並產生一個coredump,如果你的伺服器這樣被中止了，那會產生一筆損失。

通常我們使用以下解決方案來避免這種問題：

1. 為SIGBUS訊號建立訊號處理程序

當遇到SIGBUS訊號時，訊號處理程序簡單地傳回，write系統呼叫在中斷之前會傳回已經寫入的位元組數，並且errno會被設定成success,但是這是一種糟糕的處理辦法，因為你並沒有解決問題的實質核心。

2. 使用檔案租借鎖

通常我們使用這種方法，在檔案描述子上使用租借鎖，我們為檔案向核心申請一個租借鎖，當其它進程想要截斷這個檔案時，核心會向我們發送一個即時的RTSIGNALLEASE訊號，告訴我們核心正在破壞你加持在檔案上的讀寫鎖。這樣在程式存取非法記憶體並且被SIGBUS殺死之前，你的write系統呼叫會被中斷。 write會傳回已經寫入的位元組數，並且置errno為success。

我們應該在mmap檔案之前加鎖，並且在操作完檔案後解鎖：

if(fcntl(diskfd, F_SETSIG, RT_SIGNAL_LEASE) == -1) {
    perror("kernel lease set signal");
return -1;
}
/* l_type can be F_RDLCK F_WRLCK  加锁*/
/* l_type can be  F_UNLCK 解锁*/
if(fcntl(diskfd, F_SETLEASE, l_type)){
    perror("kernel lease set type");
return -1;
}

使用sendfile

从2.1版内核开始，Linux引入了sendfile来简化操作:

#include<sys/sendfile.h>
ssize_t sendfile(int out_fd, int in_fd, off_t *offset, size_t count);

系统调用sendfile()在代表输入文件的描述符infd和代表输出文件的描述符outfd之间传送文件内容（字节）。描述符outfd必须指向一个套接字，而infd指向的文件必须是可以mmap的。这些局限限制了sendfile的使用，使sendfile只能将数据从文件传递到套接字上，反之则不行。

使用sendfile不仅减少了数据拷贝的次数，还减少了上下文切换，数据传送始终只发生在kernel space。

淺析 Linux 中的零拷貝技術

sendfile系统调用过程

在我们调用sendfile时，如果有其它进程截断了文件会发生什么呢？假设我们没有设置任何信号处理程序，sendfile调用仅仅返回它在被中断之前已经传输的字节数，errno会被置为success。如果我们在调用sendfile之前给文件加了锁，sendfile的行为仍然和之前相同，我们还会收到RTSIGNALLEASE的信号。

目前为止，我们已经减少了数据拷贝的次数了，但是仍然存在一次拷贝，就是页缓存到socket缓存的拷贝。那么能不能把这个拷贝也省略呢？

借助于硬件上的帮助，我们是可以办到的。之前我们是把页缓存的数据拷贝到socket缓存中，实际上，我们仅仅需要把缓冲区描述符传到socket缓冲区，再把数据长度传过去，这样DMA控制器直接将页缓存中的数据打包发送到网络中就可以了。

总结一下，sendfile系统调用利用DMA引擎将文件内容拷贝到内核缓冲区去，然后将带有文件位置和长度信息的缓冲区描述符添加socket缓冲区去，这一步不会将内核中的数据拷贝到socket缓冲区中，DMA引擎会将内核缓冲区的数据拷贝到协议引擎中去，避免了最后一次拷贝。

淺析 Linux 中的零拷貝技術

带DMA的sendfile

不过这一种收集拷贝功能是需要硬件以及驱动程序支持的。

使用splice

sendfile只适用于将数据从文件拷贝到套接字上，限定了它的使用范围。Linux在2.6.17版本引入splice系统调用，用于在两个文件描述符中移动数据：

#define _GNU_SOURCE         /* See feature_test_macros(7) */
#include<fcntl.h>
ssize_t splice(int fd_in, loff_t *off_in, int fd_out, loff_t *off_out, size_t len, unsignedint flags);

splice调用在两个文件描述符之间移动数据，而不需要数据在内核空间和用户空间来回拷贝。他从fdin拷贝len长度的数据到fdout，但是有一方必须是管道设备，这也是目前splice的一些局限性。flags参数有以下几种取值：

SPLICEFMOVE ：尝试去移动数据而不是拷贝数据。这仅仅是对内核的一个小提示：如果内核不能从pipe移动数据或者pipe的缓存不是一个整页面，仍然需要拷贝数据。Linux最初的实现有些问题，所以从2.6.21开始这个选项不起作用，后面的Linux版本应该会实现。
SPLICEFNONBLOCK ：splice 操作不会被阻塞。然而，如果文件描述符没有被设置为不可被阻塞方式的 I/O ，那么调用 splice 有可能仍然被阻塞。
SPLICEFMORE：後面的splice呼叫會有更多的資料。

splice呼叫利用了Linux提出的管道緩衝區機制，所以至少一個描述符要為管道。

以上幾種零拷貝技術都是減少資料在使用者空間和核心空間拷貝技術實現的，但是有些時候，資料必須在使用者空間和核心空間之間拷貝。這時候，我們只能針對資料在使用者空間和核心空間拷貝的時機上下功夫了。 Linux通常會利用寫時複製(copy on write)來減少系統開銷，這個技術又時常稱為COW。

由於篇幅原因，本文不詳細介紹寫時複製。大概描述下就是：如果多個程式同時存取同一塊數據，那麼每個程式都擁有指向這塊數據的指針，在每個程式看來，自己都是獨立擁有這塊數據的，只有當程式需要對資料內容進行修改時，才會把資料內容拷貝到程式自己的應用程式空間裡去，這時候，資料才變成該程式的私有資料。如果程式不需要對資料進行修改，那麼永遠都不需要拷貝資料到自己的應用空間。這樣就減少了資料的拷貝。寫時複製的內容可以再寫一篇文章了。。。

除此之外，還有一些零拷貝技術，例如傳統的Linux I/O中加上O_DIRECT標記可以直接I/O，避免了自動緩存，還有尚未成熟的fbufs技術，本文尚未涵蓋所有零拷貝技術，只是介紹常見的一些，如有興趣，可以自行研究，一般成熟的服務端項目也會自己改造內核中有關I/O的部分，提高自己的數據傳輸速率。

以上是淺析 Linux 中的零拷貝技術的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文轉載於：Linux中文社区。如有侵權，請聯絡admin@php.cn刪除

Debian如何提升Hadoop數據處理速度Apr 13, 2025 am 11:54 AM

本文探討如何在Debian系統上提升Hadoop數據處理效率。優化策略涵蓋硬件升級、操作系統參數調整、Hadoop配置修改以及高效算法和工具的運用。一、硬件資源強化確保所有節點硬件配置一致，尤其關注CPU、內存和網絡設備性能。選擇高性能硬件組件對於提升整體處理速度至關重要。二、操作系統調優文件描述符和網絡連接數:修改/etc/security/limits.conf文件，增加系統允許同時打開的文件描述符和網絡連接數上限。 JVM參數調整:在hadoop-env.sh文件中調整

Debian syslog如何學習Apr 13, 2025 am 11:51 AM

本指南將指導您學習如何在Debian系統中使用Syslog。 Syslog是Linux系統中用於記錄系統和應用程序日誌消息的關鍵服務，它幫助管理員監控和分析系統活動，從而快速識別並解決問題。一、Syslog基礎知識Syslog的核心功能包括：集中收集和管理日誌消息；支持多種日誌輸出格式和目標位置（例如文件或網絡）；提供實時日誌查看和過濾功能。二、安裝和配置Syslog(使用Rsyslog)Debian系統默認使用Rsyslog。您可以通過以下命令安裝：sudoaptupdatesud

Debian中Hadoop版本怎麼選Apr 13, 2025 am 11:48 AM

選擇適合Debian系統的Hadoop版本，需要綜合考慮以下幾個關鍵因素：一、穩定性與長期支持：對於追求穩定性和安全性的用戶，建議選擇Debian穩定版，例如Debian11(Bullseye)。該版本經過充分測試，擁有長達五年的支持週期，能夠確保系統穩定運行。二、軟件包更新速度：如果您需要使用最新的Hadoop功能和特性，則可以考慮Debian的不穩定版(Sid)。但需注意，不穩定版可能存在兼容性問題和穩定性風險。三、社區支持與資源：Debian擁有龐大的社區支持，可以提供豐富的文檔和

Debian上TigerVNC共享文件方法Apr 13, 2025 am 11:45 AM

本文介紹如何在Debian系統上使用TigerVNC共享文件。你需要先安裝TigerVNC服務器，然後進行配置。一、安裝TigerVNC服務器打開終端。更新軟件包列表：sudoaptupdate安裝TigerVNC服務器：sudoaptinstalltigervnc-standalone-servertigervnc-common二、配置TigerVNC服務器設置VNC服務器密碼：vncpasswd啟動VNC服務器：vncserver:1-localhostno

Debian郵件服務器防火牆配置技巧Apr 13, 2025 am 11:42 AM

配置Debian郵件服務器的防火牆是確保服務器安全性的重要步驟。以下是幾種常用的防火牆配置方法，包括iptables和firewalld的使用。使用iptables配置防火牆安裝iptables（如果尚未安裝）：sudoapt-getupdatesudoapt-getinstalliptables查看當前iptables規則：sudoiptables-L配置

Debian郵件服務器SSL證書安裝方法Apr 13, 2025 am 11:39 AM

在Debian郵件服務器上安裝SSL證書的步驟如下：1.安裝OpenSSL工具包首先，確保你的系統上已經安裝了OpenSSL工具包。如果沒有安裝，可以使用以下命令進行安裝：sudoapt-getupdatesudoapt-getinstallopenssl2.生成私鑰和證書請求接下來，使用OpenSSL生成一個2048位的RSA私鑰和一個證書請求（CSR）：openss

Debian郵件服務器虛擬主機配置方法Apr 13, 2025 am 11:36 AM

在Debian系統上配置郵件服務器的虛擬主機通常涉及安裝和配置郵件服務器軟件（如Postfix、Exim等），而不是ApacheHTTPServer，因為Apache主要用於Web服務器功能。以下是配置郵件服務器虛擬主機的基本步驟：安裝Postfix郵件服務器更新系統軟件包：sudoaptupdatesudoaptupgrade安裝Postfix：sudoapt

Debian郵件服務器DNS設置指南Apr 13, 2025 am 11:33 AM

要配置Debian郵件服務器的DNS設置，您可以按照以下步驟進行操作：打開網絡配置文件：使用文本編輯器（例如vi或nano）打開網絡配置文件/etc/network/interfaces。 sudonano/etc/network/interfaces查找網絡接口配置：在配置文件中找到要修改的網絡接口。通常情況下，以太網接口的配置位於ifaceeth0區塊中。

See all articles