搜尋
首頁資料庫mysql教程解决HDFS磁盘扫描导致死亡结点的问题

在Hadoop集群从1.0升级到2.0之后,我们一直在解决很多很多的问题。在今年8月初,我们检测到线上频繁有机器变成死亡结点,一段时间后自动恢复。进入死亡结点状态的DataNode将不能读写数据块。我们观察了一下日志,看到DataNode中打印出很多接受数据快传输的线

在Hadoop集群从1.0升级到2.0之后,我们一直在解决很多很多的问题。在今年8月初,我们检测到线上频繁有机器变成死亡结点,一段时间后自动恢复。进入死亡结点状态的DataNode将不能读写数据块。我们观察了一下日志,看到DataNode中打印出很多接受数据快传输的线程(DataXceiver),线程都是在Receiving的状态,而没有结束。估摸了一下在死亡结点发生的阶段大约有300个左右的线程积累下来。但是,没找到其它突破口。

由于,HDFS的Client会自动重试。如果一个结点进入死亡结点,只要另外的数据块的结点依然可读,Client还是可以读取到数据块的。所以,死亡结点的问题对线上业务没有造成影响。当时,还有其它优先级更高的事情,所以,问题转为观察状态。

然后终于在一次机房意外断电,集群重启之后,一个线上的作业报找不到数据块。经日志确认,产生的原因是拥有这个数据块副本的两个机器同时进入死亡结点! 于是,问题转入高优先级,优先解决。

现象总结

  • 出现死亡结点的机器集中在磁盘数量较多的机器。
  • 死亡结点跟机器的CPU,内存或者网络关系不大。
  • 出现死亡结点的时候,DataNode有大量DataXceiver的线程积压。
  • 虽然,总体上机器出现死亡结点的时间比较分散。但是,单一的DataNode上出现死亡结点的间隔必然是6小时或者6小时的整数倍。

攻坚

首先知道,DataNode进入死亡结点状态是因为NameNode长期接收不到DataNode的心跳包,就会把DataNode归入死亡结点。而DataNode的心跳线程是单独一个线程。

现象的最后一点,6小时的间隔,可谓是这个问题的突破点。在配置文件中找到6小时的间隔的工作有两种:

  1. DataNode和NameNode的6小时一次的心跳报告。用于更新NameNode上的Block信息。
  2. DataNode每6小时一次的磁盘扫描。用于更新内存中的信息和磁盘中信息的不一致。

根据两者打印的日志和死亡结点发生的时间进行精确对比,发现后者的时间基本吻合。 然后,我们在集中查看磁盘扫描(DirectoryScanner)的代码。

描述一下磁盘扫描的工作流程:

  1. 启动一个主线程和一个线程池。
  2. 主线程往线程池提交多个磁盘扫描的任务。任务是遍历整个数据目录记录所有的数据块的信息和对应的Meta信息
  3. 主线程等待线程池的任务返回,收集扫描结果。
  4. 将扫描结果和内存中的数据块进行对比,得到DiffRecord,算法复杂度O(n),数据块越多速度越慢。
  5. 根据DiffRecord修改对应的内存数据。

第一步,主线程和线程池的线程都是Daemon线程。Daemon线程的默认优先级比较低。

第二步,由于涉及到磁盘读写。如果,外部磁盘压力大的时候,会拖慢整个进度。但是,整个过程没有加锁。不可能对其它线程产生影响。

第四步,数据块对比过程,为了阻止对blockMap的修改,整个过程针对DataSet对象加锁(DataSet对象是DataNode中保存所有数据块信息的内存对象)。

那心跳进程为什么会使用DataSet的对象锁? 我们写了个小程序测试,在对DataSet加锁的情况下,启动心跳线程。发现心跳线程在获取磁盘的可用空间的时候,需要获得DataSet的锁。

于是,问题变得清晰了:在6小时一次的磁盘扫描中,由于DirectoryScanner长久占用了DataSet的锁,导致心跳线程不能发出心跳包。DataNode进入死亡结点状态。而问题频发在磁盘较多的机器是因为,数据块数量和对比的过程的耗时相关。那是什么原因导致DirectoryScanner长久占用了DataSet的锁呢?

我们观察了加锁部分的代码,没有找到磁盘操作。我们估摸了下,最多数据块的机器也才80W左右各数据块。如果是纯内存操作,不可能占用锁长达10分钟甚至30分钟之久。

然后我们将怀疑的地方锁定在主线程的Daemon属性。因为,Daemon属性的线程优先级较低,怀疑是主线程在多线程的情况下,分配不到CPU时间片。

于是,我们作出第一个修改:将主线程改为普通线程的优先级

上线第二天,死亡结点现象还是出现,现象出现的时间相对来说是短了点,但还是不能解决问题。

于是,我们开了个大招:针对死亡结点频发的结点,加上一个每分钟打印一次DataNode的jstack的脚本。

终于我们捕获了在死亡结点发生时候的几个堆栈。经过对比分析,得出的结论是:

(呵呵)数据块对比过程中,有一个使用Java的File对象的获取文件长度的getlength方法。而这个方法是直接调用一个native方法,获取磁盘上文件的长度。

当初我们就猜想,加锁部分是否有磁盘的IO操作。因为IO操作的快慢,会受到当时的机器状态影响很大。不得不说,这个位置太隐蔽了。看了很久都没发现,还好有jstack截获出来。

总结

6小时一次的DirectoryScanner在数据块对比过程中,会对DataSet加锁。如果,机器的磁盘压力很高的情况下,对比过程中的磁盘操作十分耗时。导致DirectoryScanner长期持有DataSet的锁,阻塞心跳线程和所有的DataXceiver的线程。DataNode变成死亡结点。一段时间后,对比过程结束。DataSet锁释放,DataNode回归正常工作。

解决

知道问题了就好解决了。我们采取的方式是把getlength操作提取到第二步的线程池的异步磁盘扫描中进行

部署到线上后,数据对比时间降低到2秒左右。至此,死亡结点问题解决!

后续我们把Patch提交到Hadoop社区HDFS-5341,其中蹩脚的英语语法请大家无视。

陳述
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
MySQL的許可與其他數據庫系統相比如何?MySQL的許可與其他數據庫系統相比如何?Apr 25, 2025 am 12:26 AM

MySQL使用的是GPL許可證。 1)GPL許可證允許自由使用、修改和分發MySQL,但修改後的分發需遵循GPL。 2)商業許可證可避免公開修改,適合需要保密的商業應用。

您什麼時候選擇InnoDB而不是Myisam,反之亦然?您什麼時候選擇InnoDB而不是Myisam,反之亦然?Apr 25, 2025 am 12:22 AM

選擇InnoDB而不是MyISAM的情況包括:1)需要事務支持,2)高並發環境,3)需要高數據一致性;反之,選擇MyISAM的情況包括:1)主要是讀操作,2)不需要事務支持。 InnoDB適合需要高數據一致性和事務處理的應用,如電商平台,而MyISAM適合讀密集型且無需事務的應用,如博客系統。

在MySQL中解釋外鍵的目的。在MySQL中解釋外鍵的目的。Apr 25, 2025 am 12:17 AM

在MySQL中,外鍵的作用是建立表與表之間的關係,確保數據的一致性和完整性。外鍵通過引用完整性檢查和級聯操作維護數據的有效性,使用時需注意性能優化和避免常見錯誤。

MySQL中有哪些不同類型的索引?MySQL中有哪些不同類型的索引?Apr 25, 2025 am 12:12 AM

MySQL中有四種主要的索引類型:B-Tree索引、哈希索引、全文索引和空間索引。 1.B-Tree索引適用於範圍查詢、排序和分組,適合在employees表的name列上創建。 2.哈希索引適用於等值查詢,適合在MEMORY存儲引擎的hash_table表的id列上創建。 3.全文索引用於文本搜索,適合在articles表的content列上創建。 4.空間索引用於地理空間查詢,適合在locations表的geom列上創建。

您如何在MySQL中創建索引?您如何在MySQL中創建索引?Apr 25, 2025 am 12:06 AM

toCreateAnIndexinMysql,usethecReateIndexStatement.1)forasingLecolumn,使用“ createIndexIdx_lastNameEnemployees(lastName); 2)foracompositeIndex,使用“ createIndexIndexIndexIndexIndexDx_nameOmplayees(lastName,firstName,firstName);” 3)forauniqe instex,creationexexexexex,

MySQL與Sqlite有何不同?MySQL與Sqlite有何不同?Apr 24, 2025 am 12:12 AM

MySQL和SQLite的主要區別在於設計理念和使用場景:1.MySQL適用於大型應用和企業級解決方案,支持高性能和高並發;2.SQLite適合移動應用和桌面軟件,輕量級且易於嵌入。

MySQL中的索引是什麼?它們如何提高性能?MySQL中的索引是什麼?它們如何提高性能?Apr 24, 2025 am 12:09 AM

MySQL中的索引是數據庫表中一列或多列的有序結構,用於加速數據檢索。 1)索引通過減少掃描數據量提升查詢速度。 2)B-Tree索引利用平衡樹結構,適合範圍查詢和排序。 3)創建索引使用CREATEINDEX語句,如CREATEINDEXidx_customer_idONorders(customer_id)。 4)複合索引可優化多列查詢,如CREATEINDEXidx_customer_orderONorders(customer_id,order_date)。 5)使用EXPLAIN分析查詢計劃,避

說明如何使用MySQL中的交易來確保數據一致性。說明如何使用MySQL中的交易來確保數據一致性。Apr 24, 2025 am 12:09 AM

在MySQL中使用事務可以確保數據一致性。 1)通過STARTTRANSACTION開始事務,執行SQL操作後用COMMIT提交或ROLLBACK回滾。 2)使用SAVEPOINT可以設置保存點,允許部分回滾。 3)性能優化建議包括縮短事務時間、避免大規模查詢和合理使用隔離級別。

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

SecLists

SecLists

SecLists是最終安全測試人員的伙伴。它是一個包含各種類型清單的集合,這些清單在安全評估過程中經常使用,而且都在一個地方。 SecLists透過方便地提供安全測試人員可能需要的所有列表,幫助提高安全測試的效率和生產力。清單類型包括使用者名稱、密碼、URL、模糊測試有效載荷、敏感資料模式、Web shell等等。測試人員只需將此儲存庫拉到新的測試機上,他就可以存取所需的每種類型的清單。

SublimeText3 Linux新版

SublimeText3 Linux新版

SublimeText3 Linux最新版

DVWA

DVWA

Damn Vulnerable Web App (DVWA) 是一個PHP/MySQL的Web應用程序,非常容易受到攻擊。它的主要目標是成為安全專業人員在合法環境中測試自己的技能和工具的輔助工具,幫助Web開發人員更好地理解保護網路應用程式的過程,並幫助教師/學生在課堂環境中教授/學習Web應用程式安全性。 DVWA的目標是透過簡單直接的介面練習一些最常見的Web漏洞,難度各不相同。請注意,該軟體中

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

強大的PHP整合開發環境

Safe Exam Browser

Safe Exam Browser

Safe Exam Browser是一個安全的瀏覽器環境,安全地進行線上考試。該軟體將任何電腦變成一個安全的工作站。它控制對任何實用工具的訪問,並防止學生使用未經授權的資源。