Heim >Datenbank >MySQL-Tutorial > Exadata Griddisk Cant be auto added
近日遇到Exadata的磁盘故障,在更新完physicaldisk后,其中一个griddisk没有自动添加的到ASM实例中,在问题解决后,整理出整个问题分析的思路。1.在磁盘失败的情
近日遇到Exadata 的磁盘故障,在更新完physical disk后,其中一个griddisk没有自动添加的到ASM实例中,在问题解决后,整理出整个问题分析的思路。
1.在磁盘失败的情况下,如果有LED灯亮,如果怀疑是硬件问题需要首先收集硬件日志
首先需要使用sundiag.sh脚本收集cell硬件的信息,检查是否有硬件损坏,并定位具体设备,更换故障设备。
(注:sundiag.sh是oracle提供的硬件检查脚本,下面是在compute node上执行,然后到每一个compute node和cell的/tmp下找到生成的日志)
2.但是在还盘后问题没有解决, ASM不能自动增加griddisk到磁盘组, 下面是我的分析步骤3.解决方法及步骤
Exadata硬盘错误更换后的ASM磁盘组重新添加操作顺利完成。
在exadata上面通过grid用户把RECO_DM01_CD_03_DM01CEL03重新加入到ASM中。
整个操作过程如下:
(1)、操作之前查询的磁盘组相关信息:
(2)、把硬盘重新添加回磁盘组:
(3)、添加之后,查看磁盘组信息:
4.故障原因分析,分析Alert+ASM.log
5.Root Cause的最终分析
这个是由于一个physical disk最终划分到两个griddisk,当磁盘某一个扇区损坏,导致其中的一个griddisk直接被drop掉,另一个griddisk受到影响,但是并不会被drop,而是报警,在更坏新physical disk后,未损坏部分的griddisk直接被自动添加,而另一个必须手动添加。
针对这个问题深入分析,磁盘删除后会不会被ASM自动添加,取决于磁盘删除的方式
下面是继续分析,服务器空间,问题发生时,具体是什么问题导致的磁盘drop,才能分析出,后续为什么不能自动添加到ASM磁盘组中
=== 收集alert_+ASM.log信息,网站空间,问题发生时 。这部分显示的是能正常被自动添加的grid disk===
=== 收集alert_+ASM.log信息,问题发生时 。这部分显示的是不能正常被自动添加的grid disk===
6.总结
开始自己考虑到一个celldisk被分为两个griddisk,在reblance的时候一定是导致了I/O争用的问题导致了其中一个加载失败,但是后来重新分析日志,发现问题不在这里。
从源头开始查找,查找该griddisk第一报错的时候是什么原因,最后发现这行日志,这里就引出另一个问题,ASM实例磁盘组删除的问题,所以在分析问题没有足够说服力的时候,尝试从头来,换个思路,兴许,香港空间,问题就解决了。
本文出自 “小小狗窝” 博客,谢绝转载!