Home  >  Article  >  Database  >  【Oracle】ORA-03113错误分析与解决

【Oracle】ORA-03113错误分析与解决

WBOY
WBOYOriginal
2016-06-07 17:13:271683browse

每一个DBA在进行数据库管理的过程中不可避免的要遇到形形色色的错误(ORA-1547 ,ORA-904,ORA-1578 ......)。有些错误由于频繁出现

前言

每一个DBA在进行数据库管理的过程中不可避免的要遇到形形色色的错误(ORA-1547 ,ORA-904,ORA-1578 ......)。有些错误由于频繁出现、原因复杂而被 Oracle DBA 们戏称之为"经典的错误"。其中ORA-3113 "end of file on communication channel" 就是这样的一个。

我们可以简单的把这个错误理解为Oracle客户端进程和数据库后台进程连接中断。不过,导致这个错误的原因实际上有很多种:对数据库设置不当、任何能导致数据库后台进程崩溃的行为都可能产生这个错误。这个错误的出现还经常伴随着其它错误,,比如说: ORA-1034 ORACLE not available 此外,该错误出现的场景复杂,可能出现在:
  • 启动的Oracle的时侯
  • 试图创建数据库的时侯
  • 试图对数据库进行连接的时侯
  • 在客户端正在运行SQL/PL/SQL的时侯
  • 备份/恢复数据库的时侯
  • 其它一些情况下......
  • 在论坛上也时常可以看到初级DBA对这个问题的求救。在这里简单的对该问题进行一下整理。

    错误原因种种
    根据网络上大家反映的情况来看,错误原因大约有这些:
  • Unix核心参数设置不当
  • Oracle执行文件权限不正确/环境变量问题
  • 客户端通信不能正确处理
  • 数据库服务器崩溃/操作系统崩溃/进程被kill
  • Oracle 内部错误
  • 特定SQL、PL/SQL引起的错误
  • 空间不够
  • 防火墙的问题
  • 其它原因
  • 在开始解决问题之前,作如下几件事情:
  • 回忆一下在出现错误之前你都做了什么操作,越详细越好;
  • 查看 background_dump_dest 目录中的 alertSID.log 文件也是你必须要的事情;
  • 用Google.COM 搜索一下,在互联网上有很多信息等着你去发现,不要什么都问别人。
  • 当然, 如果你找到了一些对你更有帮助的东西--这篇文档就不用看了 :-)

    错误原因情景分析
  • Unix核心参数设置不当 / init参数设置不当
  • 如果数据库在安装过程中没有设定正确的操作系统核心变量,可能在安装数据库文件的时侯没甚么问题,在创建数据库的时侯常常会出现03113错误。和此有关的另一个原因是init.ora 参数文件中的processes参数指定了不合理的值,启动数据库导致错误出现(当然这个归根到底也是核心参数的问题)。

    这个错误信息一般如下:
    ORA-03113: end-of-file on communication channel ORA-01034: ORACLE not available ORA-27101: shared memory realm does not exist 解决办法有两个:

    1、修改核心参数,加大相应核心参数的值(推荐);
    2、减小init.ora参数的Processes的值。

    需要注意的是:
    SEMMSL必须设定为至少要10 + '进程数的最大值';
    SEMMNS 也依赖于每个数据库上的进程参数值。   注:

    这个错误类型只在Unix平台上出现。在Windows上如果processes的值过大,则会出现类似如下的错误:
    ORA-00068: invalid value 24200001 for parameter max_rollback_segments, must be between 2 and 65535
    /* 此时指定的参数值超过了65535 */

    或者 ORA-27102: out of memory /* 小于65535的一个大参数值 */软件环境:
    Windows 2000 Version 5.0 Service Pack 3, CPU type 586 ORACLE RDBMS Version: 8.1.7.0.0
    在特定平台上更改核心参数可能会有差别,请参考Oracle Technet()上的安装文档。对特定Unix平台的安装文档也有对核心参数意义的解释。Init.ora中的参数如果设置不当,会产生该错误。有经验表明:shared_pool_size设置 过小会出现错误,此外timed_statistics=true的设置也会带来问题。
  • Oracle执行文件权限不正确/环境变量问题
  • 这个问题只出现在Unix平台上。常见情况是有的时侯管理员为了方便而使用Unix的tar命令 处理过的压缩包进行的安装,或者是系统管理员指定了额外的OS用户也可以管理数据库却没 有指定正确的环境变量。
    Oracle执行文件在$ORACLE_HOME/bin目录下,如果出现问题,应该用如下Unix类似命令来纠正 : #chmod 7755 $ORACLE_HOME/bin/oracle 有的时侯要对Oracle进行relink操作。
    在Unix上通过cp拷贝安装的时候,常常会出现环境变量的问题,和个别执行程序连接问题。LD_LIBRARY_PATH如果设置的不正确会导致问题,在这种情况下,需要对Oracle进行relink。 如果可执行文件oralcle被破坏,也要对其relink。 如果安装了并行服务器选项而Distributed Lock Manager没有安装或正确运行也会导致错误。
  • 客户端通信不能正确处理
  • 1.SQL*Net驱动器的问题:
    如果使用的版本比较低的驱动器,请更换到新版本的驱动。SQL*Net 的驱动没有连接到Oracle可执行文件会导致错误。
    2.检查TCP/IP网络是否通畅;
    3.Windows平台的常见网络问题:
    在Windows平台创建数据库的时侯,如果出现该问题可以考虑用如下的方法:

    首先检查本地网络设置.查看网络上是否有同名的结点或有冲突的IP.如果问题依旧,可以保 守的用下面的方法:

    1). 禁用网卡:将本地连接状态改为禁用;
    2). 将sqlnet.ora文件打开(以记事本形式)将nts验证注释掉:
    #SQLNET.AUTHENTICATION_SERVICES= (NTS) 3). 创建数据库;
    4). 创建成功后,恢复本地连接;
  • 数据库服务器崩溃/操作系统崩溃/进程被异常的Kill
  • 在连接过程中,如果Oracle数据库的服务器崩溃或者数据库所在的操作系统崩溃,就会出现这 个错误,Oracle Server崩溃的原因可能因为主要后台进程死掉,被错误的进行了Kill操作。如果是这个原因还是比较容易解决的。此外,和OS有关的应用程序存在内存泄漏(或者有病毒)的时侯也会导致Oracle后台程序问题。 推荐排错步骤:
  • 1、 查看应用软件相关进程是否正常运行;
  • 2、 查看有无内存泄漏;
  • 3、 查杀病毒;
  • 4、 确定系统管理员没有进行误操作;
  • 5、 确定无黑客入侵行为;
  • 6、 其它不确定因素......
  • Oracle 内部错误 / Bug
  • 如果查看background_dump_dest目录中的alert.log发现有ora-600/ora-07445等错误,可以到Metalink站点上查看具体信息及其解决方案。一般情况下要打软件补丁。
  • 特定SQL、PL/SQL引起的错误
  • 尝试把SQL进行分开执行,也可以用SQL_TRACE来进行跟踪,找到导致问题的SQL语句。在SQLPlus下: ALTER SESSION SET sql_trace=TRUE;SQL语句中的非法字符和不合理的处理结果,甚至一些不可解释的原因偶尔会带来问题.
    SQL问题举例: SELECT * FROM (SELECT ROWNUM AS num, k.* FROM (SELECT a.cp_code, c.cp_cha_name, a.service_code, a.service_name, a.content_name, SUBSTR (a.access_time, 1, 8) thedate, COUNT (*) AS hit_count FROM sm_wap_log_daily_tab a, t_cp_info c WHERE (SUBSTR (a.access_time, 1, 8) BETWEEN '20040301' AND '20040304' ) AND c.cp_code LIKE '%%' AND a.cp_code = c.cp_code AND a.service_code LIKE '%%' GROUP BY a.cp_code, c.cp_cha_name, a.service_code, a.service_name, a.content_name, SUBSTR (a.access_time, 1, 8) ORDER BY a.cp_code, a.service_code, a.content_name, SUBSTR (a.access_time, 1, 8) DESC) k) n; 上面这条语句在9204/Linux 系统上始终出现03113 的错误。对语句进行细化,分成小一点的子语句逐步执行,最后判定问题出现在  ORDER BY a.cp_code, a.service_code, a.content_name, SUBSTR (a.access_time, 1, 8) DESC) k) n; 中的 SUBSTR (a.access_time, 1, 8) 这里。 去掉SUBSTR (a.access_time, 1, 8)则问题不再出现。尝试调整SUBSTR (a.access_time, 1, 8) 的位置,语句得到通过。之后,顺便优化一下该语句。:)  SELECT * FROM (SELECT ROWNUM AS num, k.* FROM (SELECT a.cp_code, c.cp_cha_name, a.service_code, a.service_name, a.content_name, SUBSTR (a.access_time, 1, 8) thedate, COUNT (*) AS hit_count FROM sm_wap_log_daily_tab a, t_cp_info c WHERE (SUBSTR (a.access_time, 1, 8) BETWEEN '20040301' AND '20040304' ) AND c.cp_code LIKE '%%' AND c.cp_code = a.cp_code AND a.service_code LIKE '%%' GROUP BY a.cp_code, c.cp_cha_name, a.service_code, a.service_name, a.content_name, SUBSTR (a.access_time, 1, 8) ORDER BY (SUBSTR (a.access_time, 1, 8)), a.cp_code, a.service_code, a.content_name DESC) k) n;
  • 系统空间不够
  • 任何时侯都要确保数据库系统有足够的空间.如果 USER_DUMP_DEST和BACKGROUND_DUMP_DEST没有剩余空间的话,会导致此问题.此外,如果打开了审计,AUDIT目录要由足够的空间.如果激活了Trace的话,Trace目录要由足够的空间.Dave Wotton的文档 (Local Copy) 表明,在对表进行插入数据的时侯,如果文件超过了2G (而文件系统有2G限制),会导致该问题.
  • 防火墙的问题
  • 如果数据要通过防火墙,请联系系统管理员,询问是否对数据库数据进行了过滤或者是突然禁止了通信端口。如本地安装有个人防火墙,请检查本地设置。
  • 其它方面说明
  • 导致这个错误的原因有很多种,上面列到的只是一些典型情况。 参考信息
    Metalink - Oracle的技术支持站点,要有CSI号码才可以登录。
    参考Note编号: Note:17613.1 ORA-3113 on Unix - What Information to Collect NOTE:131207.1 How to Set UNIX Environment Variables Note:131321.1 How to Relink Oracle Database Software on UNIX Note:22080.1 An Introduction to Error Message Articles

    更多Oracle相关信息见Oracle 专题页面 ?tid=12

    Statement:
    The content of this article is voluntarily contributed by netizens, and the copyright belongs to the original author. This site does not assume corresponding legal responsibility. If you find any content suspected of plagiarism or infringement, please contact admin@php.cn