Home  >  Article  >  Database  >  生产环境上线程序导致服务故障案例解析

生产环境上线程序导致服务故障案例解析

WBOY
WBOYOriginal
2016-06-07 17:40:55958browse

生产环境上线发布程序导致服务故障案例解析(老男孩郑重声明:本文不针对任何公司和个人,仅供大家学习交流之用)1由生产操作失误引起的故障...................

生产环境上线发布程序导致服务故障案例解析

(老男孩郑重声明:本文不针对任何公司和个人,仅供大家学习交流之用)

2

2

2

3

4

4

6

6

6

6

7

7

7

7

 1 由生产操作失误引起的故障

以下来自【操作人】的总结:

对于我司项目一次上线数据库误操作故障的总结:

我司相关人员在前天开过上线会议后,定于过后一天进行生产系统发布:

事情是这样的

首先呢,我先说下我司项目的上线流程:

老男孩老师评价:该公司的上线流程还是不错的,赞下,还有很多公司FTP直接上线的,不可取,堵住后门,监控好前门,是我一直给大家讲的。

话说那天测试通过后,项目上演练环境和生产都是由我【操作人】来负责:

然后我给我主管打电话了,说明了问题,他说让我别急,先保证生产服务正常运行。。。

由于我的这个误操作,开发的项目经理都疯了。。。然后立马惊动了公司技术部老总,然后老板

然后老板立马又召开紧急会议,说数据现在找不回来,后台查不到,一旦有用户投诉,免备案空间,说多少钱立马退多少钱

唉呀,我的这个脑子啊……

当天的上线取消了。。。

 

其实后来想我当时急着回滚是错误的,应该先问下开发的那边是否执行成功了,或者我查下进程。开发的后来也是这么给我说。

还有一点当时公司网络中断也是个事。。。网络不稳定不应该上线(那天供应商那边网络有问题,没有给及时通知)

有的会问只有一台数据库吗,问的好,我们是有主备两台数据库的,问题是在国庆假期期间机房切电源的时候,宕机了,然后启动后进主数据库找不到库了,当时那个急啊,然后就立马切换到备份的服务器上了,主的没有起,后来找到了主的为什么找不到库的原因(是因为机器启动后分区没有自动挂载上,手动挂载上后进数据库立马找到了),但由于这个时候从数据库和主的已经不同步了,就暂时用的从的,想等下次上线的时候在处理下,所以这次上线的时候就一个数据库。这是我们系统部没有做到位。

还有要说的一点就是我前面提到了演练环境,我为什么会动到了生产,事情是这样的,没有演练环境我部门也多次给领导提了,但领导不批买设备,然后就是每次演练的时候其实我动的也是生产(只是针对的这个项目没演练环境,其他的有),演练,什么是演练,表演练习嘛,肯定不能动到生产,但演练环境必须和生产一样。

最终我写了检讨书。唉,苦逼啊!

14)项目负责制,上线,日常网站出问题,开发有责任,不能只责问运维,运维是开发商,开发是住户,基础系统和网络没故障,一般来说运维就无能为力了。

1.4从操作者那得到的其他信息

SQL语句都是新表,有建表,插入,更新等语句。这样的话出问题整个数据库回滚就没必要了。

1.5给操作者的建议

老男孩 17:58:28
在不


操作者网友 17:58:37
在,还没下班呢


老男孩 17:58:48
事情过去了,好好汲取教训就好了,别难过了。


操作者网友 17:58:55
嗯,


老男孩 17:58:58
谁都会犯错,老师曾经也犯过错误。

以后亡羊补牢改正就好。


操作者网友 17:59:19
嗯,明白了,记住了


老男孩 17:59:24


操作者网友 17:59:31
在不犯这样的错了


老男孩 17:59:38
框架留给我。

操作者网友 18:00:01

Statement:
The content of this article is voluntarily contributed by netizens, and the copyright belongs to the original author. This site does not assume corresponding legal responsibility. If you find any content suspected of plagiarism or infringement, please contact admin@php.cn