自由空间,自由创造

【征文】关于ORACLE ERP服务器异常死机问题报告

上一篇 / 下一篇  2008-08-06 10:38:17 / 个人分类:信息文档

关于ORACLE ERP服务器异常死机问题报告

 

20065月向供应商购买了一台IBM P5702P550小型机作为ERP服务器,测试环境在514建立,从514611进行了为期约一个月的测试,并向下属公司发出了测试说明,要求在测试期间遇到问题及时反馈。测试期间,基本涵盖了所有日常操作,资源需求最大的MPS/MRP也是每日运行。从各公司反馈的情况以及本人的测试结果来看,测试期间没有出现严重性的后果,ERP无法运行、服务器死机的情况也没有出现。

基于原ERP正式系统运行效率较低及各公司的强烈要求,系统从612正式切换到新服务器,数据库安装P570,应用服务层安装在一台P550612上午没有出现异常,从系统监控来看,CPU资源平均利用率较低,总体情况较为理想;大概612下午15点左右,电子公司用户反映ERP系统无法响应,新用户无法登陆,于是我和东华工程师做了基准TCP/IP测试,可以PINGP570,但是无法建立数据库连接,也无法登陆到服务器,键盘、鼠标以及显示器均没有响应,无奈之下,只能强制服务器重起;重起服务器之后在做了一序列检查,没有发现服务器及数据库存在错误报告;ERP系统重起之后,可以正常使用,系统资源等一切正常。由于当时东华工程师正在P570上调试数据备份软件,强制关闭了一个数据备份软件进程,因此当时我们估计可能与该进程有关,或备份软件异常引起的;当晚完成了备份软件的安装调试,并成功进行了备份和恢复测试,期间没有异常。

到了61611左右,系统第二次出现异常,情况和第一次一样,由于我正在外地,无法作进一步的跟踪,只能让同事强制重起服务器,启动ERP应用;同时紧急联系了服务器供应商的工程师曹工,要求他在619到公司一起分析原因。

619,曹工对服务器硬件作了详细检测,没有发现异常,因此估计是操作系统与数据库不兼容引起的,但数据库日志也没有错误警告,所以具体原因未明。在检查操作系统的属性设置时,发现系统授权用户和每个用户打开的最大进程数值较小,为系统默认数值(128),从实际情况来看,都偏小,于是更改为系统允许的最大值。

623,我去电子公司解决一些问题,10点左右,在对一些采购接收异常的单据进行查询时,系统死机,这时只能让同事在集团重起服务器;在1130分左右,我在电子财务部切换操作职责时,发现服务器再次死机。从以上情况来看,虽然并不能确定是由于我的操作引起的系统死机问题,但可以证明一点,系统随时都可能死机。在当晚,冒着风险,再对电子的采购接收异常单据进行上午的同样操作,没有出现系统异常,也更加证明不是由于数据本身异常引起了服务器死机;为了保险起见,重新编译了采购接收程序,并对数据库所有文件进行了健康检查,没有提示数据遭到物理损坏,可以排除数据库文件遭到破坏引起服务器死机的可能。

62425日,供应商工程师过来检查服务器,也没有发现任何有价值的线索。

62811点左右,系统第五次出现死机,但发现一个有价值的线索,虽然无法新登陆ERP系统,当时正在使用的系统界面也无法进行任何操作,但直接与数据库建立连接关系的PL/SQL工具却能做继续处理,这表明系统仍处在活动状态,只是无法建立新的连接,因此无法登陆,也无法打开新的窗口而已。因此更加确认是服务器本身的问题,可能锁死了系统资源,对新的请求无法响应,因而造成了死机的现象。

在此之前,通过各种可以利用的途径,征求了很多人的意见,基本归纳为两点:

1、 服务器的问题,建议升级服务器的硬件微码和系统版本;

2、 服务器与ORACLE的兼容性问题,建议两者都要升级;

由于ERP系统是2002年购买的,版本相对较低,并且如果要对ERP进行升级的话,工作量将非常庞大,时间也会很长,并且风险也很高,对于目前需要稳定运行的电子、精密来说,也是不适宜的;因此决定按照如下方式进行:

1、 第一步升级服务器硬件微码,降低硬件驱动的影响;

2、 如果第一步做完后,系统依然出现死机现象,再升级操作系统,从AIX5204AIX5207;如果第一步操作可以稳定运行一个月时间,基本考虑不升级操作系统和ERP应用系统;

3、 如果第二步不成功,再将服务器系统升级到AIX53最新版;如果可以稳定运行一个月,基本考虑不升级操作系统和ERP应用系统;

4、 如果第三步不成功,则在新服务器上重新编译ERP应用的所有程序;

5、 如果ERP重新编译后,服务器还出现死机现象,则向集团提出申请升级ERP系统;

 

628日,联系了IBM的工程师,由于涉及到服务器硬件升级,需要停机较长时间,因此安排在71日进行。71日,IBM工程师过来后先对服务器做检查,发现了HMC卡(作用:记录服务器最底层的信息)处在非正常状态。晚上关机后拆下该卡,重新初始化,安装重检一切正常,然后升级硬件微码,把硬件的驱动都升级到最新版本,再扫描所有硬件,没有异常。启动应用,也没有问题。72日,检查昨天运行的MPS/MRP,也正常完成,但到了下午16点左右,服务器第六次出现了死机。由于IBM工程师中午已经回去,只能依照他之前提供的方法,在重起之前,把HMC卡的信息保留下来,以供厂家分析。IBM工程师在对HMC卡信息分析后,没有找到有用的信息。

由于第一步升级服务器硬件微码的方法并不奏效,只能考虑升级操作系统,权衡再三,还是考虑只将操作系统从AIX5204升级到AIX5207,只做小版本的升级,而不选择直接从AIX52升级到AIX53,因为这是一个大版本的升级,等于重新刷新安装了一次,风险也较高。时间选择在74日。升级过程很顺利,为了提高安全性和稳定性,并且对系统参数也做了局部修改,特别是内存管理参数,将原先不做限制的参数全部改为一个较大的值,这样会牺牲一些性能,大概在10%左右,但是会大大提高稳定性。

74日升级操作系统和更改系统参数以来,已过去1个月,一直很稳定,没有再出现过死机现象,并且性能也能满足目前的运行的要求,对最终用户来说并不会存在使用缓慢的问题。

对该问题,主要原因是由于操作系统的一些漏洞造成的,但为什么在近一个月的测试环境中没有发现该问题呢,主要是测试环境使用的用户少,没有给服务器造成压力,因而某些问题无法暴露出来,因此以后在做服务器更换、操作系统或ERP应用系统等涉及面较大的升级时,建议必须做压力测试,尽量模拟真实使用情况,才可能把潜在的问题尽早暴露出来,也才会减少在真正使用中出现问题。

对于当初为什么没有建议执行压力测试,我的考虑是难以组织大量的人手在23天内去做日常的工作,希望通过较长时间(新服务器本身也需要较长时间测试)的测试来暴露问题,因此没有提出建议。但是由于没有提出风险警告,已致几次服务器死机对使用ERP系统的公司造成了较大的影响,并且解决时间较长,对此本人应该负有较大的责任。

 

 

 

                                            

                                                           Wilson.Den

                                                           2006-8-5


TAG:

 

评分:0

我来说两句

显示全部

:loveliness: :handshake :victory: :funk: :time: :kiss: :call: :hug: :lol :'( :Q :L ;P :$ :P :o :@ :D :( :)

日历

« 2008-12-03  
 123456
78910111213
14151617181920
21222324252627
28293031   

数据统计

  • 访问量: 832
  • 日志数: 1430
  • 建立时间: 2007-12-26
  • 更新时间: 2008-10-29

RSS订阅

Open Toolbar