自由空间,自由创造

【紧急】查询某个接收单号引起系统死机。

上一篇 / 下一篇  2008-04-26 15:16:36 / 个人分类:ORACLE ERP

查看( 2773 ) / 评论( 96 )
在接收事务处理里,输入某个接收单号后,开始查询,数据库文件所在的硬盘组显示100%的使用率,接着就不再有任何响应,无法再telnet,数据库也无法连接,本地键盘和鼠标也没有反映,只能强制重起。

环境:
数据库服务器:IBM 570,AIX5204
应用层服务器:IBM 630,AIX5204
EBS11.5.7,数据库版本8173。

TAG:

zlc158发布于2006-06-23 16:39:42
由于磁盘空间满->造成DB夯,DB 夯可能造成PAGESPACE 耗尽->Server Hang ->telnet 不可以。。。->强制重起->可能DB 起不来(可能需要恢复)
dwilson的个人空间 dwilson 发布于2006-06-23 16:45:25
磁盘空间是足够的,而且页面空间一直只有很少的使用率,不到10%
dwilson的个人空间 dwilson 发布于2006-06-23 16:47:03
而且数据库日志没有任何有关联的错误提示
zlc158发布于2006-06-23 17:05:17
关注中。。。以前我的机器也这样过,由于PAGESPACE 用劲,强制启动,数据库不能OPEN , UNDO_crash ,强制RECOERY 。。。后来发现有BUG 。。。
zlc158发布于2006-06-23 17:06:06
系统日志? errpt | more
一步一页 chen_7733 发布于2006-06-23 17:15:51
1.查看AIX系统日志 errpt -a |more
2.查看EBS db alter.log
zlc158发布于2006-06-24 08:01:14
UP
edwin.yang发布于2006-06-25 09:42:26
路过,估计是系统BUG,建议提交给Oracle
dwilson的个人空间 dwilson 发布于2006-06-25 17:52:07
首先谢谢大家。
操作系统的errpt没有错误提示,请工程师都作过详细检查,都没有查到有用的信息;
数据库的日志也是没有发现。

碰巧的是,上周五我在做一个接收事务处理时,输入接收单号然后按“查询”,结果系统死机,因此以为可能该接收单号所在的数据块或索引可能有问题,今天迁移到测试环境,却又不会出现任何问题,分析索引也没有发现问题;于是决定再用该接收单号在正式环境试试,结果很正常。

目前只是将接收事务处理所在的forms重新编译。
zlc158发布于2006-06-28 08:44:07
呵呵,什么机器啊,自己死掉,那不成了PC 了吗,换服务器吧 。。哈哈
dwilson的个人空间 dwilson 发布于2006-06-28 11:35:18
悲惨啊,今天死了两回!
zlc158发布于2006-06-28 17:20:37
让IBM 做FULL SCAN吧 。。是不是有内存或者别的H/W有问题了。。
dwilson的个人空间 dwilson 发布于2006-06-29 08:32:48
内存要怎样做全面测试?
H/W是什么?
dwilson的个人空间 dwilson 发布于2006-06-29 08:51:36
附件是数据库参数配置文件

dbinit.rar
(2006-06-29 08:51:36, Size: 2.65 KB, Downloads: 73)

ayoung发布于2006-06-29 08:56:25
我去请IBM或Oracle的大师来诊断哈。
zlc158发布于2006-06-29 09:25:05
做H/W 的FULL SCAN ,我知道IBM P670 里,是在HMC 里,把BOOT 的方式有FAST ->SLOW,然后重起 SERVER ,这样需要很长时间(大概30分钟到45 分钟左右)机器,才能起来。
别的型号的,不知道了,IBM 工程师应该有知道这些(呵呵,也不要完全相信他们呀,,养尊处优,除了能换个硬盘,别的什么都不会的工程师有的是)
bpmfhu的个人空间 bpmfhu 发布于2006-06-29 09:38:38
抓一个snap
通过hmc应该可以连进去。使用nmon看具体是哪个进程占用cpu还是内存。如果是oracle的应该可以跟踪到后台的sql.
另外,认真看errpt。如果是san环境,注意存储交换机这些设备是否也正常
snow_feeling的个人空间 snow_feeling 发布于2006-06-29 09:41:00
有coredump没有?
是不是local的盘还是磁盘阵列上的?
是不是因为coredump造成的io?

另外,要说的是,一个生产系统应该有监控,比如cpu长时间居高不下,磁盘的使用率,pagespace的使用率等,早发现问题。。。。。
jlandzpa的个人空间 jlandzpa 发布于2006-06-29 10:47:41
其他的功能也不正常么?
dwilson的个人空间 dwilson 发布于2006-06-29 10:55:18
正在让IBM工程师看snap日志
dwilson的个人空间 dwilson 发布于2006-06-29 11:07:31

QUOTE:

最初由 bpmfhu 发布
[B]抓一个snap
通过hmc应该可以连进去。使用nmon看具体是哪个进程占用cpu还是内存。如果是oracle的应该可以跟踪到后台的sql.
另外,认真看errpt。如果是san环境,注意存储交换机这些设备是否也正常 [/B]
四次死机的日志:
IDENTIFIER TIMESTAMP  T C RESOURCE_NAME  DESCRIPTION
A6DF45AA   0628113306 I O RMCdaemon      The daemon is started.
9DBCFDEE   0628113206 T O errdemon       ERROR LOGGING TURNED ON
BE0A03E5   0628111706 P H sysplanar0     ENVIRONMENTAL PROBLEM
A6DF45AA   0628103006 I O RMCdaemon      The daemon is started.
BE0A03E5   0628101606 P H sysplanar0     ENVIRONMENTAL PROBLEM
9DBCFDEE   0628102906 T O errdemon       ERROR LOGGING TURNED ON
A6DF45AA   0625140006 I O RMCdaemon      The daemon is started.
BE0A03E5   0625133906 P H sysplanar0     ENVIRONMENTAL PROBLEM
9DBCFDEE   0625135906 T O errdemon       ERROR LOGGING TURNED ON
A6DF45AA   0623143106 I O RMCdaemon      The daemon is started.
BE0A03E5   0623140806 P H sysplanar0     ENVIRONMENTAL PROBLEM
9DBCFDEE   0623143006 T O errdemon       ERROR LOGGING TURNED ON

详细的见附件
由于每次死机都是在上班时期,而且本人对服务器也仅是知道那么一点,很多事情也不知该怎么做,所以都是急忙重起,先保证系统可用再说。

errpt.rar
(2006-06-29 11:07:31, Size: 1.15 KB, Downloads: 18)

dwilson的个人空间 dwilson 发布于2006-06-29 11:14:54

QUOTE:

最初由 snow_feeling 发布
[B]有coredump没有?
是不是local的盘还是磁盘阵列上的?
是不是因为coredump造成的io?

另外,要说的是,一个生产系统应该有监控,比如cpu长时间居高不下,磁盘的使用率,pagespace的使用率等,早发现问题。。。。。 [/B]
日常正常的时候,cpu和disk使用率都不高,disk平均在20左右,cpu平均还不到10%,ps目前使用率是1.2%。

在根目录上也没有找到core文件,是在什么目录上的?
这是给ibm的snap日志

snap.pax.rar
(2006-06-29 11:14:54, Size: 262 KB, Downloads: 29)

zlc158发布于2006-06-29 11:17:44
继续关注。。
dwilson的个人空间 dwilson 发布于2006-06-29 11:17:55

QUOTE:

最初由 jlandzpa 发布
[B]其他的功能也不正常么? [/B]
如果死机时,不能建立session,不管是telnet还是数据库连接,也无法本地登陆。

反正死得很彻底,只能reset
snow_feeling的个人空间 snow_feeling 发布于2006-06-29 12:22:27

QUOTE:

最初由 dwilson 发布
[B]

如果死机时,不能建立session,不管是telnet还是数据库连接,也无法本地登陆。

反正死得很彻底,只能reset [/B]
IBM分析了snap了么?
dwilson的个人空间 dwilson 发布于2006-06-29 14:28:31
IBM明天过来处理,目前不好说
snow_feeling的个人空间 snow_feeling 发布于2006-06-29 14:43:26

QUOTE:

最初由 dwilson 发布
[B]IBM明天过来处理,目前不好说 [/B]
从里面没有看到特别的地方
下次你再测试之前,先打开vmstat,iostat 。最好输出到文件里面

也可以多次运行lsps -a 看看pagespace的情况。感觉跟pagespace有关系。


打开着topas,看看什么进程在干活。


这个系统只是单机,没有HA吧?
dwilson的个人空间 dwilson 发布于2006-06-29 15:17:00
系统没有HA。
一次死机,刚好开着topas,由于匆忙,没有保存号图片,只记得数据库数据文件所在的4个hdisk都处于100%的工作状态,但在机房准备重起时,看到4300上的硬盘并不闪烁,好像没有任何事务活动。
snow_feeling的个人空间 snow_feeling 发布于2006-06-29 15:33:41

QUOTE:

最初由 dwilson 发布
[B]系统没有HA。
一次死机,刚好开着topas,由于匆忙,没有保存号图片,只记得数据库数据文件所在的4个hdisk都处于100%的工作状态,但在机房准备重起时,看到4300上的硬盘并不闪烁,好像没有任何事务活动。 [/B]
死机之前,有看到pagespace的使用情况么?
dwilson的个人空间 dwilson 发布于2006-06-29 16:21:15
不记得了,但就目前运行情况来看,基本都是2%左右的使用率,基本不会超过10%。
我来说两句

(可选)

日历

« 2008-07-25  
  12345
6789101112
13141516171819
20212223242526
2728293031  

数据统计

  • 访问量: 186
  • 日志数: 10
  • 建立时间: 2007-12-26
  • 更新时间: 2008-06-05

RSS订阅

Open Toolbar