自由空间,自由创造
【紧急】查询某个接收单号引起系统死机。
上一篇 / 下一篇 2008-04-26 15:16:36 / 个人分类:ORACLE ERP
查看( 2773 ) /
评论( 96 )
TAG:
-
zlc158发布于2006-06-23 16:39:42
-
由于磁盘空间满->造成DB夯,DB 夯可能造成PAGESPACE 耗尽->Server Hang ->telnet 不可以。。。->强制重起->可能DB 起不来(可能需要恢复)
-
dwilson
发布于2006-06-23 16:45:25
-
磁盘空间是足够的,而且页面空间一直只有很少的使用率,不到10%
-
dwilson
发布于2006-06-23 16:47:03
-
而且数据库日志没有任何有关联的错误提示
-
zlc158发布于2006-06-23 17:05:17
-
关注中。。。以前我的机器也这样过,由于PAGESPACE 用劲,强制启动,数据库不能OPEN , UNDO_crash ,强制RECOERY 。。。后来发现有BUG 。。。
-
zlc158发布于2006-06-23 17:06:06
-
系统日志? errpt | more
-
chen_7733
发布于2006-06-23 17:15:51
-
1.查看AIX系统日志 errpt -a |more
2.查看EBS db alter.log
-
zlc158发布于2006-06-24 08:01:14
-
UP
-
edwin.yang发布于2006-06-25 09:42:26
-
路过,估计是系统BUG,建议提交给Oracle
-
dwilson
发布于2006-06-25 17:52:07
-
首先谢谢大家。
操作系统的errpt没有错误提示,请工程师都作过详细检查,都没有查到有用的信息;
数据库的日志也是没有发现。
碰巧的是,上周五我在做一个接收事务处理时,输入接收单号然后按“查询”,结果系统死机,因此以为可能该接收单号所在的数据块或索引可能有问题,今天迁移到测试环境,却又不会出现任何问题,分析索引也没有发现问题;于是决定再用该接收单号在正式环境试试,结果很正常。
目前只是将接收事务处理所在的forms重新编译。
-
zlc158发布于2006-06-28 08:44:07
-
呵呵,什么机器啊,自己死掉,那不成了PC 了吗,换服务器吧 。。哈哈
-
dwilson
发布于2006-06-28 11:35:18
-
悲惨啊,今天死了两回!
-
zlc158发布于2006-06-28 17:20:37
-
让IBM 做FULL SCAN吧 。。是不是有内存或者别的H/W有问题了。。
-
dwilson
发布于2006-06-29 08:32:48
-
内存要怎样做全面测试?
H/W是什么?
-
dwilson
发布于2006-06-29 08:51:36
-
附件是数据库参数配置文件
dbinit.rar
(2006-06-29 08:51:36, Size: 2.65 KB, Downloads: 73)
-
ayoung发布于2006-06-29 08:56:25
-
我去请IBM或Oracle的大师来诊断哈。
-
zlc158发布于2006-06-29 09:25:05
-
做H/W 的FULL SCAN ,我知道IBM P670 里,是在HMC 里,把BOOT 的方式有FAST ->SLOW,然后重起 SERVER ,这样需要很长时间(大概30分钟到45 分钟左右)机器,才能起来。
别的型号的,不知道了,IBM 工程师应该有知道这些(呵呵,也不要完全相信他们呀,,养尊处优,除了能换个硬盘,别的什么都不会的工程师有的是)
-
bpmfhu
发布于2006-06-29 09:38:38
-
抓一个snap
通过hmc应该可以连进去。使用nmon看具体是哪个进程占用cpu还是内存。如果是oracle的应该可以跟踪到后台的sql.
另外,认真看errpt。如果是san环境,注意存储交换机这些设备是否也正常
-
snow_feeling
发布于2006-06-29 09:41:00
-
有coredump没有?
是不是local的盘还是磁盘阵列上的?
是不是因为coredump造成的io?
另外,要说的是,一个生产系统应该有监控,比如cpu长时间居高不下,磁盘的使用率,pagespace的使用率等,早发现问题。。。。。
-
jlandzpa
发布于2006-06-29 10:47:41
-
其他的功能也不正常么?
-
dwilson
发布于2006-06-29 10:55:18
-
正在让IBM工程师看snap日志
-
dwilson
发布于2006-06-29 11:07:31
-
QUOTE:
最初由 bpmfhu 发布
四次死机的日志:
[B]抓一个snap
通过hmc应该可以连进去。使用nmon看具体是哪个进程占用cpu还是内存。如果是oracle的应该可以跟踪到后台的sql.
另外,认真看errpt。如果是san环境,注意存储交换机这些设备是否也正常 [/B]
IDENTIFIER TIMESTAMP T C RESOURCE_NAME DESCRIPTION
A6DF45AA 0628113306 I O RMCdaemon The daemon is started.
9DBCFDEE 0628113206 T O errdemon ERROR LOGGING TURNED ON
BE0A03E5 0628111706 P H sysplanar0 ENVIRONMENTAL PROBLEM
A6DF45AA 0628103006 I O RMCdaemon The daemon is started.
BE0A03E5 0628101606 P H sysplanar0 ENVIRONMENTAL PROBLEM
9DBCFDEE 0628102906 T O errdemon ERROR LOGGING TURNED ON
A6DF45AA 0625140006 I O RMCdaemon The daemon is started.
BE0A03E5 0625133906 P H sysplanar0 ENVIRONMENTAL PROBLEM
9DBCFDEE 0625135906 T O errdemon ERROR LOGGING TURNED ON
A6DF45AA 0623143106 I O RMCdaemon The daemon is started.
BE0A03E5 0623140806 P H sysplanar0 ENVIRONMENTAL PROBLEM
9DBCFDEE 0623143006 T O errdemon ERROR LOGGING TURNED ON
详细的见附件
由于每次死机都是在上班时期,而且本人对服务器也仅是知道那么一点,很多事情也不知该怎么做,所以都是急忙重起,先保证系统可用再说。
errpt.rar
(2006-06-29 11:07:31, Size: 1.15 KB, Downloads: 18)
-
dwilson
发布于2006-06-29 11:14:54
-
QUOTE:
最初由 snow_feeling 发布
日常正常的时候,cpu和disk使用率都不高,disk平均在20左右,cpu平均还不到10%,ps目前使用率是1.2%。
[B]有coredump没有?
是不是local的盘还是磁盘阵列上的?
是不是因为coredump造成的io?
另外,要说的是,一个生产系统应该有监控,比如cpu长时间居高不下,磁盘的使用率,pagespace的使用率等,早发现问题。。。。。 [/B]
在根目录上也没有找到core文件,是在什么目录上的?
这是给ibm的snap日志
snap.pax.rar
(2006-06-29 11:14:54, Size: 262 KB, Downloads: 29)
-
zlc158发布于2006-06-29 11:17:44
-
继续关注。。
-
dwilson
发布于2006-06-29 11:17:55
-
QUOTE:
最初由 jlandzpa 发布
如果死机时,不能建立session,不管是telnet还是数据库连接,也无法本地登陆。
[B]其他的功能也不正常么? [/B]
反正死得很彻底,只能reset
-
snow_feeling
发布于2006-06-29 12:22:27
-
QUOTE:
最初由 dwilson 发布
IBM分析了snap了么?
[B]
如果死机时,不能建立session,不管是telnet还是数据库连接,也无法本地登陆。
反正死得很彻底,只能reset [/B]
-
dwilson
发布于2006-06-29 14:28:31
-
IBM明天过来处理,目前不好说
-
snow_feeling
发布于2006-06-29 14:43:26
-
QUOTE:
最初由 dwilson 发布
从里面没有看到特别的地方
[B]IBM明天过来处理,目前不好说 [/B]
下次你再测试之前,先打开vmstat,iostat 。最好输出到文件里面
也可以多次运行lsps -a 看看pagespace的情况。感觉跟pagespace有关系。
打开着topas,看看什么进程在干活。
这个系统只是单机,没有HA吧?
-
dwilson
发布于2006-06-29 15:17:00
-
系统没有HA。
一次死机,刚好开着topas,由于匆忙,没有保存号图片,只记得数据库数据文件所在的4个hdisk都处于100%的工作状态,但在机房准备重起时,看到4300上的硬盘并不闪烁,好像没有任何事务活动。
-
snow_feeling
发布于2006-06-29 15:33:41
-
QUOTE:
最初由 dwilson 发布
死机之前,有看到pagespace的使用情况么?
[B]系统没有HA。
一次死机,刚好开着topas,由于匆忙,没有保存号图片,只记得数据库数据文件所在的4个hdisk都处于100%的工作状态,但在机房准备重起时,看到4300上的硬盘并不闪烁,好像没有任何事务活动。 [/B]
-
dwilson
发布于2006-06-29 16:21:15
-
不记得了,但就目前运行情况来看,基本都是2%左右的使用率,基本不会超过10%。
