1、情况概述:早上公司一个业务系统zabbix告警没正常同步数据,经过排查日志有connectreset情况:2、问题分析经过排查分析网络,系统资源,数据库系统资源,awr报告并未发现明细异常。然后排查节点是否hang住的分析:oradebughanganalyze33、oracle官网搜素根据gcfreelist搜索4、解决方式:根据官网将参赛修改200,然后重启实例即可。
原创 2018-06-11 21:27:28
2280阅读
目的:分享一下公司的db故障处理流程,主要是思想。事件描述及影响:2018年9月30日04:43点,zabbix告警odsdb2数据库疑似宕机,机房值班人员通过堡垒机无法登录数据库服务器,从其他机器也无法ssh登录该机器,同时odsdb1数据库也HANG住,通过命令无法登录数据库。根据数据库业务流程图初步分析影响的各业务。(涉及公司业务可忽略)事件排查:4:46,机房值班人员通知DBA及亦庄值班人
原创 2018-10-01 22:36:32
2498阅读
昨天某个客户的一套双节RAC其中一个节点crash,同时最后导致另外一个节点也hang住,只能shutdown abort.且出现shutdown abort实例之后,还有部分进程无法通过kill -9 进行kill的情况。其中有lgwr,arch等进程.首先我们来看下,在下午出现crash的节点的alert log信息:?123456
原创 6月前
679阅读
 Enmotech 数据和云     生活就像一盒巧克力,你永远不知道下一颗是什么味道。 --《阿甘正传》   在DBA的世界里,数据库的新特性就是这样一盒巧克力,可能是惊喜也可能是坑。毋庸置疑,新特性总是伴随着新功能而来,然而在企业最核心的数据资产面前,某些新功能的出现所带来的好处,远远不及其对于性能和稳定性带来的危害。因此我们常常会选择禁用一些新特性,今天要分享的DRM就属于其中一个。
转载 2021-06-22 05:56:44
377阅读
昨天某个客户的一套双节RAC当中一个节点crash,同一时候最后导致另外一个节点也hang住,仅仅能shutdown abort. 且出现shutdown abort实例之后,还有部分进程无法通过kill -9 进行kill的情况。当中有lgwr。arch等进程. 首先我们来看下,在下午出现cras
转载 2017-08-15 10:39:00
403阅读
2评论
ion (Doc ID 1528362.1)To BottomModified:27-Mar-2013Type:PROBLEM
转载 4月前
42阅读
/tmp出現core.*文件.後面跟隨hang機時間.asterisk -rx 'core show channels'asterisk -rx 'core show channels' | grep '^SIP/autodialer' | wc -l顯示分機並發數量
原创 2010-02-02 16:37:41
405阅读
原题链接 错误思路: 枚举每一个人,优先队列贪心求最小的不重合区间组数. 思路: 实际上贪心不一定能贪到正解,这里类似背包需要枚举所有可能.背包体积是时间: $$f[i] = f[i-1],f[node[pos].l]+w $$ 需要按区间右端点排序. ##Code #include <iostre ...
转载 2021-07-20 19:31:00
102阅读
2评论
最近做新项目 初期一直遇到个gpu hang的问题 就是command 提交过去gpu 就一直在那里 直到time out 也没什么别的错误提示 gpu debugger还抓不了  解决方案是 缩小之后 gpu debugger caputure frame问题是由于 vbo没有和verte attribute bind
转载 2017-03-14 20:42:00
495阅读
2评论
IOPS精品文章,转载。
转载 精选 2012-12-26 17:11:14
1363阅读
2点赞
4评论
名词术语1.Cross Boundary Hang 交叉边界hang。在12.1.0.1中,hang manager可以检测database和asm之间的hang。2.Deadlock or Closed Chain 死锁或关闭链条。打破死锁链条的唯一方法是让其中某些会话完成其工作或被终止。3.Ha
转载 2016-04-13 11:23:00
199阅读
2评论
On Oct 19, 9:15 am, "Amos B" <amos...> wrote:> Hi,> I've run into this issue multiple times with no solution yet.> For different reasons, the connection between the java application and> the oracle server may drop. This can happen because the network> interface was
转载 2011-07-18 13:36:00
147阅读
2评论
转载 2011-12-06 09:23:00
221阅读
问题原因 系统CPU,内存,IO,网络等资源耗尽; 前台session导致阻塞 后台process导致阻塞解决方案首先检查系统资源使用情况,看是否是由于OS资源问题导致数据库无法响应,是否有非ORACLE进程消耗大量的CPU或内存资源,联系相应厂商进行处理;如果没有发现OS资源问题或ORACLE进程占用大量资源,使用hanganalyze进行分析:如果sqlplus无法登陆,可以使用sqlp
通过strace df来查看hang在哪复或者卸载。
原创 4月前
58阅读
设计背景2. 厂家难以分析      死机问题通常是概率性问题, 在售后难以分析, 而厂家拿回机器后,
原创 11月前
366阅读
由于sys.audses$的cache值太小导致的RAC hang
翻译 2021-10-28 17:08:43
230阅读
   对于DB Server 来说,删除大表来说是很棘手的。    删除大表的话,可以对原有表的.ibd文件建立硬链接。当多个文件名指向同一个Node时,删除任何一个文件名都很快,因为直连的物理文件没有删除只是删除了一个指针而已。当Node引用数为1的时候,删除文件需要把文件相关的所有数据块都删除。 具体参考:http://www.mysqlops.co
原创 2012-11-28 05:56:06
2050阅读
前些天Hive查询的接口一直超时报警,登录上去查看发现这个超时报警的曲线很有规律,每个小时开始就出现,过了大约3分钟左右就好了.在这个期间里,也发现hive根本就执行不了,完全hang住了,机器负载,HDFS,Jobtracker的负载响应都完全正常!立刻查看下日志发现几点:1.对比其他时间的同一个job发现两个时间点的上传job文件到hdfs以及mapreduce的执行时间完全一致,也就是说排除
原创 2014-03-04 03:02:04
1139阅读
  • 1
  • 2
  • 3
  • 4
  • 5