浪潮NF520數據庫服務器的自動掉電故障
故障現象:
價值近10萬的浪潮NF520數(shu)據(ju)庫(ku)服(fu)務(wu)器(qi)近(jin)期(qi)頻(pin)繁(fan)出(chu)現(xian)自(zi)動(dong)掉(diao)電(dian)關(guan)機(ji)現(xian)象(xiang),掉(diao)電(dian)後(hou)電(dian)源(yuan)指(zhi)示(shi)燈(deng)出(chu)現(xian)黃(huang)燈(deng)提(ti)示(shi),並(bing)且(qie)再(zai)此(ci)按(an)電(dian)源(yuan)啟(qi)動(dong)按(an)鈕(niu),無(wu)法(fa)啟(qi)動(dong)。必(bi)須(xu)把(ba)電(dian)源(yuan)線(xian)拔(ba)下(xia),等(deng)待(dai)放(fang)電(dian)結(jie)束(shu)後(hou),再(zai)插(cha)上(shang)電(dian)源(yuan)線(xian)才(cai)能(neng)正(zheng)常(chang)啟(qi)動(dong)。由(you)於(yu)該(gai)服(fu)務(wu)器(qi)負(fu)擔(dan)著(zhe)政(zheng)府(fu)主(zhu)網(wang)站(zhan)和(he)市(shi)民(min)心(xin)聲(sheng)網(wang)的(de)數(shu)據(ju)庫(ku)服(fu)務(wu)功(gong)能(neng),因(yin)此(ci)一(yi)但(dan)停(ting)機(ji),必(bi)然(ran)造(zao)成(cheng)網(wang)站(zhan)對(dui)外(wai)服(fu)務(wu)中(zhong)斷(duan)。而(er)機(ji)房(fang)內(nei)的(de)其(qi)他(ta)幾(ji)十(shi)台(tai)浪(lang)潮(chao)NF280服務器一直運行正常。
故障排查及分析:
檢查操作係統windows2003的事件日誌,發現無任何停機記錄,很明顯是在操作係統不知道的情況下的突然停機,基本可以排除由於操作係統故障所引發的停機。
從現象看,首先可以斷定是供電係統故障。
由(you)於(yu)機(ji)器(qi)為(wei)新(xin)購(gou),並(bing)且(qie)另(ling)一(yi)台(tai)相(xiang)同(tong)的(de)設(she)備(bei)也(ye)存(cun)在(zai)同(tong)樣(yang)的(de)故(gu)障(zhang),兩(liang)台(tai)新(xin)設(she)備(bei)共(gong)有(you)四(si)個(ge)電(dian)源(yuan)模(mo)塊(kuai),都(dou)出(chu)現(xian)問(wen)題(ti)的(de)概(gai)率(lv)極(ji)低(di),基(ji)本(ben)上(shang)也(ye)排(pai)除(chu)了(le)機(ji)器(qi)本(ben)身(shen)電(dian)源(yuan)係(xi)統(tong)出(chu)問(wen)題(ti)的(de)可(ke)能(neng)。
經檢查NF520服務器由於功率較大(1570W)沒(mei)有(you)經(jing)過(guo)機(ji)櫃(gui)的(de)供(gong)電(dian)係(xi)統(tong),而(er)是(shi)單(dan)設(she)了(le)供(gong)電(dian)插(cha)座(zuo),並(bing)且(qie)用(yong)一(yi)條(tiao)電(dian)纜(lan)直(zhi)接(jie)連(lian)接(jie)到(dao)變(bian)電(dian)開(kai)關(guan)櫃(gui),從(cong)而(er)懷(huai)疑(yi)是(shi)電(dian)纜(lan)連(lian)接(jie)問(wen)題(ti)。經(jing)蕪(wu)湖(hu)電(dian)信(xin)專(zhuan)業(ye)電(dian)工(gong)檢(jian)查(zha),此(ci)電(dian)纜(lan)連(lian)接(jie)極(ji)不(bu)規(gui)範(fan),存(cun)在(zai)較(jiao)大(da)安(an)全(quan)隱(yin)患(huan)。主(zhu)要(yao)表(biao)現(xian)在(zai)兩(liang)點(dian):一(yi)是(shi)規(gui)範(fan)施(shi)工(gong)中(zhong),從(cong)供(gong)電(dian)插(cha)座(zuo)到(dao)開(kai)關(guan)櫃(gui)的(de)連(lian)接(jie)電(dian)纜(lan)應(ying)該(gai)為(wei)一(yi)條(tiao)完(wan)整(zheng)的(de)電(dian)纜(lan),不(bu)能(neng)有(you)接(jie)頭(tou)。而(er)實(shi)際(ji)上(shang)這(zhe)條(tiao)電(dian)纜(lan)是(shi)兩(liang)根(gen)不(bu)同(tong)材(cai)質(zhi)的(de)電(dian)纜(lan)連(lian)接(jie)而(er)成(cheng)的(de),必(bi)然(ran)後(hou)造(zao)成(cheng)電(dian)流(liu)阻(zu)抗(kang)過(guo)大(da),嚴(yan)重(zhong)時(shi)會(hui)發(fa)熱(re),產(chan)生(sheng)安(an)全(quan)事(shi)故(gu)。二(er)是(shi)施(shi)工(gong)中(zhong)選(xuan)擇(ze)的(de)電(dian)纜(lan),質(zhi)量(liang)明(ming)顯(xian)低(di)於(yu)原(yuan)配(pei)電(dian)纜(lan),並(bing)且(qie)很(hen)難(nan)看(kan)清(qing)除(chu)生(sheng)產(chan)廠(chang)商(shang)及(ji)生(sheng)產(chan)批(pi)次(ci),並(bing)且(qie)從(cong)外(wai)觀(guan)上(shang)看(kan)應(ying)為(wei)舊(jiu)電(dian)纜(lan),內(nei)芯(xin)銅(tong)絲(si)發(fa)黑(hei)。據(ju)蕪(wu)湖(hu)電(dian)信(xin)專(zhuan)業(ye)電(dian)工(gong)介(jie)紹(shao),此(ci)電(dian)纜(lan)根(gen)本(ben)無(wu)法(fa)滿(man)足(zu)專(zhuan)業(ye)機(ji)房(fang)使(shi)用(yong)。為(wei)此(ci),我(wo)們(men)使(shi)用(yong)了(le)兩(liang)條(tiao)電(dian)信(xin)的(de)專(zhuan)業(ye)電(dian)纜(lan)對(dui)供(gong)電(dian)線(xian)路(lu)進(jin)行(xing)了(le)更(geng)換(huan)。並(bing)且(qie)將(jiang)服(fu)務(wu)器(qi)的(de)兩(liang)個(ge)電(dian)源(yuan)模(mo)塊(kuai)分(fen)別(bie)和(he)兩(liang)條(tiao)電(dian)纜(lan)進(jin)行(xing)了(le)連(lian)接(jie),做(zuo)到(dao)了(le)供(gong)電(dian)線(xian)路(lu)的(de)局(ju)部(bu)冗(rong)餘(yu)。
在更換電纜後的12個小時內,係統運行正常,服務器沒有停機。但在隨後一天的晚上下班後,服務器再次停機。
在排除了線纜的原因後,按照繼續往上一級查找的方法,對UPS供電係統產生了懷疑。
故障解決:
把主UPS的對外輸出停止,從UPS設備接管穩壓工作,服務器運轉正常。
故障分析:
在兩台UPS分主從供電的情況下,主UPS曾經出現過打火和電容虛焊的情況,對服務器的供電目前還是依靠主UPS。回(hui)想(xiang)以(yi)前(qian)每(mei)次(ci)出(chu)問(wen)題(ti)的(de)時(shi)間(jian)都(dou)是(shi)在(zai)非(fei)正(zheng)常(chang)工(gong)作(zuo)時(shi)間(jian),雙(shuang)休(xiu)日(ri)和(he)晚(wan)上(shang)下(xia)班(ban)後(hou)。下(xia)班(ban)後(hou),由(you)於(yu)大(da)樓(lou)用(yong)電(dian)量(liang)急(ji)劇(ju)減(jian)少(shao),電(dian)壓(ya)肯(ken)定(ding)增(zeng)高(gao)。同(tong)時(shi)谘(zi)詢(xun)了(le)浪(lang)潮(chao)服(fu)務(wu)器(qi)的(de)800支持電話,服務器電源出現黃燈,一般是電壓過高或過低造成的。由此可以推論由於外部電壓波動,而主UPS設備由於自身問題沒有起到應有的穩壓效果。造成了機房內電壓的瞬間波動,從而引發NF520服務器的電源模塊自動斷電保護。
那麼為什麼機房內的其他浪潮服務器沒有出現自動停機呢?其實原因很簡單,浪潮公司隻在NF520等高端產品上才配備了具有自動保護功能的電源模塊。而類似NF280這樣的產品上則沒有配備。
後記:
故障排除後第三天的晚上11點多,領導發短信“政府網和市民心聲網已斷多時,請處理!”。第二天早上看見短信後,驚出一身冷汗,難道第二台UPS又(you)出(chu)現(xian)問(wen)題(ti)了(le)?還(hai)是(shi)我(wo)的(de)判(pan)斷(duan)有(you)誤(wu)?顧(gu)不(bu)上(shang)吃(chi)早(zao)飯(fan),連(lian)忙(mang)打(da)的(de)往(wang)單(dan)位(wei)趕(gan)。一(yi)見(jian)機(ji)房(fang)隻(zhi)見(jian)滿(man)地(di)的(de)電(dian)纜(lan)和(he)碎(sui)線(xian),原(yuan)來(lai)施(shi)工(gong)隊(dui)在(zai)晚(wan)上(shang)十(shi)點(dian)多(duo)更(geng)換(huan)電(dian)纜(lan),把(ba)主(zhu)電(dian)源(yuan)切(qie)斷(duan)了(le)。服(fu)務(wu)器(qi)當(dang)然(ran)無(wu)法(fa)運(yun)轉(zhuan)了(le)。不(bu)過(guo)由(you)於(yu)他(ta)們(men)是(shi)強(qiang)行(xing)斷(duan)電(dian),沒(mei)有(you)按(an)規(gui)定(ding)先(xian)關(guan)閉(bi)係(xi)統(tong)再(zai)斷(duan)電(dian),結(jie)果(guo)還(hai)是(shi)造(zao)成(cheng)了(le)個(ge)別(bie)服(fu)務(wu)器(qi)的(de)宕(dang)機(ji),重(zhong)新(xin)啟(qi)動(dong)後(hou),基(ji)本(ben)正(zheng)常(chang)。沒(mei)過(guo)幾(ji)日(ri),判(pan)斷(duan)故(gu)障(zhang)的(de)那(na)台(tai)UPS自己由於電容擊穿,冒煙了





閩公網安備 35020302001891號