1 引言
我廠#705機組DCS系統系2004年大修中DCS系統及DEH一體化改造完畢,DCS及DEH系統采用和利時公司SmartPrO3.1.3軟件系統,硬件為和利時公司MACS TM系統硬件,系統改造后,運行穩定。但是系統在2006年5月下旬#705機組DCS系統頻繁出現死機!
2 故障簡況
系統在2006年5月25晚上鍋爐制粉盤死機,運行人員看到顯示畫面數據變化遲滯,切換畫面后正常。
系統在2006年5月30下午下班后,接到運行打來電話,鍋爐主盤死機,甲引全開。在現場發現甲引開接點一直發出,運行人員切換畫面及重新登錄無效,熱工人員對其接點進行切換后,重新操作恢復正常。
下面是#705機組DCS系統頻繁出現死機(時間30s不等又自行恢復)現象(表1所示):有時一個站數據顯示滯緩、操作不靈活、送引風調節中某個出現指令一直發出、嚴重時整個操作員站短時數據中斷,嚴重影響了我廠的機組安全運行,下面是處理的整個過程。
表1 系統死機記錄

3 故障分析
硬件角度:通過以上現象主要是人機接口故障,對于單臺操作員站有問題,主機有可能有問題,主板、硬盤、通訊網卡等,通過檢查發現有三臺機主板出現問題。
通信網絡角度:一般容易發生在接點總線、就地總線處、或地址標識錯誤所造成。
系統角度:參數設定、系統操作不合理、服務器出現故障等原因。
著重圍繞上面幾個方面進行查找故障點:從死機范圍及影響設備來看,分析是主機問題,但是對于6月9日整個系統出現死機,懷疑是服務器問題,筆者將這一情況迅速反映廠家。廠家開始懷疑是服務器設置或存在病毒,根據現場情況,DCS有很嚴格的規定,不準任何人在DCS上拷貝,與MIS系統連接是單向傳輸,中間也加了隔離裝置,病毒不太可能;設置參數經廠家確認后也沒有問題;最后還是把問題集中了服務器上,對趨勢存在斷點問題進行了共同分析,主服務器成了最后故障點。
4 故障處理
5月25日鍋爐制粉盤出現死機后,熱工人員發現主機故障,更換了一臺主機,對系統進行檢查后,將系統重新啟動,系統運行正常,并將這一情況反映至DELL廠家進行修復,DELL廠家6月2日將主機修好。
5月29日鍋爐運行發現鍋爐主盤系統風煙數據全部顯示#COM后,大約30s后,系統數據顯示自行恢復,但是乙側引風機液偶調節關指令一直保持,液偶全關至0,運行人員及時調節甲側設備保住機組穩定,之后,熱工人員對主盤進行檢查,將這一情況反映廠家,廠家分析系統參數設置有問題,將參數檢查無誤,反饋給廠家。得到廠家答復:在SmartPrO3.1.3中有這樣問題,系統死機時,如果操作的話,在恢復后,系統會一直記憶這個指令,造成全或全關現象,解決這個問題只有對系統進行升級。由于系統運行,故對發電分場監盤人員交代:在系統出現數據滯緩時,不要進行操作,待系統運行畫面正常時再進行DCS系統進行操作。
6月4日又出現一次5月29日同樣現象,但設備為甲引風機液偶全開,運行迅速對設備進行關聯調整,熱工處理檢查后系統正常,判斷還是系統通訊方面的問題。由于出現死機現象與主要集中在#12IO站和鍋爐控制主盤,是不是#12IO站主控有問題呢,但查找的相關資料沒有反映出這一問題。
6月7日早上7點多又出現一次5月29日同樣現象,這次設備為甲引風機液偶全開,開度100%,熱工檢查發現主盤主機有問題,將主機進行了更換,我們也對主機加強了檢查力度。
6月8日又出現兩次死機,連續出現三次同樣故障,嚴重威脅機組安全運行,迅速和北京和利時廠家取得聯系,根據廠家的提示,筆者對服務器及#12IO站進行檢查,發現主服務器右下方的三色球有好幾個,廠家懷疑在運行中主從服務器有切換現象,征詢能否主控制進行切換,并且對鍋爐主盤主機與打印站的互換,下午四時熱工對#12站系統進行切換。
6月9日運行反映甲送風機在系統死機后,關指令一直發出,一次風壓迅速下降800Pa,系統的不穩定嚴重威脅到機組的正常運行,熱工專業人員對系統檢查后,對主服務器進行重新啟動,發現趨勢有斷點,列表在后,懷疑的重點集中為主服務器。一直待到19:00也未發現其他情況,晚上20:00又接到運行電話,DCS系統出現兩次死機,這次不是鍋爐主盤一臺,而是操作員站全部死機,迅速趕往現場,系統已經自行恢復正常,這次暴露出來主服務器肯定存在問題,大家對運行監視組合進行調整,鍋爐主盤比較重要,制粉盤近期運行較好,將鍋爐主盤與制粉盤交換位置;與鍋爐主盤商量讓其到制粉盤監盤,將鍋爐主盤退出進行重新新建工程,系統檢查無誤后,在運行登錄,將與系統關聯的GPS系統退出。并同時聯系廠家盡快到現場解決問題。
廠家6月10到廠后,對鍋爐主盤進行檢查未發現異常,同時對更換到打印站的主機進行檢查,發現計算機設置有不一致的地方,并對其進行了處理。詢問6月6日~6月9日有11次的10~35s的問題(表2所示),廠家分析服務器有問題,我廠有服務器備件,提議更換主服務器,廠家認為沒有必要,軟件問題進行重裝就可以解決,系統升級后,這方面的問題就不存在了,所以沒有更換主服務器。對系統升級,徹底解決系統死機期間操作的指令一直發出問題。
表2 趨勢斷點記錄表

機組6月13日停機調峰,利用這個機會配合廠家對服務器進行重新安裝,并對系統進行了升級為SmartPrO3.0.3+SP2,在中試對DCS系統測試后,于6月16日將系統重新恢復運行,機組目前運行狀態良好。
5 結束語
綜合以上經過,筆者發現系統出現死機的主要問題是主服務器的問題,在今年大修前我們采納了廠家建議購置了一臺服務器備件;在運行中對設備的日常維護很重要,不單是保證設備在正常的環境中運行,設備巡回檢查一定要落到實處,發揮巡回檢查的真正意義。
系統出現某臺操作員站問題,由于設備已經有3年的使用期,今年的大修中筆者更換了幾臺有問題的主機,對這次主機部分出現問題,筆者聯系了DELL廠家對有問題的主機進行了更換。
對DCS系統缺陷處理,主機更換中一定要檢查徹底。
對于其連接的其他系統如MIS等,由于其服務器是直接掛在DCS系統的服務器上的,所以對其的操作一定要規范,其IP地址不能與DCS系統有重復的。
多與廠家溝通,因為廠家對其使用系統問題見識要比用戶多,有些東西不需要等事到臨頭才來解決,所以才可以防患于未然。










