問
當(dāng)機(jī)房服務(wù)器異常時(shí)候,你要怎么辦?
答
第一類、機(jī)房環(huán)境及物理檢查
一、機(jī)房環(huán)境
1. 溫度與濕度: 最佳工作溫度:20-25攝氏度 極限工作溫度:10-40攝氏度 濕度: 8-80%(在23攝氏度條件下)
2. 同時(shí)機(jī)房要保證服務(wù)器清潔. 機(jī)房應(yīng)保持服務(wù)器清潔,若空氣灰塵過多,很容易造成資源讀寫錯(cuò)誤及磁盤機(jī)中磁盤或讀寫磁頭毀損。定時(shí)使用皮老虎、刷子清除服務(wù)器灰塵。
二、電源
電壓: 要求電壓穩(wěn)定, 尖峰電壓會損壞設(shè)備
電壓范圍: 220V +/- 10%, 即200-240V, 50-60Hz
電源功率: 視機(jī)器類型和系統(tǒng)配置而定
電源線 : 標(biāo)準(zhǔn)的零, 地, 火三相電, 其中零, 地電壓不得超過3.0V.
電源接駁: 用符合電流要求的空氣開關(guān)或其他設(shè)備和主機(jī)電源線接駁,保證計(jì)算機(jī)系統(tǒng)的可靠工作應(yīng)使用穩(wěn)壓電源和UPS,對于冗于電源的接入,采用兩路單獨(dú)輸入.
二、硬件檢查
檢查服務(wù)器、磁陣的安裝、電源線主機(jī)接線符合要求。
服務(wù)器狀態(tài)檢查:
1. 當(dāng)服務(wù)器處于啟動(dòng)和正常工作狀態(tài)時(shí),其前面板上的液晶顯示屏上應(yīng)無信息顯示。
2. 當(dāng)液晶顯示器上出現(xiàn)帶數(shù)字和字母的信息時(shí),說明有硬件告警??梢酝ㄟ^查詢相關(guān)機(jī)型的面板報(bào)警數(shù)字信息查到相應(yīng)告警原因,情況嚴(yán)重的,則要立即通知服務(wù)器廠商進(jìn)行問題排查。
1. 當(dāng)服務(wù)器的狀態(tài)燈出現(xiàn)橙黃色時(shí),說明有硬件告警,此時(shí)要檢查磁柜的電源、接線、硬盤等。如果有硬件故障則立即進(jìn)行更換和更正,如果查不出具體問題,則需要聯(lián)系相關(guān)廠商進(jìn)一步診斷。
2. 當(dāng)硬盤工作正常時(shí),與各硬盤對應(yīng)的硬盤燈會呈綠色,如無讀寫,則綠燈一直亮,如該硬盤有讀寫操作,則綠燈會不規(guī)則閃爍,當(dāng)硬盤損壞時(shí)或RAID出現(xiàn)問題時(shí),則硬盤狀態(tài)燈將熄滅,或者呈閃爍狀態(tài):以1~3秒的頻率有規(guī)律地、不停地閃爍
第二類、系統(tǒng)日常維護(hù)流程
2.1系統(tǒng)啟動(dòng)
系統(tǒng)啟動(dòng)正常順序如下: 首先對外設(shè)(磁盤陣列、磁帶庫等)加電。 待所有外設(shè)加電自檢完成后,主機(jī)加電正常起機(jī)。主機(jī)加電后,才能按POWER鍵起機(jī).
2.2系統(tǒng)關(guān)閉 服務(wù)器系統(tǒng)關(guān)閉時(shí),需要確認(rèn)服務(wù)器的服務(wù)是否對現(xiàn)網(wǎng)業(yè)務(wù)有影響,同時(shí)需要對關(guān)閉的服務(wù)器運(yùn)行中的程序進(jìn)程確認(rèn),明確軟件安全的關(guān)閉步驟,在進(jìn)行關(guān)機(jī)操作。 2.3系統(tǒng)與數(shù)據(jù)備份 有效及時(shí)的系統(tǒng)備份是系統(tǒng)管理的非常重要的一環(huán)。當(dāng)系統(tǒng)出現(xiàn)故障時(shí),特別是文件系統(tǒng)被嚴(yán)重?fù)p壞或硬盤損壞時(shí),常需要使用系統(tǒng)備份來恢復(fù)系統(tǒng)。在以下情況下應(yīng)做系統(tǒng)備份:
1、新裝機(jī)。在硬件及系統(tǒng)軟件安裝完成后,應(yīng)做系統(tǒng)備份。
2、軟件改動(dòng)。系統(tǒng)軟件或應(yīng)用軟件有改動(dòng)時(shí),應(yīng)做系統(tǒng)備份。
3、定期備份。對系統(tǒng)進(jìn)行定期備份,最好每三個(gè)月做一次備份
2.4系統(tǒng)恢復(fù) 當(dāng)系統(tǒng)發(fā)生比較嚴(yán)重的故障以致采取一般性維護(hù)手段不能在短期內(nèi)恢復(fù)原系統(tǒng),與上級確認(rèn)后,可將最近一次的系統(tǒng)備份倒回機(jī)器內(nèi)以全面恢復(fù)系統(tǒng)到最近一次做備份時(shí)的系統(tǒng)環(huán)境,然后可將當(dāng)日的數(shù)據(jù)備份再倒回系統(tǒng)內(nèi)。至此,系統(tǒng)可恢復(fù)正常運(yùn)行。此后,應(yīng)當(dāng)廠商再進(jìn)行整個(gè)事件的全面分析與回顧,以期找到故障發(fā)生的原因,并采取相應(yīng)措施以杜絕類似事件再次發(fā)生。
2.5安全工作守則
a統(tǒng)定期進(jìn)行系統(tǒng)備份。
b.當(dāng)有系統(tǒng)變更或進(jìn)行操作系統(tǒng)補(bǔ)丁安裝的時(shí)候,必須作一次系統(tǒng)備份。
c.在發(fā)現(xiàn)有硬盤故障的時(shí)候,注意當(dāng)天的數(shù)據(jù)備份。在更換硬盤的時(shí)候,請確認(rèn)當(dāng)天數(shù)據(jù)備份已經(jīng)完成。
d.在更換敏感的電子元件,時(shí)候一定要防靜電。
e.在插拔外圍設(shè)備的時(shí)候,請把外圍設(shè)備下電。
f.在進(jìn)行文件刪除的時(shí)候,請留意當(dāng)前路徑是否正確。
g.在進(jìn)行文件解壓縮的時(shí)候,請留意參數(shù)和路徑。
第三類、故障定位、故障排除
根據(jù)實(shí)際運(yùn)行的系統(tǒng)中碰到問題,總結(jié)出了以下幾種常見故障及其定位方式和解決方法。
3.1硬件故障
硬件故障有很多種,對系統(tǒng)產(chǎn)生的影響也不一樣,這里按其故障對系統(tǒng)的影響程度分:致命影響的硬件故障和只影響功能的硬件故障兩類進(jìn)行硬件分類:
其損壞對系統(tǒng)產(chǎn)生致命影響(將使機(jī)器宕機(jī)或無法啟動(dòng))的硬件包括:
主板、CPU、RAID卡、電源模塊、風(fēng)扇、本地硬盤、內(nèi)存損壞等等
這些設(shè)備的損壞等將使系統(tǒng)無法完成自檢、引導(dǎo)和啟動(dòng),液晶顯示屏上都將有錯(cuò)誤信息,可根據(jù)液晶顯示屏上的錯(cuò)誤碼對照錯(cuò)誤原因,如果是工作狀態(tài)下出現(xiàn)這些硬件損壞,則系統(tǒng)將被掛起或宕機(jī)。
其損壞對僅對系統(tǒng)產(chǎn)生功能影響(機(jī)器不會宕機(jī)并能正常啟動(dòng))的硬件包括:
網(wǎng)卡、本地硬盤有壞塊、顯卡、和其他外圍設(shè)備 這些設(shè)備的損壞只影響特定功能,如網(wǎng)絡(luò)功能、顯示功能、訪問磁陣的功能等,對于本地硬盤有壞塊的情況,則要看壞塊中是否包含了重要的系統(tǒng)文件,如果不是重要系統(tǒng)文件,則系統(tǒng)功能不受影響,但也建議立即更換該硬盤。
故障定位和排除: 液晶屏上的錯(cuò)誤碼
根據(jù)錯(cuò)誤碼確定是什么硬件出了故障,對系統(tǒng)來講,原則上必須業(yè)務(wù)切換使得損壞服務(wù)器離線不影響用戶使用的情況下,然后修復(fù)故障機(jī)器,恢復(fù)系統(tǒng)。
3.2磁陣故障 磁陣引起的故障是目前碰到的最頻繁、危害最大的故障,據(jù)不完全統(tǒng)計(jì),其故障覆蓋到總故障的70%以上,具體來講,可能引起磁陣故障的環(huán)節(jié)包括:
磁陣硬盤、主機(jī)上的RAID卡、與主機(jī)相連的SAS線、硬盤的位置和接線方式、以及盤柜使用的電壓及周圍磁場、磁陣/硬盤/RAID卡等都可能造成異常。
磁陣的問題是最復(fù)雜的,一般有物理損壞的原因也有環(huán)境原因,這是主因,如接線、插盤位置不符合要求、未及時(shí)查看系統(tǒng)告警等造成系統(tǒng)中斷等輔因。按照經(jīng)驗(yàn),不管是什么硬件故障導(dǎo)致故障,系統(tǒng)都會產(chǎn)生告警,如果能及時(shí)發(fā)現(xiàn)問題并采取措施,如果存在硬件故障時(shí),可從狀態(tài)燈上觀察到:
當(dāng)單塊硬盤出現(xiàn)故障或未被使用時(shí),其面板上的硬盤狀態(tài)燈會不亮 陣列的狀態(tài)燈黃燈會亮 服務(wù)器的磁陣所配置的RAID卡一般都帶有一塊充電電池,該電池用于在突然停電的情況下
答
第一類、機(jī)房環(huán)境及物理檢查
一、機(jī)房環(huán)境
1. 溫度與濕度: 最佳工作溫度:20-25攝氏度 極限工作溫度:10-40攝氏度 濕度: 8-80%(在23攝氏度條件下)
2. 同時(shí)機(jī)房要保證服務(wù)器清潔. 機(jī)房應(yīng)保持服務(wù)器清潔,若空氣灰塵過多,很容易造成資源讀寫錯(cuò)誤及磁盤機(jī)中磁盤或讀寫磁頭毀損。定時(shí)使用皮老虎、刷子清除服務(wù)器灰塵。
二、電源
電壓: 要求電壓穩(wěn)定, 尖峰電壓會損壞設(shè)備
電壓范圍: 220V +/- 10%, 即200-240V, 50-60Hz
電源功率: 視機(jī)器類型和系統(tǒng)配置而定
電源線 : 標(biāo)準(zhǔn)的零, 地, 火三相電, 其中零, 地電壓不得超過3.0V.
電源接駁: 用符合電流要求的空氣開關(guān)或其他設(shè)備和主機(jī)電源線接駁,保證計(jì)算機(jī)系統(tǒng)的可靠工作應(yīng)使用穩(wěn)壓電源和UPS,對于冗于電源的接入,采用兩路單獨(dú)輸入.
二、硬件檢查
檢查服務(wù)器、磁陣的安裝、電源線主機(jī)接線符合要求。
服務(wù)器狀態(tài)檢查:
1. 當(dāng)服務(wù)器處于啟動(dòng)和正常工作狀態(tài)時(shí),其前面板上的液晶顯示屏上應(yīng)無信息顯示。
2. 當(dāng)液晶顯示器上出現(xiàn)帶數(shù)字和字母的信息時(shí),說明有硬件告警。可以通過查詢相關(guān)機(jī)型的面板報(bào)警數(shù)字信息查到相應(yīng)告警原因,情況嚴(yán)重的,則要立即通知服務(wù)器廠商進(jìn)行問題排查。
1. 當(dāng)服務(wù)器的狀態(tài)燈出現(xiàn)橙黃色時(shí),說明有硬件告警,此時(shí)要檢查磁柜的電源、接線、硬盤等。如果有硬件故障則立即進(jìn)行更換和更正,如果查不出具體問題,則需要聯(lián)系相關(guān)廠商進(jìn)一步診斷。
2. 當(dāng)硬盤工作正常時(shí),與各硬盤對應(yīng)的硬盤燈會呈綠色,如無讀寫,則綠燈一直亮,如該硬盤有讀寫操作,則綠燈會不規(guī)則閃爍,當(dāng)硬盤損壞時(shí)或RAID出現(xiàn)問題時(shí),則硬盤狀態(tài)燈將熄滅,或者呈閃爍狀態(tài):以1~3秒的頻率有規(guī)律地、不停地閃爍
第二類、系統(tǒng)日常維護(hù)流程
2.1系統(tǒng)啟動(dòng)
系統(tǒng)啟動(dòng)正常順序如下: 首先對外設(shè)(磁盤陣列、磁帶庫等)加電。 待所有外設(shè)加電自檢完成后,主機(jī)加電正常起機(jī)。主機(jī)加電后,才能按POWER鍵起機(jī).
2.2系統(tǒng)關(guān)閉 服務(wù)器系統(tǒng)關(guān)閉時(shí),需要確認(rèn)服務(wù)器的服務(wù)是否對現(xiàn)網(wǎng)業(yè)務(wù)有影響,同時(shí)需要對關(guān)閉的服務(wù)器運(yùn)行中的程序進(jìn)程確認(rèn),明確軟件安全的關(guān)閉步驟,在進(jìn)行關(guān)機(jī)操作。 2.3系統(tǒng)與數(shù)據(jù)備份 有效及時(shí)的系統(tǒng)備份是系統(tǒng)管理的非常重要的一環(huán)。當(dāng)系統(tǒng)出現(xiàn)故障時(shí),特別是文件系統(tǒng)被嚴(yán)重?fù)p壞或硬盤損壞時(shí),常需要使用系統(tǒng)備份來恢復(fù)系統(tǒng)。在以下情況下應(yīng)做系統(tǒng)備份:
1、新裝機(jī)。在硬件及系統(tǒng)軟件安裝完成后,應(yīng)做系統(tǒng)備份。
2、軟件改動(dòng)。系統(tǒng)軟件或應(yīng)用軟件有改動(dòng)時(shí),應(yīng)做系統(tǒng)備份。
3、定期備份。對系統(tǒng)進(jìn)行定期備份,最好每三個(gè)月做一次備份
2.4系統(tǒng)恢復(fù) 當(dāng)系統(tǒng)發(fā)生比較嚴(yán)重的故障以致采取一般性維護(hù)手段不能在短期內(nèi)恢復(fù)原系統(tǒng),與上級確認(rèn)后,可將最近一次的系統(tǒng)備份倒回機(jī)器內(nèi)以全面恢復(fù)系統(tǒng)到最近一次做備份時(shí)的系統(tǒng)環(huán)境,然后可將當(dāng)日的數(shù)據(jù)備份再倒回系統(tǒng)內(nèi)。至此,系統(tǒng)可恢復(fù)正常運(yùn)行。此后,應(yīng)當(dāng)廠商再進(jìn)行整個(gè)事件的全面分析與回顧,以期找到故障發(fā)生的原因,并采取相應(yīng)措施以杜絕類似事件再次發(fā)生。
2.5安全工作守則
a統(tǒng)定期進(jìn)行系統(tǒng)備份。
b.當(dāng)有系統(tǒng)變更或進(jìn)行操作系統(tǒng)補(bǔ)丁安裝的時(shí)候,必須作一次系統(tǒng)備份。
c.在發(fā)現(xiàn)有硬盤故障的時(shí)候,注意當(dāng)天的數(shù)據(jù)備份。在更換硬盤的時(shí)候,請確認(rèn)當(dāng)天數(shù)據(jù)備份已經(jīng)完成。
d.在更換敏感的電子元件,時(shí)候一定要防靜電。
e.在插拔外圍設(shè)備的時(shí)候,請把外圍設(shè)備下電。
f.在進(jìn)行文件刪除的時(shí)候,請留意當(dāng)前路徑是否正確。
g.在進(jìn)行文件解壓縮的時(shí)候,請留意參數(shù)和路徑。
第三類、故障定位、故障排除
根據(jù)實(shí)際運(yùn)行的系統(tǒng)中碰到問題,總結(jié)出了以下幾種常見故障及其定位方式和解決方法。
3.1硬件故障
硬件故障有很多種,對系統(tǒng)產(chǎn)生的影響也不一樣,這里按其故障對系統(tǒng)的影響程度分:致命影響的硬件故障和只影響功能的硬件故障兩類進(jìn)行硬件分類:
其損壞對系統(tǒng)產(chǎn)生致命影響(將使機(jī)器宕機(jī)或無法啟動(dòng))的硬件包括:
主板、CPU、RAID卡、電源模塊、風(fēng)扇、本地硬盤、內(nèi)存損壞等等
這些設(shè)備的損壞等將使系統(tǒng)無法完成自檢、引導(dǎo)和啟動(dòng),液晶顯示屏上都將有錯(cuò)誤信息,可根據(jù)液晶顯示屏上的錯(cuò)誤碼對照錯(cuò)誤原因,如果是工作狀態(tài)下出現(xiàn)這些硬件損壞,則系統(tǒng)將被掛起或宕機(jī)。
其損壞對僅對系統(tǒng)產(chǎn)生功能影響(機(jī)器不會宕機(jī)并能正常啟動(dòng))的硬件包括:
網(wǎng)卡、本地硬盤有壞塊、顯卡、和其他外圍設(shè)備 這些設(shè)備的損壞只影響特定功能,如網(wǎng)絡(luò)功能、顯示功能、訪問磁陣的功能等,對于本地硬盤有壞塊的情況,則要看壞塊中是否包含了重要的系統(tǒng)文件,如果不是重要系統(tǒng)文件,則系統(tǒng)功能不受影響,但也建議立即更換該硬盤。
故障定位和排除: 液晶屏上的錯(cuò)誤碼
根據(jù)錯(cuò)誤碼確定是什么硬件出了故障,對系統(tǒng)來講,原則上必須業(yè)務(wù)切換使得損壞服務(wù)器離線不影響用戶使用的情況下,然后修復(fù)故障機(jī)器,恢復(fù)系統(tǒng)。
3.2磁陣故障 磁陣引起的故障是目前碰到的最頻繁、危害最大的故障,據(jù)不完全統(tǒng)計(jì),其故障覆蓋到總故障的70%以上,具體來講,可能引起磁陣故障的環(huán)節(jié)包括:
磁陣硬盤、主機(jī)上的RAID卡、與主機(jī)相連的SAS線、硬盤的位置和接線方式、以及盤柜使用的電壓及周圍磁場、磁陣/硬盤/RAID卡等都可能造成異常。
磁陣的問題是最復(fù)雜的,一般有物理損壞的原因也有環(huán)境原因,這是主因,如接線、插盤位置不符合要求、未及時(shí)查看系統(tǒng)告警等造成系統(tǒng)中斷等輔因。按照經(jīng)驗(yàn),不管是什么硬件故障導(dǎo)致故障,系統(tǒng)都會產(chǎn)生告警,如果能及時(shí)發(fā)現(xiàn)問題并采取措施,如果存在硬件故障時(shí),可從狀態(tài)燈上觀察到:
當(dāng)單塊硬盤出現(xiàn)故障或未被使用時(shí),其面板上的硬盤狀態(tài)燈會不亮 陣列的狀態(tài)燈黃燈會亮 服務(wù)器的磁陣所配置的RAID卡一般都帶有一塊充電電池,該電池用于在突然停電的情況下