IDC運維、監(jiān)控工程師簡章
金石飛拓(EZSERVICE),是一家專業(yè)從事IT領(lǐng)域技術(shù)研發(fā)、面向全球客戶提供優(yōu)質(zhì)網(wǎng)絡(luò)系統(tǒng)服務(wù)和外包增值服務(wù)的服務(wù)提供商。
以“客戶至上、質(zhì)量第一、誠信求實、創(chuàng)新進取”的經(jīng)營宗旨,通過專業(yè)的定制服務(wù),金石竭誠為客戶提供安全可靠的IT服務(wù),以解決運維難題,提高運維效率,降低管理風(fēng)險,減輕管理負擔,增加投資回報。
金石已經(jīng)建立了以北京為核心,以華中武漢、華東杭州和華南深圳三大運營中心為支點面向全國及亞太地區(qū)進行業(yè)務(wù)輻射的龐大網(wǎng)絡(luò)服務(wù)體系。同時,金石也已成功進入中國臺灣、香港、日本、北美等海外市場成立日期:201*年3月員工總數(shù):近300人全球總部:北京
集服務(wù)規(guī)劃、設(shè)計、實施、運維等整個生命周期為一體的,跨領(lǐng)域、跨平臺、異構(gòu)IT環(huán)境下的IT綜合運營服務(wù)提供商團隊逐年壯大,銷售額逐年30%增幅IDC運維工程師招聘要求:
崗位職責(zé):
1、負責(zé)機房基礎(chǔ)設(shè)施及機器設(shè)備的日常維護巡檢,保持機房運行環(huán)境的良好狀態(tài),記錄環(huán)境數(shù)據(jù),總結(jié)成報表定期提交;
2、配合客戶方對IDC機房服務(wù)器、存儲、網(wǎng)絡(luò)及其他運營設(shè)備進行安裝、系統(tǒng)調(diào)試、維護、故障處理等工作;
3、負責(zé)IDC機房設(shè)備上/下架,服務(wù)器的系統(tǒng)安裝,如windows/Linux操作系統(tǒng)等;4、作為監(jiān)控人員和硬件廠商的接口,及時響應(yīng)保修并解決故障;5、IDC機房公司所署網(wǎng)絡(luò)設(shè)備的備上/下架、安裝及調(diào)試;
6、對IDC機房所有服務(wù)器及備件壞件定期檢查、檢修、替換和保修,建立數(shù)據(jù)中心例行檢查和維護文檔;
7、及時按要求撰寫工作及技術(shù)文檔;
8、配合資產(chǎn)管理,遵照流程進行設(shè)備調(diào)動,提供IDC設(shè)備信息;職位要求:1、大專以上學(xué)歷
2、熟悉Windows、Linux服務(wù)器操作系統(tǒng)的管理維護shell、Perl、python等腳本語言的一種
3、熟悉主流網(wǎng)絡(luò)產(chǎn)品配置(如:ciscohuawei)
4、有相關(guān)工作經(jīng)驗;具有ccnaccnp資格證書或其他網(wǎng)絡(luò)廠商認證證書;5、有強烈的責(zé)任心,能夠認真負責(zé)的完成任務(wù)
6、語言表達能力優(yōu)秀,有一定的動手能力,為人踏實,能吃苦耐勞7、能適應(yīng)白班,夜班輪班工作及節(jié)假日值班9、熟練使用wordexclevisio等辦公文檔者優(yōu)先考慮
10、熟練掌握服務(wù)器(Dell和HP)、網(wǎng)絡(luò)設(shè)備的故障排查、備件更換及報修流程11、能夠吃苦耐勞,接受7*24的輪班制度
12、了解Apache,Jboss等Web應(yīng)用服務(wù)器的基本維護13、學(xué)習(xí)能力強的優(yōu)秀應(yīng)屆畢業(yè)生也可考慮
監(jiān)控工程師招聘要求:
崗位職責(zé)
1、負責(zé)IDC機房的服務(wù)器、路由器、交換機、網(wǎng)絡(luò)管理維護、網(wǎng)絡(luò)安全管理及技術(shù)支撐;2、對IDC機房設(shè)備做上下架、配置變更、網(wǎng)絡(luò)線路調(diào)試等工作;3、對IDC機房托管設(shè)備進行日常巡檢、故障記錄等工作;4、對IDC設(shè)備及網(wǎng)絡(luò)進行調(diào)整、維護、故障處理等工作;
5、負責(zé)IDC機房容量規(guī)劃,并且前瞻性的解決IDC機房網(wǎng)絡(luò)、服務(wù)器可能發(fā)生的問題;6、對外負責(zé)與IDC運營商溝通等,解決相關(guān)問題;任職要求
1.有一定的IDC運維、服務(wù)器/網(wǎng)絡(luò)設(shè)備運維經(jīng)驗;
2.具備CCNA/H3CNA證書或CCNP/H3CNE相關(guān)技能水品,具備RHCE或類似技能水品;3、5*8或7*24崗位運維工作,工作態(tài)度認真、細致、負責(zé),能承受較大工作壓力;4、學(xué)習(xí)能力強的應(yīng)屆畢業(yè)生也可考慮;專業(yè)技能
1、對IDC基礎(chǔ)設(shè)施,動力環(huán)境(空調(diào),電力,溫度,濕度等方面)均有較為直觀的認識,能識別和讀取設(shè)備數(shù)據(jù),能配合客戶與IDC運維人員完成現(xiàn)場問題的協(xié)調(diào)、跟蹤與處理;
2、熟練掌握服務(wù)器(DELL、HP及IBM其他品牌存儲服務(wù)器)、網(wǎng)絡(luò)設(shè)備的基礎(chǔ)故障排查、維修、更換及報修;
3、對類linux操作系統(tǒng)有一定的了解,能對常用服務(wù)和系統(tǒng)配置進行配置和修改(包括但不限于修改Linux系統(tǒng)配置文件,文件掃描,修改系統(tǒng)gateway、route,網(wǎng)絡(luò)連通性問題排查,ssh服務(wù),服務(wù)器遠程控制帶外管理等linux系統(tǒng)調(diào)試操作);
4、熟悉掌握二三層網(wǎng)絡(luò)的常用技術(shù),比如vlan、stp、acl、ospf;5、熟練掌握網(wǎng)絡(luò)設(shè)備測量儀表的使用方法,能獨立進行參數(shù)測量;
6、熟悉主流網(wǎng)絡(luò)設(shè)備的操作命令,能在網(wǎng)絡(luò)設(shè)備上進行簡單的配置和狀態(tài)查詢,根據(jù)網(wǎng)絡(luò)設(shè)備指示燈的狀態(tài)確定網(wǎng)絡(luò)設(shè)備運行狀態(tài)是否正常;
擴展閱讀:IDC日常運維操作
IDC現(xiàn)場運維手冊文件編號:生效日期:201*年02月25日簽發(fā)人:保密級別:版本號:1.0有效期至:簽發(fā)日期:備注:業(yè)務(wù)部門:目錄
一IDC日常運維操作...............................................................................................................................................3
1服務(wù)器及設(shè)備日常維護與故障診斷處理....................................................................................................3
1.1硬盤故障............................................................................................................................................31.2內(nèi)存故障:........................................................................................................................................31.3Flash卡故障:................................................................................................................................31.4服務(wù)器重啟........................................................................................................................................31.5服務(wù)器其它硬件故障,如CPU故障、主板、電源.......................................................................42服務(wù)器上線...................................................................................................................................................4
2.1自動安裝............................................................................................................................................42.2手動安裝(光盤安裝、保留/home分區(qū)安裝).............................................................................83.服務(wù)器遷移操作流程...................................................................................................................................94.服務(wù)器配置變更.........................................................................................................................................10
4.1改變內(nèi)存配置...................................................................................................................................104.2改變硬盤配置...................................................................................................................................105.增加/去除外網(wǎng)(對網(wǎng)線及設(shè)備連通性進行操作和排查).................................................................116.接收和發(fā)送服務(wù)器,設(shè)備及配件.............................................................................................................117.根據(jù)百度需求進行操作.............................................................................................................................128.根據(jù)百度需求增加操作的內(nèi)容.................................................................................................................12二.日常網(wǎng)絡(luò)操作.................................................................................................................................................13
1.常見模塊或交換機端口故障.....................................................................................................................132.光纖或鏈路故障.......................................................................................................................................133.外網(wǎng)邊緣交換機整機...............................................................................................................................134.交換機板卡、引擎、電源故障...............................................................................................................14
...........................................................................................................................................144.1板卡故障
4.2光口板卡故障..................................................................................................................................144.3電口板卡故障..................................................................................................................................144.4沒有相應(yīng)型號的板卡......................................................................................................................14
...............................................................................................................................154.5引擎、電源故障
5操作規(guī)范說明..............................................................................................................................................15
5.1模塊的拆卸與安裝過程說明:......................................................................................................155.2板卡的拆卸與安裝過程說明:......................................................................................................16
三.機房巡檢及通報機制.....................................................................................................................................17
1.服務(wù)器故障巡檢.....................................................................................................................................172.動力環(huán)境巡檢.........................................................................................................................................17
僅限百度在線內(nèi)部使用IDC現(xiàn)場運維手冊文件編號:生效日期:201*年02月25日簽發(fā)人:保密級別:版本號:1.0有效期至:簽發(fā)日期:備注:業(yè)務(wù)部門:2.1電力情況巡檢...................................................................................................................................172.2溫度情況巡檢...................................................................................................................................172.3濕度情況巡檢...................................................................................................................................173.IDC機架使用規(guī)范巡檢.........................................................................................................................174.IDC基礎(chǔ)設(shè)施故障情況的通報和響應(yīng)機制.........................................................................................17
4.1機架掉電...........................................................................................................................................174.2空調(diào)故障...........................................................................................................................................184.3溫度異常...........................................................................................................................................184.4其他IDC異常情況..........................................................................................................................18
四附錄...................................................................................................................................................................18
1.IDC機房環(huán)境巡檢記錄模板......................................................................................................................182.IDC在線服務(wù)器故障巡檢記錄模板..........................................................................................................193.百度服務(wù)器壞件報修統(tǒng)計模板.................................................................................................................19
僅限百度在線內(nèi)部使用IDC現(xiàn)場運維手冊文件編號:生效日期:201*年02月25日簽發(fā)人:保密級別:版本號:1.0有效期至:簽發(fā)日期:備注:業(yè)務(wù)部門:
一IDC日常運維操作
1服務(wù)器及設(shè)備日常維護與故障診斷處理1.1硬盤故障
《IDC在線服務(wù)器巡檢故障表》》,信息如下:百度根據(jù)第三方提供的《服務(wù)器機架位:xxx-xxx-xxxx服務(wù)器SN號:XXXXXXX服務(wù)器型號:xxxx故障類型:硬盤百度工程師根據(jù)周五的第三方巡檢信息在星期一對硬盤故障進行處理。
處理過程,百度通過AOS發(fā)起外包任務(wù),第三方在備件放置地點取出相應(yīng)型號硬盤備件進行更換。IDC的備件和壞件放置地點詳見《IDC備件&壞件放置地點》,將換下來的壞件統(tǒng)一在每周四進行報修。
將處理結(jié)果反饋給發(fā)起的百度工程師,并回復(fù)完成郵件。百度確認無誤以后,結(jié)束任務(wù)。
1.2內(nèi)存故障:
第三方根據(jù)巡檢報告提供給百度給內(nèi)存故障的服務(wù)器信息,要素如下:服務(wù)器機架位:xxx-xxx-xxxx服務(wù)器SN號:XXXXXXX服務(wù)器型號:xxxx故障類型:內(nèi)存百度工程師根據(jù)第三方巡檢信息來判斷是否可以對硬盤故障進行處理。如果可以處理,在備件放置地點取出相應(yīng)型號內(nèi)存?zhèn)浼M行更換,不同型號的機器有不同,如:DELL2850更換故障內(nèi)存后需要用光盤清楚錯誤日志信息。
啟動服務(wù)器,將結(jié)果反饋給發(fā)起任務(wù)的百度工程師,結(jié)束任務(wù)。百度確認無誤以后,結(jié)束外包任務(wù)
第三方內(nèi)存更換時間約定:第三方更換內(nèi)存過程所需時間(如30分鐘),和工作區(qū)間時間(早上9點到晚上7點),如有特殊時間百度優(yōu)先通知第三方。
1.3Flash卡故障:
百度發(fā)起更換flash卡外包任務(wù)給第三方
第三方根據(jù)任務(wù)單提供的詳細信息進行確認停機
從備件庫取出新Flash卡進行更換,更換完畢將處理結(jié)果反饋給發(fā)起的百度工程師,并回復(fù)完成郵件。
百度確認無誤以后,結(jié)束外包任務(wù)
注:故障Flash卡和新Flash卡需要記錄SN號并提供給百度
1.4服務(wù)器重啟
第三方接到百度重啟服務(wù)器任務(wù)單
根據(jù)任務(wù)單提供的SN、主機名、機架位、IP進行核對
找到機器進行重啟操作,直到服務(wù)器進入系統(tǒng)登陸界面,將結(jié)果反饋給發(fā)起任務(wù)的百度工程師,結(jié)束任務(wù),過程中有異常情況應(yīng)及時反饋給百度工程師,
僅限百度在線內(nèi)部使用IDC現(xiàn)場運維手冊文件編號:生效日期:201*年02月25日簽發(fā)人:保密級別:版本號:1.0有效期至:簽發(fā)日期:備注:業(yè)務(wù)部門:百度確認無誤以后,結(jié)束外包任務(wù)
1.5服務(wù)器其它硬件故障,如CPU故障、主板、電源需要第三方嚴格按照如下操作步驟進行操作
第三方CPU更換時間約定:第三方更換CPU過程所需時間(如30分鐘),和工作區(qū)間時間(早上9點到晚上7點)
百度給第三方提供存在CPU故障的服務(wù)器信息,要素如下:故障服務(wù)器機架位:故障服務(wù)器SN號:XXXXXXXxxx-xxx-xxxx服務(wù)器型號:xxx
第三方確認故障服務(wù)器已經(jīng)停機,拔出電源線,按照順序取出故障服務(wù)器里的硬盤
將指定備機替換故障機器,并取出備機中的硬盤,清掉備機的raid卡里的raid信息(該操作步驟只限于DELL2850服務(wù)器)
按順序在備機中插入故障機中硬盤啟動服務(wù)器
將處理結(jié)果回復(fù)給發(fā)起的百度工程師
主板故障:同CPU故障處理電源故障:同內(nèi)存故障
硬盤rebuild時間標準
73G硬盤在線rebuild-3個小時,離線rebuild-1個小時;146G硬盤在線rebuild-6個小時,離線rebuild-2個小時;300G硬盤在線rebuild-9個小時,離線rebuild-3個小時;
2服務(wù)器上線
第三方根據(jù)百度要求把服務(wù)器上架到指定位置并反饋服務(wù)器SN
2.1自動安裝
百度配置安裝文件
僅限百度在線內(nèi)部使用
備用服務(wù)器機架位:備用服務(wù)器SN號:XXXXXXXxxx-xxx-xxxx開始操作時間:18:00第三方根據(jù)巡檢報告給百度提供存在CPU故障的服務(wù)器信息,第三方聯(lián)系廠家報修,通報百度上面維修時間百度根據(jù)上門維修時間聯(lián)系停機
第三方確認停機以后由廠商來維修直至修好。IDC現(xiàn)場運維手冊文件編號:生效日期:201*年02月25日簽發(fā)人:保密級別:版本號:1.0有效期至:簽發(fā)日期:備注:業(yè)務(wù)部門:第三方用指定的安裝服務(wù)器進行安裝,安裝完成后進入到login狀態(tài),如下面
僅限百度在線內(nèi)部使用IDC現(xiàn)場運維手冊文件編號:生效日期:201*年02月25日簽發(fā)人:保密級別:版本號:1.0有效期至:簽發(fā)日期:備注:業(yè)務(wù)部門:
僅限百度在線內(nèi)部使用IDC現(xiàn)場運維手冊文件編號:生效日期:201*年02月25日簽發(fā)人:保密級別:版本號:1.0有效期至:簽發(fā)日期:備注:業(yè)務(wù)部門:
僅限百度在線內(nèi)部使用IDC現(xiàn)場運維手冊文件編號:生效日期:201*年02月25日簽發(fā)人:保密級別:版本號:1.0有效期至:簽發(fā)日期:備注:業(yè)務(wù)部門:
中途如有安裝存在問題的情況,聯(lián)系發(fā)起人。發(fā)起人遠程進行單獨安裝安裝完畢以后郵件反饋百度工程師百度確認完成以后,結(jié)束外包任務(wù)
2.2手動安裝(光盤安裝、保留/home分區(qū)安裝)光盤安裝
根據(jù)任務(wù)單要求安裝指定的光盤系統(tǒng)
根據(jù)任務(wù)單要求配置IP和安裝指定的工具包確認安裝完成后反饋信息,等百度方確認百度確認無誤后,結(jié)束任務(wù)
手動安裝
用網(wǎng)線直接連接被安裝機器和安裝服務(wù)器的eth0端口(標記為NIC1)
僅限百度在線內(nèi)部使用IDC現(xiàn)場運維手冊文件編號:生效日期:201*年02月25日簽發(fā)人:保密級別:版本號:1.0有效期至:簽發(fā)日期:備注:業(yè)務(wù)部門:注意:DELL2950,引導(dǎo)時需要用NIC1連接安裝服務(wù)器的eth0端口,引導(dǎo)完之后換到NIC2。pxe引導(dǎo)如有問題,需要檢查機器的BIOS設(shè)置中的網(wǎng)卡設(shè)置。
引導(dǎo)服務(wù)器,當出現(xiàn)PXE引導(dǎo)時,按F12進行pxe引導(dǎo),引導(dǎo)過程中會看到加載linux.1linux.2引導(dǎo)結(jié)束,會出現(xiàn)-bash提示符輸入命令
install-i172.18.250.xxx-nfs172.18.250.10-nbaidu-123如果記不住可以通過install-h獲取幫助命令行解釋:
install是一個安裝腳本,他會自動通過NFS方式連接到安裝服務(wù)器上獲取配置信息以及安裝包共有6個參數(shù),其中-i-nfs-n固定
例子中的172.18.250.xxx為本機臨時IP,目的是與安裝服務(wù)器建立連接,必需為安裝服務(wù)器eth0IP的同網(wǎng)段IP
172.18.250.1為安裝服務(wù)器eth0IP
baidu-123為被安裝機器的主機名,install腳本會根據(jù)這個主機名在install.conf里面取配置信回車執(zhí)行命令開始安裝.
當再次出現(xiàn)bash提示符后,安裝完畢。
3.服務(wù)器遷移操作流程
由發(fā)起人發(fā)郵件確認可以遷移,并電話聯(lián)系第三方現(xiàn)場人員確認開始遷移
第三方現(xiàn)場人員接顯示器確認系統(tǒng)已經(jīng)關(guān)閉并進行遷移,把服務(wù)器遷移到指定機架位。如果是跨機房遷移需把設(shè)備交給百度指定接收人(需出示有效證件證明身份),送達目的地點。運送過程中需保證設(shè)備的物理完整性,不得隨意拆開機箱并插拔或變更硬盤位置,如果有系統(tǒng)的,以能夠進入grub界面為準.見圖1
將服務(wù)器接上電源線、網(wǎng)線,異地遷移需要根據(jù)新機架位的ip重新配置遠程控制口的ip。按電源按鈕,啟動服務(wù)器,確保進入如下類似界面:見圖1
僅限百度在線內(nèi)部使用IDC現(xiàn)場運維手冊文件編號:生效日期:201*年02月25日簽發(fā)人:保密級別:版本號:1.0有效期至:簽發(fā)日期:備注:業(yè)務(wù)部門:
圖1
如果遇到異常情況,需立即通知發(fā)起人,由發(fā)起人決定處理方式第三方操作完畢回復(fù)
發(fā)起人或指定復(fù)查人員進行檢查,確保沒有問題后,結(jié)束操作任務(wù)。
4.服務(wù)器配置變更4.1改變內(nèi)存配置
第三方在接到發(fā)起人停機通知后,將服務(wù)器電源線、網(wǎng)線、控制線拔掉并從機架上拿下放置在地上
取得要更換或添加的備件。
內(nèi)存容量、大小、數(shù)量信息請查看發(fā)起人發(fā)出的任務(wù)單
參照《服務(wù)器硬件更換方法》來對內(nèi)存進行添加、減少、更換把替換下來的內(nèi)存放回指定位置
把服務(wù)器放回原位置,接好電源線、網(wǎng)線、控制線,按電源按鈕啟動服務(wù)器
4.2改變硬盤配置
第三方在接到發(fā)起人任務(wù)后,參照《IDC備件&壞件放置地點》取得要更換或添加的硬盤。
僅限百度在線內(nèi)部使用IDC現(xiàn)場運維手冊文件編號:生效日期:201*年02月25日簽發(fā)人:保密級別:版本號:1.0有效期至:簽發(fā)日期:備注:業(yè)務(wù)部門:
硬盤容量、大小、數(shù)量信息請查看發(fā)起人發(fā)出的任務(wù)單參照《服務(wù)器硬件更換方法》按指定要求更換硬盤。具體要求請查看任務(wù)發(fā)起人發(fā)出的任務(wù)單
如果需要重裝系統(tǒng),參照《服務(wù)器上線方法》安裝系統(tǒng)
參照《IDC備件&壞件放置地點》把替換下來的硬盤放回指定位置
操作完畢回復(fù)
第三方操作完畢后,需馬上通過郵件或電話通知任務(wù)發(fā)起人(如果電話通知的需要在之后補充郵件通知)
檢查
由發(fā)起人或指定復(fù)查人員進行檢查,確保沒有問題后,向第三方郵件確認操作完畢,結(jié)束任務(wù)。
注:換下配件不算成備件,需要單獨記錄并通報。發(fā)起外包出庫流程。
5.增加/去除外網(wǎng)(對網(wǎng)線及設(shè)備連通性進行操作和排查)5.1外網(wǎng)變內(nèi)網(wǎng)
在得到百度工程師確認后,第三方按任務(wù)中的接線方法,拔掉指定外網(wǎng)網(wǎng)線,插上指定內(nèi)網(wǎng)網(wǎng)線
5.2.內(nèi)網(wǎng)變外網(wǎng)
在得到百度工程師確認后,第三方按任務(wù)中的接線方法,拔掉指定內(nèi)網(wǎng)網(wǎng)線,插上指定內(nèi)外網(wǎng)線
注:FEX424外網(wǎng)邊緣交換機的1、2、3、4、24不能連接網(wǎng)線
操作完畢回復(fù)
第三方操作完畢后,需馬上通過郵件、電話通知發(fā)起人(如果電話通知的需要在之后補充郵件通知),
檢查
由發(fā)起人或指定復(fù)查人員進行檢查,確保沒有問題后,第三方郵件向百度確認操作完畢,結(jié)束任務(wù)。
6.接收和發(fā)送服務(wù)器,設(shè)備及配件6.1接收設(shè)備
外包將收到的服務(wù)器、設(shè)備及配件清點以后,將信息反饋給百度方并更新外包資產(chǎn)數(shù)據(jù)庫,信息如下:
接收時間設(shè)備名稱09.01.12xxxx
6.2發(fā)送設(shè)備
序列號xxxxxxx存放位置xxx-xxx-xxx
僅限百度在線內(nèi)部使用IDC現(xiàn)場運維手冊文件編號:生效日期:201*年02月25日簽發(fā)人:保密級別:版本號:1.0有效期至:簽發(fā)日期:備注:業(yè)務(wù)部門:外包方根據(jù)任務(wù)單要求發(fā)送服務(wù)器及配件聯(lián)系物流
百度辦理設(shè)備出入手續(xù)
發(fā)出設(shè)備及配件,結(jié)束任務(wù)更新外包資產(chǎn)數(shù)據(jù)
7.根據(jù)百度需求進行操作7.1根據(jù)需求反饋信息
百度發(fā)起外包任務(wù),如:查看機器狀態(tài)、SN、IP等第三方將查看信息反饋給百度方百度方確認以后,結(jié)束任務(wù)
7.2重啟服務(wù)器等
百度發(fā)起重啟服務(wù)器的任務(wù)單
第三方根據(jù)任務(wù)單提供的信息進行確認
確認無誤重啟服務(wù)器,有異常情況及時反饋信息,重啟以后通知百度方百度確認無誤,結(jié)束任務(wù)
8.根據(jù)百度需求增加操作的內(nèi)容
根據(jù)百度需求增加IDC操作的內(nèi)容
僅限百度在線內(nèi)部使用IDC現(xiàn)場運維手冊文件編號:生效日期:201*年02月25日簽發(fā)人:保密級別:版本號:1.0有效期至:簽發(fā)日期:備注:業(yè)務(wù)部門:
二.日常網(wǎng)絡(luò)操作
1.常見模塊或交換機端口故障
網(wǎng)絡(luò)故障被定位屬于這個范圍后發(fā)起人根據(jù)【故障處理流程】發(fā)起操作,并通過郵件提供外包人
員相關(guān)機架位、網(wǎng)絡(luò)設(shè)備名稱、板卡槽位、端口號及模塊型號,外包人員按照操作要求進行更換故障處理時間(10分鐘-20分鐘)
2.光纖或鏈路故障
網(wǎng)絡(luò)故障被定位屬于這個范圍后發(fā)起人根據(jù)【故障處理流程】發(fā)起操作,并通過郵件提供外包人
員故障光纖的類型,兩端機架位,對應(yīng)網(wǎng)絡(luò)設(shè)備名稱,板卡槽位、端口號,外包人員在進行光纖更換時應(yīng)該優(yōu)先選用冗余光纖資源,如果沒有冗余光纖資源則應(yīng)立即按照【百度IDC布線標準】進行部署,并根據(jù)發(fā)起人要求進行標簽標記。
(10分鐘-20分鐘)本機房光纖部署,故障處理時間,
(15分鐘-30分鐘)跨機房光纖部署,故障處理時間,
3.外網(wǎng)邊緣交換機整機
外網(wǎng)邊緣交換機(FoundryFEX424)故障被定位屬于這個范圍后發(fā)起人根據(jù)【故障處理流程】發(fā)
起操作,并必須提供外包人員故障交換的機架位,之后外包人員根據(jù)如下步驟進行更換:
1)記錄以下信息:
A.交換機的5端口至23端口的網(wǎng)線標簽;B.交換機的24口管理網(wǎng)線標簽;C.25口、26口對應(yīng)的光纖標簽;2)初始化欲使用的FoundryFEX424配置;
初始化FoundryFEX424配置過程
A.通過Console接入交換機B.enable進入#號提示符下
C.Erasestartup-config清除配置
D.Reload重啟交換機,選擇不保存配置文件3)根據(jù)操作發(fā)起人提供的管理IP進行配置;
配置管理IP
A.使用enable進入#號提示符下;使用configureterminal進入配置模式B.使用如下命令配置管理IP
僅限百度在線內(nèi)部使用IDC現(xiàn)場運維手冊文件編號:生效日期:201*年02月25日簽發(fā)人:保密級別:版本號:1.0有效期至:簽發(fā)日期:備注:業(yè)務(wù)部門:interfaceethernet24port-namenetadminroute-only
ipaddress255.255.255.0(管理IP由發(fā)起人提供)4)經(jīng)發(fā)起人確認后進行更換;
A.將故障交換機斷電,并去掉所有光纖及網(wǎng)線,B.將新的交換機上架加電,并先接好網(wǎng)管網(wǎng)線。
5)外包人員經(jīng)操作發(fā)起人同意后,依據(jù)要求進行光纖及網(wǎng)線互聯(lián);
A.接入光纖時,光纖與端口對應(yīng)關(guān)系必須與之前相同;B.原網(wǎng)線接入5口至23口時沒有順序要求,
故障處理時間(20分鐘-40分鐘)
本節(jié)中的故障處理時間指的是外包人員完成指定操作的時間,不包括發(fā)起人的故障定位時間,以確認開始操作計算時間。
4.交換機板卡、引擎、電源故障4.1板卡故障
說明:網(wǎng)絡(luò)故障被定位屬于這個范圍后發(fā)起人根據(jù)【故障處理流程】發(fā)起操作,并通過郵件提供
外包人員對應(yīng)網(wǎng)絡(luò)設(shè)備名稱,板卡槽位,外包工作人員應(yīng)首先記錄故障板卡上的網(wǎng)線和光纖標簽及端口的對應(yīng)關(guān)系,具體,然后將板卡更換后檢查板卡是否有自檢閃爍,最后按照之前的記錄恢復(fù)所有網(wǎng)線或光纖。
常見情況及處理時間如下:4.2光口板卡故障
一般互聯(lián)光纖數(shù)量不超過六條,更換前必須正確記錄所有光纖與端口的對應(yīng)關(guān)系。板卡更換后,
必須按照之前的記錄順序進行恢復(fù)。故障處理時間:(10分鐘-30分鐘)4.3電口板卡故障
一般互聯(lián)網(wǎng)線的數(shù)量比較多,更換前必須正確記錄所有網(wǎng)線與基于端口劃分的VLAN的對應(yīng)關(guān)系
,板卡更換后必須按照之前記錄的網(wǎng)線與基于端口劃分的VLAN對應(yīng)關(guān)系進行恢復(fù)。
如板卡的前24個端口屬于VLAN100,后24個端口屬于VLAN200,板卡更換后根據(jù)端口和VLAN
的對應(yīng)關(guān)系進行恢復(fù)。
故障處理時間:(20分鐘-40分鐘)4.4沒有相應(yīng)型號的板卡
需要使用多臺FoundryFEX424用萬兆口級聯(lián)后再互聯(lián)至該交換機的指定端口(由發(fā)起人提供)
A.外包人員初始化FoundryFEX424配置,并通過萬兆端口進行級聯(lián),級聯(lián)的數(shù)量由發(fā)起人給出;
B.根據(jù)發(fā)起人提供的指定端口,將已經(jīng)級聯(lián)的FoundryFEX424與這個指定端口進行
僅限百度在線內(nèi)部使用IDC現(xiàn)場運維手冊文件編號:生效日期:201*年02月25日簽發(fā)人:保密級別:版本號:1.0有效期至:簽發(fā)日期:備注:業(yè)務(wù)部門:互聯(lián);
C.經(jīng)發(fā)起人同意后,將故障板卡的網(wǎng)線遷移到FoundryFEX424上。D.最多級聯(lián)兩臺FEX424。如果超過2臺FEX424,時間可以合理延長。
故障處理時間:(20分鐘-60分鐘)4.5引擎、電源故障
說明:網(wǎng)絡(luò)故障被定位屬于這個范圍后發(fā)起人根據(jù)【故障處理流程】發(fā)起操作,并通過郵件提供
外包人員故障網(wǎng)絡(luò)設(shè)備名稱,引擎或電源槽位。故障處理時間:(20分鐘-40分鐘)5操作規(guī)范說明
5.1模塊的拆卸與安裝過程說明:
1.確定需要卸載的模塊。
2.若卸載業(yè)務(wù)模塊,請注意先拔下模塊拉手條上的以太網(wǎng)電纜、串口電纜或者光纖接頭并放置在安全的地方并做好標記以便復(fù)原。操作有光口的線路接口模塊時,請不要直視光模塊的TX端口和光纖線纜末端,以免激光燒傷眼睛。3.平行方向取出或插入模塊,參加下圖3-1。
僅限百度在線內(nèi)部使用IDC現(xiàn)場運維手冊文件編號:生效日期:201*年02月25日簽發(fā)人:保密級別:圖3-1
版本號:1.0有效期至:簽發(fā)日期:備注:業(yè)務(wù)部門:
5.2板卡的拆卸與安裝過程說明:板卡拆卸過程:
1.確定需要卸載的業(yè)務(wù)板卡。
2.若卸載業(yè)務(wù)板卡,請注意先拔下模塊拉手條上的以太網(wǎng)電纜、串口電纜或者光纖接頭并放置在安全的地方并做好標記以便復(fù)原。操作有光口的線路接口模塊時,請不要直視光模塊的TX端口和光纖線纜末端,以免激光燒傷眼睛。3.用螺絲刀松開拉手條兩端的緊固螺絲。
4.雙手抓住拉手條兩端的扳手,朝相反的方向用力,模塊會自動脫出機箱少許。5.雙手抓住扳手將模塊垂直拉出大約10cm。
6.右手抓住模塊拉手條的中上部,左手托住模塊下邊緣將模塊從機箱中完全拉出并放置在安全的地方。
7.如果需要重新裝入包裝盒,請首先將業(yè)務(wù)模塊裝入防靜電袋,再裝入外包裝盒。
板卡安裝過程與拆卸過程相反,參考下圖3-2。
圖3-2
6、板卡槽位及端口順序
6.1FoundryFEX424,參加下圖4-1
僅限百度在線內(nèi)部使用IDC現(xiàn)場運維手冊文件編號:生效日期:201*年02月25日簽發(fā)人:保密級別:圖3-2
版本號:1.0有效期至:簽發(fā)日期:備注:業(yè)務(wù)部門:
三.機房巡檢及通報機制
1.服務(wù)器故障巡檢
巡檢范圍:IDC內(nèi)所有的服務(wù)器;
報警設(shè)備包括:服務(wù)器、交換機、路由器、傳輸設(shè)備等。
完成時間:在每天上午11點前整理出當天《百度**IDC每日巡檢報告》發(fā)到指定郵件組
巡檢頻率:每天
2.動力環(huán)境巡檢2.1電力情況巡檢
對各個IDC的用電情況,精確到每個機架進行巡檢記錄,需要區(qū)別單路用電量(安培)雙路用電量(安培)。并將超過用電預(yù)警值(見日報模板)的機架做好記錄。巡檢頻率:1天1次。2.2溫度情況巡檢
對各個IDC溫度情況,精確到每個溫度采集點進行巡檢記錄。將超過溫度預(yù)警值的機架做好記錄。巡檢頻率:4小時1次,每天至少2次。并巡檢時間由百度根據(jù)季節(jié)情況進行制定。2.3濕度情況巡檢
對各個IDC濕度情況,精確到每個濕度采集點進行巡檢記錄。并將超過溫度預(yù)警值的機架做好記錄。巡檢頻率:4個小時,每天至少兩次。
注:在日報中對超出警戒值的記錄用其他顏色區(qū)別展示;溫度警戒值默認為33攝氏度,并由百度ARP根據(jù)季節(jié)情況進行調(diào)整;
3.IDC機架使用規(guī)范巡檢
確保設(shè)備的擺放正確;
確保服務(wù)器的上架符合規(guī)范;
確保網(wǎng)線,電源線的布放符合規(guī)范;
確保IDC內(nèi)沒有紙質(zhì),技術(shù)文檔及其他易燃物品;
4.IDC基礎(chǔ)設(shè)施故障情況的通報和響應(yīng)機制4.1機架掉電
僅限百度在線內(nèi)部使用IDC現(xiàn)場運維手冊文件編號:生效日期:201*年02月25日簽發(fā)人:保密級別:版本號:1.0有效期至:簽發(fā)日期:備注:業(yè)務(wù)部門:在發(fā)現(xiàn)機架單路掉電或雙路掉電情況后立即聯(lián)系營運商現(xiàn)場值班人員進行處理,并在10
分鐘內(nèi)通報百度第一緊急響應(yīng)人;無法聯(lián)系到第一緊急響應(yīng)人立即聯(lián)系第二緊急響應(yīng)人;4.2空調(diào)故障
并將處理的過程或結(jié)果15在發(fā)現(xiàn)空調(diào)故障情況后立即聯(lián)系營運商現(xiàn)場值班人員進行處理,
分鐘通報百度第一緊急響應(yīng)人;無法聯(lián)系到第一緊急響應(yīng)人立即聯(lián)系第二緊急響應(yīng)人;4.3溫度異常
在發(fā)現(xiàn)溫度采集點實測溫度達到溫度警戒值的情況后,15分鐘內(nèi)通報當天百度該機房負責(zé)
人,并聯(lián)系營運商現(xiàn)場值班人員進行處理。該內(nèi)容需要在日&周報告中體現(xiàn);4.4其他IDC異常情況
其他可能影響百度業(yè)務(wù)正常工作的IDC基礎(chǔ)設(shè)施故障問題,需要及時進行通報;
注:緊急響應(yīng)人:第一緊急響應(yīng)人:第二緊急響應(yīng)人:
四附錄
1.IDC機房環(huán)境巡檢記錄模板
IDC機房環(huán)境巡檢記錄模板城市提交人北京IDC名稱提交日期201*-12-16巡檢內(nèi)容機房號前日15時巡檢人本日10時
僅限百度在線內(nèi)部使用
編號聯(lián)系電話單路最高/機架雙路最高/機架溫度最高/空調(diào)濕度/空調(diào)巡檢時間空調(diào)是否正常[√]是[]否[√]是[]否201*-12-1515:00空調(diào)是否正常機房號單路最高/機架雙路最高/機架溫度最高/空調(diào)濕度/空調(diào)IDC現(xiàn)場運維手冊文件編號:生效日期:201*年02月25日簽發(fā)人:保密級別:版本號:1.0有效期至:簽發(fā)日期:備注:業(yè)務(wù)部門:巡檢人備注巡檢時間[√]是[]否[√]是[]否201*-12-1610:002.IDC在線服務(wù)器故障巡檢記錄模板
IDC在線服務(wù)器故障巡檢記錄模板服務(wù)器型號故障核查人故障發(fā)現(xiàn)時間機架機器的SN號IP故障類型具體報警信息故障發(fā)現(xiàn)人
3.百度服務(wù)器壞件報修統(tǒng)計模板服務(wù)器型號xxxxx
壞件名稱硬盤壞件件型號XXX-300GB-00K壞件序列號XX-XXX-1253-7X-0296數(shù)量1對應(yīng)的服務(wù)器SNxxxxx
僅限百度在線內(nèi)部使用
友情提示:本文中關(guān)于《IDC運維、監(jiān)控工程師簡章》給出的范例僅供您參考拓展思維使用,IDC運維、監(jiān)控工程師簡章:該篇文章建議您自主創(chuàng)作。
來源:網(wǎng)絡(luò)整理 免責(zé)聲明:本文僅限學(xué)習(xí)分享,如產(chǎn)生版權(quán)問題,請聯(lián)系我們及時刪除。