逃離故障的十條運(yùn)維工作經(jīng)驗(yàn)總結(jié)
逃離故障的十條運(yùn)維工作經(jīng)驗(yàn)總結(jié)
故障、于DBA、于運(yùn)維人員都是心中永遠(yuǎn)的痛、而避免故障的原
則卻是殊途同歸
現(xiàn)列如下、與君共勉㈠
佛說(shuō):每次創(chuàng)傷、都是一次成熟、這便是運(yùn)維人員的真實(shí)寫(xiě)照從某種意義上講、運(yùn)維是一門(mén)經(jīng)驗(yàn)的學(xué)科、是一門(mén)試錯(cuò)的學(xué)科
沒(méi)有做過(guò)的東西、總是會(huì)給你不期而遇的痛擊
請(qǐng)保護(hù)現(xiàn)場(chǎng)、讓變更有回頭的機(jī)會(huì)
㈡對(duì)破壞性的操作謹(jǐn)慎小心
什么是破壞性的操作哩?比如:
對(duì)Oracle而言:truncatetable_name、deletetable_name、droptable_name
這些語(yǔ)句執(zhí)行起來(lái)輕松簡(jiǎn)單也愜意極了、但記。〖幢銛(shù)據(jù)可被回滾、代價(jià)也是非常大!
對(duì)Linux而言:rm-r所有當(dāng)前及其子目錄的所有數(shù)據(jù)都將被
變更要能回滾、先在同樣的環(huán)境測(cè)試過(guò)刪除
經(jīng)歷過(guò)這種故障的人、大多會(huì)給rm上個(gè)別名aliasrm="rm-i"
同理、cp和mv也可以有同樣的選項(xiàng):aliascp="cp-i"aliasmv="mv-i"㈢
在操作之前、先理清你所在的是主庫(kù)、備庫(kù)?當(dāng)前目錄?哪個(gè)schema?session?時(shí)間?比如:
對(duì)Oracle來(lái)講:
[plain]viewplaincopyprint?
1.idle>setsqlprompt"RAC-node1-primary@10g>>"2.RAC-node1-primary@10g>>
設(shè)置好命令提示
當(dāng)然、你也可以在glogin.sql里面設(shè)置
對(duì)于Linux而言、bash環(huán)境的提醒可設(shè)置PS1來(lái)知道當(dāng)前目錄、登陸用戶(hù)名和主機(jī)信息等
對(duì)PS1更多理解、請(qǐng)見(jiàn):manPS1
㈣備份并驗(yàn)證備份的有效性人非圣賢、豈能無(wú)過(guò)?是機(jī)器總有計(jì)劃內(nèi)或計(jì)劃外崩潰的一天怎么辦?備份。!
備份的學(xué)問(wèn)很大、按照不同的維度可以分:冷備和熱備;實(shí)時(shí)和非實(shí)時(shí);物理和邏輯
OLTP7*24在線(xiàn)業(yè)務(wù)、DB就需要有實(shí)時(shí)熱備這樣就可以了嗎?
如果開(kāi)發(fā)人員的一個(gè)不帶任何條件的delete誤刪所有數(shù)據(jù)所以、此時(shí)你除了實(shí)時(shí)、還需要有非實(shí)時(shí)的備份、把DB從邏輯錯(cuò)誤中恢復(fù)出來(lái)
備份有了、可以高忱無(wú)憂(yōu)了嗎?不行!尚須驗(yàn)證備份的有效性
一個(gè)總有那么幾次、備份無(wú)法保證100%恢復(fù)簡(jiǎn)單的驗(yàn)證就是找個(gè)空庫(kù)、恢復(fù)出來(lái)
㈤對(duì)生產(chǎn)環(huán)境永保敬畏之心
會(huì)計(jì)人員在從業(yè)之前、都有個(gè)職業(yè)操守的訓(xùn)練
同理、這也應(yīng)該是運(yùn)維人員進(jìn)入行業(yè)首先需要具備的素養(yǎng)比如:
于Oracle而言、你可以跑一個(gè)RDA巡檢DB的健康狀況于Linux而言、是否有passwordaging、隔離外網(wǎng)等
㈥交接和休假最容易出故障、變更請(qǐng)謹(jǐn)慎
接手別人的工作要一而再,再而三的確認(rèn)變更方案。請(qǐng)教人并不見(jiàn)得就是能力不行的表現(xiàn)
休假前最好各種可以做好的事情,最好能夠準(zhǔn)備一份文檔,指明在什么情況下怎么做和聯(lián)系哪些人
在別人放假的時(shí)候接手工作,“能拖則拖”,實(shí)在需要執(zhí)行:必須不厭其煩的跟原運(yùn)維者確認(rèn)各個(gè)操作細(xì)節(jié)㈦
搭建報(bào)警、及時(shí)獲取出錯(cuò)信息;搭建性能監(jiān)控、
預(yù)測(cè)趨勢(shì)
運(yùn)維人員賴(lài)于生存的工具就是報(bào)警和監(jiān)控
報(bào)警可以讓你及時(shí)知道系統(tǒng)出現(xiàn)了什么異常、以便及時(shí)跟進(jìn)、把故障扼殺于搖籃
監(jiān)控可以讓你了解系統(tǒng)的歷史性能信息、以歷為鑒、可以知興替嘛、早做優(yōu)化
報(bào)警和優(yōu)化是衣寬帶水的好兄弟、相鋪相成、互相促進(jìn)
㈧自動(dòng)卻換需謹(jǐn)慎
比如、Oracle存儲(chǔ)級(jí)的HA方案:DataGuard主庫(kù)提交了一筆訂單、結(jié)果發(fā)生了switchover、這筆訂單沒(méi)有同步到備庫(kù)
那么、賣(mài)家損失了一個(gè)銷(xiāo)售單、對(duì)客戶(hù)、對(duì)公司都是損失
㈨仔細(xì)一點(diǎn),偏執(zhí)一點(diǎn),檢查,檢查,再檢查
有這么一個(gè)人:
①他在做一個(gè)變更的時(shí)候,會(huì)先提前一兩周發(fā)送郵件并電話(huà)手機(jī)通知相關(guān)人
②在測(cè)試機(jī)上寫(xiě)好腳本,召集大家review操作步驟和腳本③測(cè)試完成以后拷貝到生產(chǎn)環(huán)境
④登錄對(duì)應(yīng)機(jī)器,“打開(kāi),關(guān)閉,打開(kāi),關(guān)閉”該腳本
⑤跟相關(guān)人員再次確認(rèn)執(zhí)行的操作,順序,時(shí)間點(diǎn),可能的影響和回滾是否都準(zhǔn)備好了
⑥執(zhí)行前還要退出這個(gè)機(jī)器,然后再登錄進(jìn)去,“打開(kāi),關(guān)閉”腳本
⑦最后才在后臺(tái)運(yùn)行腳本,同時(shí)在另外一個(gè)窗口登錄著,隨時(shí)ps和查看結(jié)果輸出
期間姿勢(shì)端正,呼吸急促而均勻,眼神凝重。操作的人不覺(jué)得累,倒是一邊學(xué)習(xí)的人很累㈩簡(jiǎn)單即是美
這有點(diǎn)禪的意境、和GNU/Linux的思想不謀而合我們總是面臨各種誘惑:
新的系統(tǒng)架構(gòu),新的更智能的命令和工具,最新的硬件平臺(tái),功能更全的HA軟件...等
你可以在線(xiàn)下安裝,測(cè)試,怎么搞都行。但是如果想要在生產(chǎn)環(huán)境下使用起來(lái)、請(qǐng)三思!!
能夠使用系統(tǒng)內(nèi)置命令的話(huà),就不用考慮其他要專(zhuān)門(mén)下載安裝的軟件了
腳本本身就能完成的功能,就沒(méi)有必要專(zhuān)門(mén)找一個(gè)功能豐富的軟件來(lái)做
linux本身自帶的字符界面比那些復(fù)雜的圖形界面要簡(jiǎn)潔方便............
友情提示:本文中關(guān)于《逃離故障的十條運(yùn)維工作經(jīng)驗(yàn)總結(jié)》給出的范例僅供您參考拓展思維使用,逃離故障的十條運(yùn)維工作經(jīng)驗(yàn)總結(jié):該篇文章建議您自主創(chuàng)作。
來(lái)源:網(wǎng)絡(luò)整理 免責(zé)聲明:本文僅限學(xué)習(xí)分享,如產(chǎn)生版權(quán)問(wèn)題,請(qǐng)聯(lián)系我們及時(shí)刪除。