逃離故障的十條運維工作經(jīng)驗總結(jié)
逃離故障的十條運維工作經(jīng)驗總結(jié)
故障、于DBA、于運維人員都是心中永遠的痛、而避免故障的原
則卻是殊途同歸
現(xiàn)列如下、與君共勉㈠
佛說:每次創(chuàng)傷、都是一次成熟、這便是運維人員的真實寫照從某種意義上講、運維是一門經(jīng)驗的學科、是一門試錯的學科
沒有做過的東西、總是會給你不期而遇的痛擊
請保護現(xiàn)場、讓變更有回頭的機會
㈡對破壞性的操作謹慎小心
什么是破壞性的操作哩?比如:
對Oracle而言:truncatetable_name、deletetable_name、droptable_name
這些語句執(zhí)行起來輕松簡單也愜意極了、但記!即便數(shù)據(jù)可被回滾、代價也是非常大!
對Linux而言:rm-r所有當前及其子目錄的所有數(shù)據(jù)都將被
變更要能回滾、先在同樣的環(huán)境測試過刪除
經(jīng)歷過這種故障的人、大多會給rm上個別名aliasrm="rm-i"
同理、cp和mv也可以有同樣的選項:aliascp="cp-i"aliasmv="mv-i"㈢
在操作之前、先理清你所在的是主庫、備庫?當前目錄?哪個schema?session?時間?比如:
對Oracle來講:
[plain]viewplaincopyprint?
1.idle>setsqlprompt"RAC-node1-primary@10g>>"2.RAC-node1-primary@10g>>
設置好命令提示
當然、你也可以在glogin.sql里面設置
對于Linux而言、bash環(huán)境的提醒可設置PS1來知道當前目錄、登陸用戶名和主機信息等
對PS1更多理解、請見:manPS1
㈣備份并驗證備份的有效性人非圣賢、豈能無過?是機器總有計劃內(nèi)或計劃外崩潰的一天怎么辦?備份。!
備份的學問很大、按照不同的維度可以分:冷備和熱備;實時和非實時;物理和邏輯
OLTP7*24在線業(yè)務、DB就需要有實時熱備這樣就可以了嗎?
如果開發(fā)人員的一個不帶任何條件的delete誤刪所有數(shù)據(jù)所以、此時你除了實時、還需要有非實時的備份、把DB從邏輯錯誤中恢復出來
備份有了、可以高忱無憂了嗎?不行!尚須驗證備份的有效性
一個總有那么幾次、備份無法保證100%恢復簡單的驗證就是找個空庫、恢復出來
㈤對生產(chǎn)環(huán)境永保敬畏之心
會計人員在從業(yè)之前、都有個職業(yè)操守的訓練
同理、這也應該是運維人員進入行業(yè)首先需要具備的素養(yǎng)比如:
于Oracle而言、你可以跑一個RDA巡檢DB的健康狀況于Linux而言、是否有passwordaging、隔離外網(wǎng)等
㈥交接和休假最容易出故障、變更請謹慎
接手別人的工作要一而再,再而三的確認變更方案。請教人并不見得就是能力不行的表現(xiàn)
休假前最好各種可以做好的事情,最好能夠準備一份文檔,指明在什么情況下怎么做和聯(lián)系哪些人
在別人放假的時候接手工作,“能拖則拖”,實在需要執(zhí)行:必須不厭其煩的跟原運維者確認各個操作細節(jié)㈦
搭建報警、及時獲取出錯信息;搭建性能監(jiān)控、
預測趨勢
運維人員賴于生存的工具就是報警和監(jiān)控
報警可以讓你及時知道系統(tǒng)出現(xiàn)了什么異常、以便及時跟進、把故障扼殺于搖籃
監(jiān)控可以讓你了解系統(tǒng)的歷史性能信息、以歷為鑒、可以知興替嘛、早做優(yōu)化
報警和優(yōu)化是衣寬帶水的好兄弟、相鋪相成、互相促進
㈧自動卻換需謹慎
比如、Oracle存儲級的HA方案:DataGuard主庫提交了一筆訂單、結(jié)果發(fā)生了switchover、這筆訂單沒有同步到備庫
那么、賣家損失了一個銷售單、對客戶、對公司都是損失
㈨仔細一點,偏執(zhí)一點,檢查,檢查,再檢查
有這么一個人:
①他在做一個變更的時候,會先提前一兩周發(fā)送郵件并電話手機通知相關(guān)人
②在測試機上寫好腳本,召集大家review操作步驟和腳本③測試完成以后拷貝到生產(chǎn)環(huán)境
④登錄對應機器,“打開,關(guān)閉,打開,關(guān)閉”該腳本
⑤跟相關(guān)人員再次確認執(zhí)行的操作,順序,時間點,可能的影響和回滾是否都準備好了
⑥執(zhí)行前還要退出這個機器,然后再登錄進去,“打開,關(guān)閉”腳本
⑦最后才在后臺運行腳本,同時在另外一個窗口登錄著,隨時ps和查看結(jié)果輸出
期間姿勢端正,呼吸急促而均勻,眼神凝重。操作的人不覺得累,倒是一邊學習的人很累㈩簡單即是美
這有點禪的意境、和GNU/Linux的思想不謀而合我們總是面臨各種誘惑:
新的系統(tǒng)架構(gòu),新的更智能的命令和工具,最新的硬件平臺,功能更全的HA軟件...等
你可以在線下安裝,測試,怎么搞都行。但是如果想要在生產(chǎn)環(huán)境下使用起來、請三思!!
能夠使用系統(tǒng)內(nèi)置命令的話,就不用考慮其他要專門下載安裝的軟件了
腳本本身就能完成的功能,就沒有必要專門找一個功能豐富的軟件來做
linux本身自帶的字符界面比那些復雜的圖形界面要簡潔方便............
友情提示:本文中關(guān)于《逃離故障的十條運維工作經(jīng)驗總結(jié)》給出的范例僅供您參考拓展思維使用,逃離故障的十條運維工作經(jīng)驗總結(jié):該篇文章建議您自主創(chuàng)作。
來源:網(wǎng)絡整理 免責聲明:本文僅限學習分享,如產(chǎn)生版權(quán)問題,請聯(lián)系我們及時刪除。