如何有效進(jìn)行IT運維管理
如何有效進(jìn)行IT運維管理
導(dǎo)讀:信息化程度的提高使得IT部門在企業(yè)中不可或缺,但因為運維管理跟不上,IT
人員成了企業(yè)中最忙碌的人,繁重的運維負(fù)擔(dān)讓他們疲于奔命,不堪重負(fù)。本文和大家分享一下自己在IT運維管理方面的思考和經(jīng)驗。
因為工作原因筆者經(jīng)常和企業(yè)IT人員打交道,所見所聞中對他們的日常工作應(yīng)該說非常了解。信息化程度的提高使得IT部門在企業(yè)中不可或缺,但因為運維管理跟不上,IT人員成了企業(yè)中最忙碌的人,繁重的運維負(fù)擔(dān)讓他們疲于奔命,不堪重負(fù)。本文和大家分享一下自己在IT運維管理方面的思考和經(jīng)驗,希望能夠幫助到你。
1、一個真實的案例
作為某知名物流企業(yè)的CIO,劉總負(fù)責(zé)整個公司的IT服務(wù)管理工作。筆者經(jīng)?吹剿刻烀Φ脛⒖倛F(tuán)團(tuán)轉(zhuǎn),甚至連杯水都來不及喝,但還總是被種種問題困擾,節(jié)假日還得加班。就這樣,老總經(jīng)常會接到業(yè)務(wù)部門的投訴:我們的業(yè)務(wù)員明明將遠(yuǎn)程配送業(yè)務(wù)系統(tǒng)問題報障給了網(wǎng)絡(luò)部。但他們就是推托說網(wǎng)絡(luò)一切正常不是他們的問題,讓我們找系統(tǒng)部。而系統(tǒng)又說是應(yīng)用的問題,讓我們找應(yīng)用部,應(yīng)用部說需要設(shè)備部先更換硬件才能升級應(yīng)用程序。我們只好找到了設(shè)備部,設(shè)備部又說需要網(wǎng)絡(luò)和系統(tǒng)的配合才能更換配件。就這樣我們的問題轉(zhuǎn)了半天沒得到解決,耽誤了送貨時間,用戶要求賠償。2、IT運維管理勢在必行
上面的案例應(yīng)該說非常普遍,也非常值得我們思考。在業(yè)務(wù)應(yīng)用日趨細(xì)分化、復(fù)雜化的今天。IT建設(shè)的迅猛發(fā)展,政府機(jī)關(guān)、企事業(yè)單位、學(xué)校等,幾乎都全部依托于IT環(huán)境進(jìn)行日常辦公管理和業(yè)務(wù)管理。人員和業(yè)務(wù)流程對于網(wǎng)絡(luò)及IT設(shè)備的依賴度也提高到不可或缺的地步。網(wǎng)絡(luò)的運維與單位的持續(xù)發(fā)展緊密相關(guān),稍有不慎就可能會令單位蒙受巨大的損失。因此,IT系統(tǒng)運行的穩(wěn)定性和健壯性對單位來說,將顯得特別重要。特別是對于一些大中型單位,IT設(shè)備和信息系統(tǒng)多而復(fù)雜,單靠人工管理它們的運行和維護(hù)情況己不可能。這樣就需要一套切合實際的IT運維管理系統(tǒng)來輔助單位信息中心或信息服務(wù)部門進(jìn)行自動化管理。
3、IT運維中的不良習(xí)慣
下面筆者結(jié)合自己的見聞和經(jīng)歷,就我們的IT人員在運維中的不良習(xí)慣進(jìn)行一些有益的總結(jié),以供大家杜絕。
(1).治標(biāo)不治本。IT設(shè)施故障往往是突發(fā)的、隨機(jī)的、不可預(yù)測、不可控制的。也很難自動提醒和警告。運維和管理人員成天處于高度緊張狀況,節(jié)假日也提心吊膽。一旦發(fā)生故障,往往手忙腳亂來不及仔細(xì)多方面觀察、分析原因,也無法很快準(zhǔn)確定位。為了盡快恢復(fù)業(yè)務(wù),只能采取重啟、清除等不可回朔操作。這種治標(biāo)不治本的維護(hù)措施,不能根本解決問題,類似現(xiàn)象仍然可能再發(fā)生。
(2).沒有排錯記錄。我們的很多IT人員沒有排錯記錄的習(xí)慣,這樣當(dāng)事后查找原因缺乏當(dāng)時記錄,就算找到點痕跡也缺乏進(jìn)一步分析數(shù)據(jù)。因為故障不能再現(xiàn),很難有準(zhǔn)備地捕捉有效信息。而要在生產(chǎn)環(huán)境模擬故障業(yè)務(wù)幾乎不允許。開發(fā)環(huán)境又很難模擬和再現(xiàn)。少量片面的系統(tǒng)日志很難看出問題癥結(jié),缺乏自動實時捕捉問題關(guān)鍵點并忠實記錄工具。造成問題發(fā)生后無法回朔,問題解決無法找到頭緒。
(3).缺乏統(tǒng)一的規(guī)范要求。出現(xiàn)同題時解決辦法因人而異,缺乏方法和工具,無法制定統(tǒng)一的規(guī)范要求。在專家解決問題的經(jīng)驗缺乏記錄、整理、積累和繼承。從保障穩(wěn)定看,必須高價保持足夠?qū)I(yè)運維人員。工作安排松了不利于人員發(fā)展和穩(wěn)定,但安排太緊又無法保證及時響應(yīng)和解決問題。
(4).應(yīng)對危機(jī)太被動。對反映的問題和解決狀況缺乏統(tǒng)一管理和跟蹤,全靠個人素質(zhì)和責(zé)任感。無法衡量、統(tǒng)計員工的業(yè)績貢獻(xiàn),也無法發(fā)現(xiàn)哪些問題最影響系統(tǒng)穩(wěn)定。造成問題的因素是在積累還是在減弱,更缺少預(yù)警提醒機(jī)制。只能被動無序地等問題發(fā)生甚至很嚴(yán)重了才意識到。
4、IT運維管理的內(nèi)容
筆者理解,IT運維管理是指單位IT部門采用相關(guān)的方法、手段、技術(shù)、制度、流程和文檔等,對IT運行環(huán)境(如硬軟件環(huán)境、網(wǎng)絡(luò)環(huán)境等)、IT業(yè)務(wù)系統(tǒng)和IT運維人員進(jìn)行的綜合管理。如果進(jìn)行細(xì)分的話,應(yīng)該包括以下幾個方面:
(1).設(shè)備管理:對網(wǎng)絡(luò)設(shè)備、服務(wù)器設(shè)備、操作系統(tǒng)運行狀況進(jìn)行監(jiān)控和管理;
(2).應(yīng)用/服務(wù)管理:對各種應(yīng)用支持軟件如數(shù)據(jù)庫、中間件、群件以及各種通用或特定服務(wù)的監(jiān)控管理。如郵件系統(tǒng)、DNS、Web等的監(jiān)控與管理;
(3).數(shù)據(jù)/存儲/容災(zāi)管理:對系統(tǒng)和業(yè)務(wù)數(shù)據(jù)進(jìn)行統(tǒng)一存儲、備份和恢復(fù);
(4).業(yè)務(wù)管理:包含對企業(yè)自身核心業(yè)務(wù)系統(tǒng)運行情況的監(jiān)控與管理和對于業(yè)務(wù)的管理;
(5).目錄/內(nèi)容管理:該部分主要對于企業(yè)需要統(tǒng)一發(fā)布或因人定制的內(nèi)容管理和對公共信息的管理:
(6).資源資產(chǎn)管理:管理企業(yè)中各IT系統(tǒng)的資源資產(chǎn)情況;
(7).信息安全管理:企業(yè)安全組織方式、資產(chǎn)分類與控制、人員安全、物理與環(huán)境安全、通信與運營安全、訪問控制、業(yè)務(wù)連續(xù)性管理等;
(8).日常工作管理:該部分主要用于規(guī)范和明確運維人員的崗位職責(zé)和工作安排、提供績效考核量化依據(jù)、提供解決經(jīng)驗與知識的積累與共享手段。
5、IT運維管理方案
在以上內(nèi)容的基礎(chǔ)上,筆者提供一套IT運維管理的解決方案,以供大家借鑒。
(1).建立IT運維管理服務(wù)平臺
IT運維管理服務(wù)平臺幫助IT部門內(nèi)部各專業(yè)部門以單點聯(lián)系窗口的形式對外服務(wù),業(yè)務(wù)部門不必了解IT部門內(nèi)部的運作流程。只需將故障報告給IT部門服務(wù)窗口的一線服務(wù)臺人員即可。由一線支持人員對故障進(jìn)行分類以電子工單方式派發(fā)到相關(guān)的專業(yè)部門或相關(guān)人員處進(jìn)行及時處理和響應(yīng),并向用戶及時進(jìn)行反饋。用戶對不同專業(yè)部分的咨詢、問題和投訴都通過該窗口進(jìn)行,以避免用戶與各級支持人員直接聯(lián)系帶來的種種弊病。如出現(xiàn)不同問題找不同支持人員、找不到人、問題得不到及時反饋和解決等等現(xiàn)象。
(2).實現(xiàn)IT監(jiān)控和統(tǒng)一展現(xiàn)
面向業(yè)務(wù)監(jiān)控和統(tǒng)一展現(xiàn)能夠評估各種IT基礎(chǔ)設(shè)施和服務(wù)在設(shè)定的某個時段是否發(fā)揮其應(yīng)有的功能,同時實現(xiàn)對網(wǎng)絡(luò)、系統(tǒng)及應(yīng)用服務(wù)等全方位監(jiān)控的統(tǒng)一呈現(xiàn)。統(tǒng)一告警平臺匯總、壓縮和關(guān)聯(lián)各種設(shè)備或服務(wù)的告警信息,實現(xiàn)統(tǒng)一監(jiān)控和展現(xiàn)。這樣,各專業(yè)部門可以協(xié)同作戰(zhàn)發(fā)揮更大的作用。
(3).構(gòu)建科學(xué)、規(guī)范的服務(wù)流程管理
根據(jù)企業(yè)的實際組織架構(gòu),把故障支持劃分不同的類型和等級,形成梯隊化的故障處理流程,避免出現(xiàn)資源浪費。并且在每個級別的故障事件處理中,通過自動跟蹤機(jī)制實現(xiàn)故障的自動跳轉(zhuǎn)和升級,從而確保不同緊急程度的故障得到及時的響應(yīng)和處理,幫助企業(yè)建立起一套科學(xué)規(guī)范的1T服務(wù)管理流程。企業(yè)環(huán)境下首次或者突發(fā)出現(xiàn)的事件、告警或故障通過事件工單進(jìn)行處理;而對于多次出現(xiàn)、深層次、臨時恢復(fù)的告警事件,可通過問題管理進(jìn)行解決,以便于協(xié)調(diào)優(yōu)勢資源攻關(guān)和徹底解決。通過層次化、標(biāo)準(zhǔn)化、科學(xué)化的管理,量化的評估每個技術(shù)人員的工作能力,減少了故障對業(yè)務(wù)的影響,避免出現(xiàn)責(zé)任不明晰,響應(yīng)不及時的問題,提高客戶和用資源的使用更加合理。
(4).實施嚴(yán)謹(jǐn)、高效的變更審批流程
為基礎(chǔ)設(shè)施的變更提供快速的電子通道,減少變更過程中出現(xiàn)管理失控的風(fēng)險和不必要的人為干擾,縮短審批時間,提高變更實施的效率。嚴(yán)謹(jǐn)?shù)淖兏芾泶_保在變更實施過程中使用標(biāo)準(zhǔn)化的方法和流程,盡快和有效地實施變更,從而把由于變更所導(dǎo)致的事件對IT服務(wù)的影響減小到最低,同時改善了公司的日常運作。它包括一套完整的變更管理功能,包括變更的發(fā)起、審批、影響評估、派發(fā)實施等功能。以工單的形式在各部門和責(zé)任人之間流轉(zhuǎn)。
(5).IT資產(chǎn)配置完善管理
為企業(yè)建立完善的配置基線,為企業(yè)建立一套詳實的配置管理數(shù)據(jù)庫,小到主機(jī)內(nèi)存、設(shè)備端口,大到網(wǎng)絡(luò)結(jié)構(gòu)、部門或公司的建制,從有形的資產(chǎn)到無形的應(yīng)用系統(tǒng)、人力資源等都能以電子方式準(zhǔn)確記錄并長期保存。同時,資產(chǎn)配置管理與服務(wù)的事件、問題和變更流程相關(guān)聯(lián)。如變更流程審批完成之后增減的資產(chǎn)配置信息,將自動在資產(chǎn)配置管理數(shù)據(jù)庫中實現(xiàn)同步更新。
對IT運維實施有效管理,不僅能夠解放IT人員提高其工作效率,而且也是對企業(yè)業(yè)務(wù)部門的有力支持。最后,希望筆者的經(jīng)驗和案例對朋友們加強(qiáng)IT運維管理有所幫助。
擴(kuò)展閱讀:如何做好IT運維管理
近段時間,由于公司部門人員調(diào)整,壓縮人力成本,IT部門首當(dāng)其中,本來人手就緊張,現(xiàn)在還壓縮人員編制,想來這運維的工作接下來怎么做?如何去做?如何做到運維工作高效快捷。!
很多企業(yè)在招聘過程中,由于運維人員的要求相對高點,涉及的技術(shù)層面和理解范圍也有點廣,其次,很多企業(yè)都實施了很多IT系統(tǒng),使到IT運行越來越復(fù)雜,也越來越難管理。人力成本普遍偏高,同時,IT運維成本過高的另一個原因是IT運維大部分都是被動式維護(hù),不能自動化預(yù)警維護(hù),依靠手工流程來管理,不但使到運維效率不高,而且人力成本更是花費驚人,IT運維人員成本偏高。
這些賬目使得一些企業(yè)老板不得不考慮對部門人員精簡壓縮,本來10個人做的時期就給7個人做了,5個人做的事情就給3個人做了,這樣的做法是否能真正做到有效的維護(hù)和管理。
現(xiàn)在大多數(shù)IT運維過程中,IT員工大多數(shù)只是處在被動低效率手工救火的狀態(tài),只有當(dāng)事件已經(jīng)發(fā)生并已造成業(yè)務(wù)影響時才能發(fā)現(xiàn)和著手處理。這種被動“救火”會導(dǎo)致:①.IT運維人員終日忙碌,IT運維人員日常大部分時間和精力是處理一些簡單重復(fù)的問題;②IT運維本身質(zhì)量很難提高;③再加上故障預(yù)警機(jī)制的不完善,往往是故障發(fā)生后或報警后才會進(jìn)行處理,不但事倍功半而且故障還常常會出現(xiàn)惡性連鎖反應(yīng);④IT部門和業(yè)務(wù)部門對IT運維的服務(wù)滿意度都不高。
運維人員每天扮演者“救火員”的身份,但同時也沒有得到相關(guān)部門的肯定,每次月度考核,總是差,這個是為什么列?有朋友可能會說,設(shè)備的問題,咱們能有什么辦法,機(jī)器宕機(jī)了,我們又不沒有及時處理,是的,問題是及時處理了,但是時間過去了,現(xiàn)在是一個高效率的時代,你只要慢別人半拍,那么你就有可能失去這個市場,這個道理最近在看一個電視劇《大時代》體驗到的,雖然帶有夸張的色彩,但是個人覺的并不夸張,你的運維系統(tǒng)總是問題不斷,影響到客戶的體驗和使用,一次兩次別人可以理解你,經(jīng)常這樣你擁有的客戶就會失去,因為每個行業(yè)的競爭都很激烈。
然后咱們在談?wù)勥\維系統(tǒng)的主要管理內(nèi)容:據(jù)我個人所知,運維層面管理主要包括:硬件層面:服務(wù)器、網(wǎng)絡(luò)設(shè)備(路由器、交換機(jī)、防火墻)
軟件層面:操作系統(tǒng)的實時運行狀況監(jiān)控、應(yīng)用軟件的實施和維護(hù)(ERP、CRM、OA)等數(shù)據(jù)應(yīng)用類管理:數(shù)據(jù)庫、中間件(ftp同步傳輸)、郵件系統(tǒng)、web網(wǎng)站、域控AD等存儲/容災(zāi)管理:業(yè)務(wù)支撐系統(tǒng)數(shù)據(jù)備份、存儲設(shè)備的管理和備份以及運行環(huán)境的性能監(jiān)控虛擬化平臺管理:hyper-v、esx等
信息安全:不僅僅是通信與運營層面的安全、病毒防護(hù)、入侵等
這些都是運維人員在被動的情況下實施操作的,在半自動化的運維層面下,很多始料未及的問題就容易暴露出來,然后趕緊將問題抹殺在搖籃中。這樣高度集中的辦事效率能事半功倍么,只會是差強(qiáng)人意。運維管理面臨的這些問題,是否能有效的杜絕?
現(xiàn)在很多廠商提出了IT運維自動化,比如H3C的iMC2.0數(shù)據(jù)中心管理解決方案、卡西亞的IT系統(tǒng)管理平臺等,這些IT運維自動化不但可以有效解決企業(yè)信息化快速發(fā)展所帶來的困擾,減輕運維工作的負(fù)擔(dān),還能幫助企業(yè)IT基架運維實現(xiàn)最佳的管理狀況,讓運維人員隨時掌握企業(yè)系統(tǒng)的運行情況,能對突發(fā)狀況作出主動,快速的反應(yīng),能為企業(yè)設(shè)備及海量的數(shù)據(jù)提供最安全有力的保障。
IT運維自動化雖然方便了維護(hù)和管理,也是未來的一種發(fā)展趨勢,但是安裝部署和實施也是需要時間的,購買軟件的成本價格也不菲,這個價格成本也是很多企業(yè)老板不敢輕易去嘗試的,所以好多事情真的不能想當(dāng)然,產(chǎn)品固然很好,但是不是所有人能用的起。當(dāng)然,不管多么棒的自動化的管理和維護(hù)都離不開運維人員的干預(yù),運維人員雖然在某些情況下減少了壓力,但是維護(hù)的工作依然會是重點,IT運維是一份充滿壓力的工作。但是一旦意識到造成壓力的某些因素,就可以解決大部分的壓力,同時能夠明白這份工作的確是值得的。有眾多方法可以減少與同事的沖突、處理資源缺乏問題和常受干擾的環(huán)境、解決優(yōu)先事項相互沖突的矛盾,以及積極接受這個現(xiàn)實:IT運維人員要對每一個失敗負(fù)責(zé)。
友情提示:本文中關(guān)于《如何有效進(jìn)行IT運維管理》給出的范例僅供您參考拓展思維使用,如何有效進(jìn)行IT運維管理:該篇文章建議您自主創(chuàng)作。
來源:網(wǎng)絡(luò)整理 免責(zé)聲明:本文僅限學(xué)習(xí)分享,如產(chǎn)生版權(quán)問題,請聯(lián)系我們及時刪除。