運維行業 IT 工(gōng)程師分類
1、辦公網MIS工(gōng)程師
2、機房IDC支持工(gōng)程師
3、系統工(gōng)程師
4、應用(yòng)運維工(gōng)作(zuò)師
5、網絡工(gōng)程師
6、安全工(gōng)程師
7、DB工(gōng)程師
8、大(dà)數據工(gōng)程師
9、SRE工(gōng)程師
10、運維開(kāi)發工(gōng)程師
11、虛拟化工(gōng)程師(KVM、Docker、k8s、Openstack等)
12、機房弱電工(gōng)程師等等
運維工(gōng)程師職責
運維工(gōng)程師的職責,就是領導安排你(nǐ)的任務,能(néng)夠按時(shí)完成,不能(néng)給領導找麻煩,并且領導還會(huì)要求你(nǐ)負責的服務要保證4個9或者5個9,那麽這(zhè)裏服務的提供商指的是誰?其實就是我們運維同學、沒有其他(tā)人,就是在我們提供的服務與用(yòng)戶(RD、QA、或者外(wài)部用(yòng)戶等)之間定義的一種雙方認可的協定,一旦協定達成、目标确認後直接挂勾你(nǐ)的KPI,當然有些(xiē)工(gōng)種,不太适合使用(yòng)SLA來(lái)定義,但(dàn)大(dà)部分運維工(gōng)作(zuò)都适用(yòng)SLA,爲了(le)完成KPI,你(nǐ)就會(huì)主動的提升服務可用(yòng)性、穩定性、爲部門(mén)減少成本、提高(gāo)工(gōng)作(zuò)效率,今天簡單介紹下(xià)運維工(gōng)程師的行爲準則。
1年 = 365天 = 8760小(xiǎo)時(shí)
99.9 = 8760 * 0.1% = 8.76小(xiǎo)時(shí)
99.99 = 8760 * 0.01% = 52.6分鐘(zhōng)
99.999 = 8760 * 0.001% = 5.26分鐘(zhōng)
這(zhè)裏說明(míng)一下(xià),一定不要再沒有數據支撐的情況下(xià),向領導承諾4個9或者5個9,切忌!!要用(yòng)數據說話(huà),說過就要做到(dào)。
穩定性
1、敬畏之心
(1)操作(zuò)之前能(néng)備份的,一定要備份,不要省略,往往它能(néng)快(kuài)速救你(nǐ)一命;
(2)線上(shàng)操作(zuò)必須得到(dào)授權,并在測試環境驗證過,或者有多數人共同決策後操作(zuò),别自(zì)做主張;
(3)能(néng)用(yòng)工(gōng)具操作(zuò)的事(shì)情,别手動上(shàng)去敲所謂高(gāo)大(dà)上(shàng)的命令,能(néng)提前寫成腳本操作(zuò)的、不要手動操作(zuò);
(4)對(duì)線上(shàng)有影響的操作(zuò),需要評估流量低(dī)峰時(shí)間段、錯開(kāi)流量高(gāo)峰(前提得到(dào)授權、腳本準備、回退步驟、驗證腳本等等);
(5)未加基礎報(bào)警前,請(qǐng)不要上(shàng)線,一定要報(bào)警先用(yòng)業務上(shàng)線;
(6)做爲運維工(gōng)程師對(duì)報(bào)警系統的敬畏之心,早上(shàng)的例行巡檢,對(duì)曆史故障歸納總結等;
線上(shàng)事(shì)故基本上(shàng)都源于以上(shàng)幾條,大(dà)部分故障都源于未經授權、未在測試環境驗證、RD所謂的免測、運維人員的自(zì)信、報(bào)警無人關注等導緻人爲事(shì)故;
2、故障
(1)故障發生,優先恢複業務,而不是在哪裏定位問題;
(2)對(duì)棘手故障需要有故障升級通道(dào),由 Leader 協調一切可利用(yòng)資源;
(3)運維工(gōng)程師按流程操作(zuò)導緻的故障,不記錄該員工(gōng)KPI考核中,記錄在Leader KPI考核中,推進流程整改;
(4)沒有按流程操作(zuò)、導緻線上(shàng)重大(dà)故障的,記錄在該工(gōng)程師與 Leader KPI 考核中,共同對(duì)故障負責;
故障不可怕、怕相同故障多次發生,不以發生故障爲恥、而爲發生相同故障爲恥;
3、故障casestudy
(1)故障發生渠道(dào)、發現(xiàn)時(shí)間點、參與人、故障定位過程、解決過程、故障根因分析,是否需要形成應急預案;
(2)故障是臨時(shí)解決,還是永久解決、現(xiàn)有環境中是否有類似隐患;
(3)臨時(shí)解決的需要給出整改計(jì)劃,整改計(jì)劃中需要設置跟進人員(PMO)、驗收人員(Leader);
很(hěn)多公司的casestudy都流于形式,并沒有切實執行落地,所以需要增加 Leader 驗收,下(xià)次再有類似故障,Leader全責。
4、變更
(1)配置代碼必須遵循藍綠發布原則,測試環境确認無問題後,再上(shàng)線;
(2)備份的重要性、回滾機制的建立;
(3)操作(zuò)步驟命令或者工(gōng)具化、而不是模棱兩可的文(wén)字描述;
(4)QA 自(zì)動化測試用(yòng)例、變更失敗後的回滾機制等;
故障的發生70%以上(shàng)是變更造成的,對(duì)變更要有敬畏之心。
5、輪值
(1)運維人員在輪值期間、一定要保證7*24小(xiǎo)時(shí)待命和(hé)報(bào)警的随時(shí)響應,電腦(nǎo)和(hé)網絡随時(shí)可用(yòng),缺一不可;
(2)值班期間做好(hǎo)故障處理(lǐ)、日常工(gōng)作(zuò)進度記錄,故障用(yòng)于後續分析,工(gōng)作(zuò)進度用(yòng)于把未處理(lǐ)完成的事(shì)務交接給下(xià)一周期值班人跟進;
(3)當值過程中出現(xiàn)棘手故障,不能(néng)簡單交接下(xià)一值班人,需要根據實際情況确認是否有當值人員處理(lǐ)完後,再下(xià)班;
(4)需要把輪值期間發現(xiàn)的故障問題,定期組織輪值人員進行學習。
沒有參與過輪值的運維工(gōng)程師,是另人羨慕的。
6、業務交接
(1)沒有完整交接文(wén)檔的業務不要接手,接手之後沒有完全弄明(míng)白(bái)前,不要說交接完成;
(2)業務接手後,需要根據實際情況進行故障演練,确保有可能(néng)的故障點;
(3)尤其是離職人員的業務交接,更需要認真負責、簽字,一旦簽字,你(nǐ)要承擔起所有責任,KPI 中需要有明(míng)确關于業務交接的獎懲措施;
部分公司業務交接基本流于形式,沒有認真履行職責。
安全意識
安全是運維工(gōng)作(zuò)開(kāi)展的前提和(hé)必要條件,有同行描述這(zhè)是一種唇亡齒寒的關系,實爲貼切。安全上(shàng)出了(le)問題,造成的影響以及後續的修複工(gōng)作(zuò)都将有運維來(lái)承擔,公司到(dào)了(le)一定規模都會(huì)将安全和(hé)運維劃分爲兩個獨立團隊,這(zhè)樣做事(shì)更專注,也(yě)容易做好(hǎo)。
1、切忌安全無小(xiǎo)事(shì)原則,任何一個安全小(xiǎo)事(shì),都有可能(néng)造成不可挽回的局面;
2、運維工(gōng)程師應該主動配合安全部門(mén)整改、配合完成各種策略、雖然有的時(shí)候感覺這(zhè)種策略會(huì)造成一些(xiē)不必要的時(shí)間,如果站(zhàn)在安全的角度,其實是很(hěn)有必要的。
效率和(hé)成本意識
1、有效率優化意識,瑣事(shì)不可避免,但(dàn)要盡可能(néng)減少瑣事(shì),對(duì)重複性、手工(gōng)性的操作(zuò)能(néng)夠工(gōng)具化的,必須開(kāi)發一些(xiē)自(zì)動化工(gōng)具;
2、由手動操作(zuò)到(dào)腳本工(gōng)具、到(dào)平台工(gōng)具、到(dào)産品,這(zhè)樣即能(néng)提高(gāo)效率、降低(dī)成本;
3、節約資源也(yě)是減少成本的重要體現(xiàn),雖然決定不了(le)産品營收多少,但(dàn)可以通過資源整合、彈性伸縮、服務混合部署、架構優化、無流量服務主動下(xià)線等手段将有限資源最大(dà)化利用(yòng),節省基礎設施資源成本,同時(shí),通過效率的提升也(yě)可以優化人力資源成本。