網絡運維的工(gōng)作(zuò)要内容和(hé)崗位要求
發布時(shí)間:2023-04-30 閱讀: 分享

互聯網運維工(gōng)作(zuò),以服務爲中心,以穩定、安全、高(gāo)效爲三個基本點,确保公司的互聯網業務能(néng)夠 7×24 小(xiǎo)時(shí)爲用(yòng)戶提供高(gāo)質量的服務。

圖片

運維人員對(duì)公司互聯網業務所依賴的基礎設施、基礎服務、線上(shàng)業務進行穩定性加強,進行日常巡檢發現(xiàn)服務可能(néng)存在的隐患,對(duì)整體架構進行優化以屏蔽常見的運行故障,多數據中接入提高(gāo)業務的容災能(néng)力。

通過監控、日志分析等技術手段,及時(shí)發現(xiàn)和(hé)響應服務故障,減少服務中斷的時(shí)間,使公司的互聯網業務符合預期的可用(yòng)性要求,持續穩定地爲用(yòng)戶提供務。

在安全方面,運維人員需要關注業務運行所涉及的各個層面,确保用(yòng)戶能(néng)夠安全、完整地訪問在線業務。

從(cóng)網絡邊界劃分、ACL 管理(lǐ)、流量分析、DDoS 防禦,到(dào)操作(zuò)系統、開(kāi)源軟件的漏洞掃描和(hé)修補,再到(dào)應用(yòng)服務的XSS、SQL注入防護;

從(cóng)安全流程梳、代碼白(bái)盒黑盒掃描、權限審計(jì),到(dào)入侵行爲檢測、業務風(fēng)險控制等。

運維人員需要保障公司提供的互聯網業 運行在安全、可控的狀态下(xià),确保公司業務數據和(hé)用(yòng)戶隐私數據的安全,同時(shí)還需要具備抵禦各種惡意攻擊的能(néng)力。

在确保業務穩定、安全的前提下(xià),還需保障業務高(gāo)效的運轉,公司内快(kuài)速的産出。運維工(gōng)作(zuò)需要對(duì)業務進行各方面優化。

比如,IO 優化提升數據庫性能(néng),圖片壓縮降低(dī)帶寬使用(yòng)量等,提供的互聯網業務以較小(xiǎo)的資源投入帶來(lái)最大(dà)的用(yòng)戶價值和(hé)體驗。

同時(shí),還需要通過各種工(gōng)具平台提升内部産品發布交付的效率,提升公司内運維相關的工(gōng)作(zuò)效率。

工(gōng)作(zuò)分類運維

運維的工(gōng)作(zuò)方向比較多,随着業務規模的不斷發展,越成熟的互聯網公司,運維崗位會(huì)劃分得越細。

當前很(hěn)多大(dà)型的互聯網公司,在初創時(shí)期隻有系統運維,随着服務規模、服務質量的 要求,也(yě)逐漸進行了(le)工(gōng)作(zuò)細分。

一般情況下(xià)運維團隊的工(gōng)作(zuò)分類(見圖1-1)和(hé)職責如下(xià)。

圖片


系統運維

系統運維負責IDC、網絡、CDN和(hé)基礎服務的建設(LVS、NTP、DNS);負責資産管理(lǐ),服務器選型、交付和(hé)維修。詳細的工(gōng)作(zuò)職責如下(xià):

1.IDC數據中心建設

收集業務需求,預估未來(lái)數據中心的發展規模,從(cóng)骨幹網的分布,數據中心建築,以及Internet接入、網絡攻擊防禦能(néng)力、擴容能(néng)力、空(kōng)間預留、外(wài)接專線能(néng)力、現(xiàn)場服務支撐能(néng)力等方面評估選型數據中心。負責數據中心的建設、現(xiàn)場維護工(gōng)作(zuò)。

2.網絡建設

設計(jì)及規劃生産網絡架構,這(zhè)裏面包括:數據中心網絡架構、傳輸網架構、CDN網絡架構等,以及網絡調優等日常運維工(gōng)作(zuò)。

3.LVS 負載均衡和(hé) SNAT 建設

LVS 是整個站(zhàn)點架構中的流量入口,根據網絡規模和(hé)業務需求,構建負載均衡集群。

完成網絡與業務服務器的銜接,提供高(gāo)性能(néng)、高(gāo)可用(yòng)的負載調度能(néng)力,以及統一的網絡層防攻擊能(néng)力。

SNAT .集中提供數據中心的公網訪問服務,通過集群化部署,保證出網服務的高(gāo)性能(néng)與高(gāo)可用(yòng)。

4.CDN 規劃和(hé)建設

CDN 工(gōng)作(zuò)劃分爲第三方和(hé)自(zì)建兩部分。

建立第三方 CDN 的選型和(hé)調度控制;根據業務發展趨勢,規劃CDN新節點建設布局;完善CDN業務及監控,保障CDN 系統穩定、高(gāo)效運行。

分析業務加速頻道(dào)的文(wén)件特性和(hé)數量,制定最優的加速策略和(hé)資源匹配;負責用(yòng)戶劫持等CDN日常故障排查工(gōng)作(zuò)。

5.服務器選型、交付和(hé)維護

負責服務器的測試選型,包含服務器整機、部件的基礎性測試和(hé)業務測試,降低(dī)整機功率,提升機架部署密度等。

結合對(duì)公司業務的了(le)解,推廣新硬件、新方案減少業務的服務器投入規模。負責服務器硬件故障的診斷定位,服務器硬件監控、健康檢查工(gōng)具的開(kāi)發和(hé)維護。

6.OS、内核選型和(hé) OS 相關維護工(gōng)作(zuò)

負責整體平台的 OS 選型、定制和(hé)内核優化,以及 Patch 的更新和(hé)内部版本發布;建立基礎的YUM包管理(lǐ)和(hé)分發中心,提供常用(yòng)包版本庫;跟進日常各類 OS 相關故障;針對(duì)不同的業務類型,提供定向的優化支持。

7.資産管理(lǐ)

記錄和(hé)管理(lǐ)運維相關的基礎物理(lǐ)信息,包括數據中心、網絡、機櫃、服務器、ACL、IP等各種資源信息,制定有效的流程,确保信息的準确性;開(kāi)放(fàng)API接口,爲自(zì)動化運維提供數據支持。

8.基礎服務建設

業務對(duì) DNS、NTP、SYSLOG 等基礎服務的依賴非常高(gāo),需要設計(jì)高(gāo)可用(yòng)架構避免單點,提供穩定的基礎服務。

應用(yòng)運維

應用(yòng)運維負責線上(shàng)服務的變更、服務狀态監控、服務容災和(hé)數據備份等工(gōng)作(zuò),對(duì)服務進行例行排查、故障應急處理(lǐ)等工(gōng)作(zuò)。詳細的工(gōng)作(zuò)職責如下(xià)所述。

1.設計(jì)評審

在産品研發階段,參與産品設計(jì)評審,從(cóng)運維的角度提出評審意見,使服務滿足運維準入的高(gāo)可用(yòng)要求。

2.服務管理(lǐ)

負責制定線上(shàng)業務升級變更及回滾方案,并進行變更實施。掌握所負責的服務及服務間關聯關系、服務依賴的各種資源。能(néng)夠發現(xiàn)服務上(shàng)的缺陷,及時(shí)通報(bào)并推進解決。

制定服務穩定性指标及準入标準,同時(shí)不斷完善和(hé)優化程序和(hé)系統的功能(néng)、效率,提高(gāo)運行質量。完善監控内容,提高(gāo)報(bào)警準确度。

在線上(shàng)服務出現(xiàn)故障時(shí),第一時(shí)間響應,對(duì)已知(zhī)線上(shàng)故障能(néng)按流程進行通報(bào)并按預案執行,未知(zhī)故障組織相關人員聯合排障。

3.資源管理(lǐ)

對(duì)各服務的服務器資産進行管理(lǐ),梳理(lǐ)服務器資源狀況、數據中心分布情況、網絡專線及帶寬情況,能(néng)夠合理(lǐ)使用(yòng)服務器資源,根據不同服務的需求,分配不同配置的服務器,确保服務器資源的充分利用(yòng)。

4.例行檢查

制定服務例行排查點,并不斷完善。根據制定的服務排查點,對(duì)服務進行定期檢查。對(duì)排查過程中發現(xiàn)的問題,及時(shí)進行追查,排除可能(néng)存在的隐患。

5.預案管理(lǐ)

确定服務所需的各項監控、系統指标的阈值或臨界點,以及出現(xiàn)該情況後的處理(lǐ)預案。

建立和(hé)更新服務預案文(wén)檔,并根據日常故障情況不斷補充完善,提高(gāo)預案完備性。能(néng)夠制定和(hé)評審各類預案,周期性進行預案演練,确保預案的可執行性。

6.數據備份

制定數據備份策略,按規範進行數據備份工(gōng)作(zuò)。保證數據備份的可用(yòng)性和(hé)完整性,定期開(kāi)展數據恢複性測試。

數據庫運維

數據庫運維負責數據存儲方案設計(jì)、數據庫表設計(jì)、索引設計(jì)和(hé)SQL優化,對(duì)數據庫進行變更、監控、備份、高(gāo)可用(yòng)設計(jì)等工(gōng)作(zuò)。詳細的工(gōng)作(zuò)職責如下(xià)所述。

1.設計(jì)評審

在産品研發初始階段,參與設計(jì)方案評審,從(cóng)DBA的角度提出數據存儲方案、庫表設計(jì)方案、SQL開(kāi)發标準、索引設計(jì)方案等,使服務滿足數據庫使用(yòng)的高(gāo)可用(yòng)、高(gāo)性能(néng)要求。

2.容量規劃

掌握所負責服務的數據庫的容量上(shàng)限,清楚地了(le)解當前瓶頸點,當服務還未到(dào)達容量上(shàng)限時(shí),及時(shí)進行優化、分拆或者擴容。

3.數據備份與災備

制定數據備份與災備策略,定期完成數據恢複性測試,保證數據備份的可用(yòng)性和(hé)完整性。

4.數據庫監控

完善數據庫存活和(hé)性能(néng)監控,及時(shí)了(le)解數據庫運行狀态及故障。

數據庫安全建設數據庫賬号體系,嚴格控制賬号權限與開(kāi)放(fàng)範圍,降低(dī)誤操作(zuò)和(hé)數據洩露的風(fēng)險;加強離線備份數據的管理(lǐ),降低(dī)數據洩露的風(fēng)險。

5.數據庫高(gāo)可用(yòng)和(hé)性能(néng)優化

對(duì)數據庫單點風(fēng)險和(hé)故障設計(jì)相應的切換方案,降低(dī)故障對(duì)數據庫服務的影響;不斷對(duì)數據庫整體性能(néng)進行優化,包括新存儲方案引進、硬件優化、文(wén)件系統優化、數據庫優化、SQL優化等,在保障成本不增加或者少量增加的情況下(xià),數據庫可以支撐更多的業務請(qǐng)求。

6.自(zì)動化系統建設

設計(jì)開(kāi)發數據庫自(zì)動化運維系統,包括數據庫部署、自(zì)動擴容、分庫分表、權限管理(lǐ)、備份恢複、SQL審核和(hé)上(shàng)線、故障切換等功能(néng)。

7.運維研發

運維研發負責通用(yòng)的運維平台設計(jì)和(hé)研發工(gōng)作(zuò),如:資産管理(lǐ)、監控系統、運維平台、數據權限管理(lǐ)系統等。提供各種API供運維或研發人員使用(yòng),封裝更高(gāo)層的自(zì)動化運維系統。詳細的工(gōng)作(zuò)職責如下(xià)所述。

8.運維平台

記錄和(hé)管理(lǐ)服務及其關聯關系,協助運維人員自(zì)動化、流程化地完成日常運維操作(zuò),包括機器管理(lǐ)、重啓、改名、初始化、域名管理(lǐ)、流量切換和(hé)故障預案實施等。

9.監控系統

負責監控系統的設計(jì)、開(kāi)發工(gōng)作(zuò),完成公司服務器和(hé)各種網絡設備的資源指标、線上(shàng)業務運行指标的收集、告警、存儲、分析、展示和(hé)數據挖掘等工(gōng)作(zuò),持續提高(gāo)告警的及時(shí)性、準确性和(hé)智能(néng)性,促進公司服務器資源的合理(lǐ)化調配。

10.自(zì)動化部署系統

參與部署自(zì)動化系統的開(kāi)發,負責自(zì)動化部署系統所需要的基礎數據和(hé)信息,負責權限管理(lǐ)、API開(kāi)發、Web端開(kāi)發。結合雲計(jì)算(suàn),研發和(hé)提供PaaS相關高(gāo)可用(yòng)平台,進一步提高(gāo)服務的部署速度和(hé)用(yòng)戶體驗,提升資源利用(yòng)率。

運維安全

運維安全負責網絡、系統和(hé)業務等方面的安全加固工(gōng)作(zuò),進行常規的安全掃描、滲透測試,進行安全工(gōng)具和(hé)系統研發以及安全事(shì)件應急處理(lǐ)。詳細的工(gōng)作(zuò)職責如下(xià)所述。

1.安全制度建立

根據公司内部的具體流程,制定切實可行,且行之有效的安全制度。

2.安全培訓

定期向員工(gōng)提供具有針對(duì)性的安全培訓和(hé)考核,在全公司内建立安全負責人制度。

3.風(fēng)險評估

通過黑白(bái)盒測試和(hé)檢查機制,定期産生對(duì)物理(lǐ)網絡、服務器、業務應用(yòng)、用(yòng)戶數據等方面的總體風(fēng)險評估結果。

4.安全建設

根據風(fēng)險評估結果,加固最薄弱的環節,包括設計(jì)安全防線、部署安全設備、及時(shí)更新補丁、防禦病毒、源代碼自(zì)動掃描和(hé)業務産品安全咨詢等。爲了(le)降低(dī)可能(néng)洩露數據的價值,通過加密、匿名化、混淆數據,乃至定期删除等技術手段和(hé)流程來(lái)達到(dào)目的。

5.安全合規

爲了(le)滿足例如支付牌照等合規性要求,安全團隊承擔着安全合規的對(duì)外(wài)接口人工(gōng)作(zuò)。

6.應急響應

建立安全報(bào)警系統,通過安全中心收集第三方發現(xiàn)的安全問題,組織各部門(mén)對(duì)已經發現(xiàn)的安全問題進行修複、影響面評估、事(shì)後安全原因追查。

運維工(gōng)作(zuò)發展過程

早期的運維團隊在人員較少的情況下(xià),主要是進行數據中心建設、基礎網絡建設、服務器采購和(hé)服務器安裝交付工(gōng)作(zuò)。幾乎很(hěn)少涉及線上(shàng)服務的變更、監控、管理(lǐ)等工(gōng)作(zuò)。

這(zhè)個時(shí)候的運維團隊更多的屬于基礎建設的角色,提供一個簡單、可用(yòng)的網絡環境和(hé)系統環境即可。

随着業務産品的逐漸成熟,對(duì)于服務質量方面就有了(le)更高(gāo)的要求。這(zhè)個時(shí)候的運維團隊還會(huì)承擔一些(xiē)服務器監控的工(gōng)作(zuò),同時(shí)會(huì)負責 LVS、Nginx 等與業務邏輯無關的 4/7 層運維工(gōng)作(zuò)。

這(zhè)個時(shí)候服務變更更多的是逐台的手工(gōng)操作(zuò),或者有一些(xiē)簡單批量腳本的出現(xiàn)。監控的焦點更多的在服務器狀态和(hé)資源使用(yòng)情況上(shàng),對(duì)服務應用(yòng)狀态的監控幾乎很(hěn)少,監控更多的使用(yòng)各種開(kāi)源系統如Nagios、Cacti等。

由于業務規模和(hé)複雜(zá)度的持續增加,運維團隊會(huì)逐漸劃分爲應用(yòng)運維和(hé)系統運維兩大(dà)塊。應用(yòng)運維開(kāi)始接手線上(shàng)業務,逐步開(kāi)展服務監控梳理(lǐ)、數據備份以及服務變更的工(gōng)作(zuò)。

随着對(duì)服務的深入,應用(yòng)運維工(gōng)程師有能(néng)力開(kāi)始對(duì)服務進行一些(xiē)簡單的優化。同時(shí),爲了(le)應對(duì)每天大(dà)量的服務變更,我們也(yě)開(kāi)始編寫各類運維工(gōng)具,針對(duì)某些(xiē)特定的服務能(néng)夠很(hěn)方便的批量變更。

随着業務規模的增大(dà),基礎設施由于容量規劃不足或抵禦風(fēng)險能(néng)力較弱導緻的故障也(yě)越來(lái)越多,迫使運維人員開(kāi)始将更多的精力投入到(dào)多數據中心容災、預案管理(lǐ)的方向上(shàng)。

業務規模達到(dào)一定程度後,開(kāi)源的監控系統在性能(néng)和(hé)功能(néng)方面,已經無法滿足業務需求;大(dà)量的服務變更、複雜(zá)的服務關系,以前靠人工(gōng)記錄、工(gōng)具變更的方式不管在效率還是準确性方面也(yě)都無法滿足業務需求。

在安全方面也(yě)出現(xiàn)了(le)各種大(dà)大(dà)小(xiǎo)小(xiǎo)的事(shì)件,迫使我們投入更多的精力在安全防禦上(shàng)。逐漸的,運維團隊形成之前提到(dào)的5個大(dà)的工(gōng)作(zuò)分類,每個分類都需要有專精的人才。

這(zhè)個時(shí)候系統運維更專注于基礎設施的建設和(hé)運維,提供穩定、高(gāo)效的網絡環境,交付服務器等資源給應用(yòng)運維工(gōng)程師。應用(yòng)運維更專注于服務運行狀态和(hé)效率。

數據庫運維屬于應用(yòng)運維工(gōng)作(zuò)的細化,更專注于數據庫領域的自(zì)動化、性能(néng)優化和(hé)安全防禦。運維研發和(hé)運維安全提供各類平台、工(gōng)具,進一步提升運維工(gōng)程師的工(gōng)作(zuò)效率,使業務服務運行得更加穩定、高(gāo)效和(hé)安全。

我們将運維發展過程劃分爲4個階段,如圖1-2所示。

圖片

圖1-2運維發展過程

手工(gōng)管理(lǐ)階段:業務流量不大(dà),服務器數量相對(duì)較少,系統複雜(zá)度不高(gāo)。對(duì)于日常的業務管理(lǐ)操作(zuò),大(dà)家更多的是逐台登錄服務器進行手工(gōng)操作(zuò),屬于各自(zì)爲戰,每個人都有自(zì)己的操作(zuò)方式,缺少必要的操作(zuò)标準、流程機制,比如業務目錄環境都是各式各樣的。

工(gōng)具批量操作(zuò)階段:随着服務器規模、系統複雜(zá)度的增加,全人工(gōng)的操作(zuò)方式已經不能(néng)滿足業務的快(kuài)速發展需要。因此,運維人員逐漸開(kāi)始使用(yòng)批量化的操作(zuò)工(gōng)具,針對(duì)不同操作(zuò)類型出現(xiàn)了(le)不同的腳本程序。

但(dàn)各團隊都有自(zì)己的工(gōng)具,每次操作(zuò)需求發生變化時(shí)都需要調整工(gōng)具。這(zhè)主要是因爲對(duì)于環境、操作(zuò)的規範不夠,導緻可程序化處理(lǐ)能(néng)力較弱。此時(shí),雖然效率提升了(le)一部分,但(dàn)很(hěn)快(kuài)又遇到(dào)了(le)瓶頸。

操作(zuò)的質量并沒有太多的提升,甚至可能(néng)因爲批量執行而導緻更大(dà)規模的問題出現(xiàn)。我們開(kāi)始建立大(dà)量的流程規範,比如複查機制,先上(shàng)線一台服務器觀察10分鐘(zhōng)後再繼續後面的操作(zuò),一次升級完成後至少要觀察20分鐘(zhōng)等。

這(zhè)些(xiē)主要還是靠人來(lái)監督和(hé)執行,但(dàn)在實際過程中執行往往不到(dào)位,反而降低(dī)了(le)工(gōng)作(zuò)效率。

平台管理(lǐ)階段:在這(zhè)個階段,對(duì)于運維效率和(hé)誤操作(zuò)率有了(le)更高(gāo)的要求,我們決定開(kāi)始建設運維平台,通過平台承載标準、流程,進而解放(fàng)人力和(hé)提高(gāo)質量。

這(zhè)個時(shí)候對(duì)服務的變更動作(zuò)進行了(le)抽象,形成了(le)操作(zuò)方法、服務目錄環境、服務運行方式等統一的标準,如程序的啓停接口必須包括啓動、停止、重載等。通過平台來(lái)約束操作(zuò)流程,如上(shàng)面提到(dào)的上(shàng)線一台服務器觀察10分鐘(zhōng)。

在平台中強制設定暫停檢查點,在第一台服務器操作(zuò)完成後,需要運維人員填寫相應的檢查項,然後才可以繼續執行後續的部署動作(zuò)。

系統自(zì)調度階段:更大(dà)規模的服務數量、更複雜(zá)的服務關聯關系、各個運維平台的林(lín)立,原有的将批量操作(zuò)轉化成平台操作(zuò)的方式已經不再适合,需要對(duì)服務變更進行更高(gāo)一層的抽象。

将每一台服務器抽象成一個容器,由調度系統根據資源使用(yòng)情況,将服務調度、部署到(dào)合适的服務器上(shàng),自(zì)動化完成與周邊各個運維系統的聯動,比如監控系統、日志系統、備份系統等。

通過自(zì)調度系統,根據服務運行情況動态伸縮容量,能(néng)夠自(zì)動化處理(lǐ)常見的服務故障。運維人員的工(gōng)作(zuò)也(yě)會(huì)前置到(dào)産品設計(jì)階段,協助研發人員改造服務使其可以接入到(dào)自(zì)調度系統中。

在整個運維的發展過程中,希望所有的工(gōng)作(zuò)都自(zì)動化起來(lái),減少人的重複工(gōng)作(zuò),降低(dī)知(zhī)識傳遞的成本,使我們的運維交付更高(gāo)效、更安全,使産品運行更穩定。對(duì)于故障的處理(lǐ),也(yě)希望由事(shì)後處理(lǐ)變成提前發現(xiàn),由人工(gōng)處理(lǐ)變成系統自(zì)動容災。


13905190502 南京市玄武區(qū)洪武北路188号長發數碼大(dà)廈11樓E座
友情鏈接
百度 網絡安全和(hé)信息化委員會(huì) FreeBuf網絡安全行業門(mén)戶

分享:
Copyright © 2020-2022 南京明(míng)科網絡科技有限公司 版權所有  
技術支持:飛(fēi)酷網絡