【摘要】信息系統是核心業務的支撐平臺,信息系統的保障工作非常繁雜。與日常維護相比,重要時期的信息系統維護在可靠性和應急響應方面提出更嚴格的要求,重保期維護工作是基于明確的保障邊界,執行新的維護標準,在可控的資源內,保障業務系統穩定、安全運行的過程。
【關鍵字】 信息系統 重要保障 維護
一.引言
運維保障工作是組織的一項重要的工作,而重保期的運維工作的重要程度更是不言而喻的。如何做好重要保障期運維工作,應該首先明確業務目標、信息系統以及運維工作三者的關系,掌握重保期間運維工作的特點,明晰所掌控資源,做好重保期間的運維規劃,明確重保期間IT系統運維工作要點等,繼而建設一套符合業務系統要求及組織架構的運維管理體系。
二.業務與信息系統以及信息系統運維的關系
現如今,信息網絡系統現已成為各業務的支撐系統,信息網絡系統保障是確保核心業務系統穩定、安全、高效運行,業務系統的通用要求,例如:服務能力、服務效率、完整性、可用性、可靠性、符合性、安全性等,以及業務系統特有的技術要求或指標,共同構成了對系統運維保障工作的要求,落實到信息系統運維的具體環節中,使這些要求轉換成對信息系統的技術要求和服務能力要求,成為運維工作執行標準。重保活動的目標,是充分發揮現有資產和組織的最大效能,在特定時間內,比較平時大幅度提升運維組織和資產的抗威脅和承載業務沖擊的能力,保障重大活動按計劃和標準運行。

圖1 信息系統運維與業務系統的關系
三.重要時期保障的特點及標準確定
廣播電視行業的重要保障期是指國務院廣播電視行政部門指定的安全播出重要保障階段。重點時段是指包括重要保障期和非重要保障期在內的由國務院廣播電視行政部門指定的重大活動的現場直播,每日要求全國轉播的中央電視臺和中央人民廣播電臺重要節目時段。
重要保障期對事故定義標準比非重要保障期要嚴苛很多,因此,重保期的業務系統在可用性、穩定性和可靠性方面更嚴格要求,有更高的標準,重要保障期對支撐核心業務的信息網絡系統的故障容忍度大大降低。所以需要相應的調整保障工作所需要遵循的標準和規劃。
確定重保時期運維工作的標準和規則,應掌握以下基本方法:
1.明確IT資源。IT資源是運維保障工作的基礎,包括運維保障的對象,即承載核心業務的信息網絡系統,也包括運維保障工作所需的必要資源,包括但不限于:數據、應用系統、技術、工具、場所以及人員等。運維保障是根據IT資源,按照服務保障的邊界,對運維保障工作進行規劃,落實相關的標準。這些服務資源是運維保障的基礎條件,同時也是運維服務的制約條件之一。
2.確定信息網絡系統的服務能力。信息網絡系統的設計指標決定了信息網絡系統的服務能力,如果信息系統要求超出系統設計指標,運維工作是無法滿足此要求的,需要通過技術改造或新建予以實現。也可以從第三方臨時獲得滿足,同時需要考慮外部風險引入應對和控制措施。
3.重保時期運維保障標準提升是需要成本,而且提升是有限度的,所以重保活動是臨時性的、非常規的。超常規的高標準運維,成本也會增加,用日常運維的資源響應非一般的標準要求,不可持續。因此在重保時期開始和結束的時間都會有轉換工作,調整標準和服務框架,調整IT服務資源。
4.重保時期的運維保證前的規劃和落實非常重要。規劃和落實兩個階段決定了重保時期的運維保障品質。在重保期間問題響應是塊試金石,應急響應的可執行度、有效性及完整性可以反映重保運維規劃工作是否完善,IT服務資源服務響應過程能反映出獲取和落實過程是否到位。問題響應也可反映應急演練是否到位,如果沒有多次應急演練,會造成紙上談兵,問題響應時會手忙腳亂,欲速則不達,一旦操作失誤,又會引發連鎖反應,擴大問題影響范圍。

圖2 重保期間運維的主要階段
四.運維重保障的主要階段
重保時期的運維保證工作的主要階段有:
1.規劃
是重保時期運維保障工作的前期階段,IT運維部門需要按照業務部門對IT系統在重保時期的技術規格要求,為重保時期的運維保障工作定義一系列需要遵循的框架及原則,這些框架和原則將作用于具體的、可實施的運維保障工作。運維保障工作中所要考慮的要素包括:服務項目、基礎設施、內部和外部的風險、資質的需求、具有專業技能的人員和特殊的工具(含軟件)的需求與供給,以及各項制度、應急響應及處理原則、組織間信息交互的方式、流程等。
2.資源獲取與確認階段
落實IT服務資源是重保時期運維保障工作的前期階段,該階段主要是消除IT 服務資源的實際狀態與書面記載信息之間的差異,讓IT服務資源與重保期間的目標狀態一致。日常運維主要工作是建設以獲取IT資源,重保時期的運維保障,除信息網絡系統為滿足某項業務需求,需要對系統功能、能力、性能方面等進行技術改造,并將建設后的結果納入IT服務資源外,IT資源建設是非例行工作,在重保前大量的IT資源確認是工作重點。在確認中發現的不足,并對計劃進行修正或者重新獲取符合要求的資源。
3.服務與支持階段
是進入重保時期的實際運維保障工作執行階段。在這個階段各項IT服務資源均已按照計劃配置到位。通過前期的確認,運維保障組織依據框架開展各項運維保障工作,進行服務和支持工作。重保時期一般性運維保障工作與日常運維保障工作沒有區別,而重保時期的應急響應的執行標準明顯高于日常運維應急響應標準。
4.監控階段
對重保運維工作進行有效監控和評估與服務與支持階段并行,對項目檢查的細致程度和頻度反映了監控工作的執行力度,重保期間檢查項目細致程度和檢查頻度會大大多于日常運維。
5.完成總結階段
從重保時期的運維保障工作恢復到日常運維保障工作,釋放為重保而臨時獲取的IT服務資源,調整運維保證工作框架和原則,對重保時期的運維保證工作進行總結性評估,用于下次同類型工作的改進。
五.重保IT系統運維工作要點
1.落實組織,明確責任分工
(1)明確每個崗位的工作目標,形成清晰的責任
邊界。
(2)崗位責任人形成書面承諾,督促履職。
(3)建立詳細的工作計劃和工作例會制度。
(4)清晰描述任務活動,落實控制措施,建立授權過程。
(5)合理安排值班,明確安全職責,簽署保密協議。
(6)成立檢查小組,對第三方提供的服務進行檢查,對報告和記錄進行定期監控和審核。
2.確認信息一致
要對運維服務框架中所涉及的各種對象的信息與實際狀態進行符合性確認,從而保證運維服務框架是可執行的。這些信息包括但不限于以下內容:
(1)業務活動計劃
業務活動計劃是評估壓力,安排資源,建立監控窗口的依據。
(2)資產的清單
資產清單包括資產屬性和控制權柄。資產清單中應包括臨時調配或處于待機狀態的資產。承擔保障組織具有以下資產管理的職責:清楚識別所有資產;隨時調動和處置資產;掌握并保護控制權限;設備的口令保護,檢查口令質量,關鍵口令的更新;遠程針對和配置端口保護等等。
(3)服務合約和庫存
為完成信息網絡系統的保障工作,業務部門每年都會采購諸多服務,如硬件維保服務,備品備件服務,應急響應服務等,這些服務通過合約形成了不斷消耗的服務庫存。在重保前,需要對服務庫存狀態進行確認和清理,耗盡或失效的服務需要重新采購,無法獲取的服務需要在服務框架中給出替代方案。
(4)風險再識別
基于重保目標和相關環境,對風險進行再評估,發現應識別而未識別的風險,做好應對預案。
3.平衡計劃與實際沖突
在實際工作中,外部風險的不確定性會造成IT服務資源需求與實際供給,計劃執行標準與現實情況,工作預期與實際效果之間產生差距。受資源的限制,妥善處理這種差距就需要劃定邊界實施重點保障,以重大活動優先的原則來解決重保與日常維保資源沖突的問題。重保時期的運維標準提升了,很多時候需要調整資產邊界,確定IT服務資源響應關鍵的業務目標,減小非關鍵業務的突發情況對重保工作的影響。依據重保原則,特殊環境特別對待,清理不必要的負載,包括:清理在線設備,清理賬戶,清理端口,隔離業務,為關鍵業務預留出足夠的容量儲備。
4.落實應急演練能力
應急預案不等于應急能力,因為應急情況是小概率事件,所以處置方法不為運維人員熟悉,存在執行盲點和操作風險,因此要通過演練把預案文字落實為人員實際處置應急情況的能力。
應急方案應包含如下情況:電力終端、設備故障、資產被調走、惡意代碼、人員缺勤。
通過對應急方案進行演練,檢驗資源的可用性,敦促運維人員熟悉應對的場景及方案細節,提高運維保障能力。
5.確定檢查的關鍵時間點
檢查的關鍵時間點主要依據以下信息:
(1)業務活動的時間安排
(2)對業務壓力曲線峰值及時間點的預判
(3)交接班時間
(4)常規性檢查計劃點窗口
通過對以上重要時間點檢查,確認資源和服務的有效性和業務的可持續性。
6.加強審計并落實責任
確保審計系統和監控系統正常,主要做好以下幾點:
(1)保障審計與監控系統的正常,包括以下主要內容:保證審計到位,記錄用戶活動,故障日志和信息安全日志齊全,并按照規定期限進行保留以支持未來的調查和訪問控制監控。
(2)重要保障期中所有的保障活動應建立記錄并存檔備查,以便提供合規或違規的證據。記錄處置應本著法律和合同責任的要求,記錄應保持清晰,便于識別和檢索,記錄的標識、儲存、保護、檢索、保存期限和處置應滿足文件控制的要求。
(3)為防止業務壓力超過系統設計的規格,設置業務壓力監控。
(4)強化各類安全監控,把外部風險從責任中區隔出來。
(5)建議專門的檢查小組,擴大動態監控范圍,隨機檢查情況進行日報監控及分析,嚴格處置。
六.結束語
運維保障是一項管理工作,重保期間的運維保障工作的規范性、有效性能反映組織的運維管理水平。各層管理者在運維管理中的作用如下:
(1)最高管理層是推動重保機制有效運行的重要力量最高管理層應首先建立、健全運行保障機構,其次需要建立信息安全工作架構,并在組織中建立推行信息安全的管理機構。做到有組織、有原則、有監督;最高管理層應頒布重保活動的戰略目標、績效目標、財務目標、合規目標;最高管理層需制定一個切合實際的在重大活動期間對信息系統的保護策略,對信息系統分類,使不同信息系統的安全措施和企業資產保護的標準與目標一致。信息系統分類使得企業能夠調整匹配的資源、財力、物力對重要信息資源和系統進行重點保護,這與有限安全、重點保護的等保原則相契合。
(2)中層管理者在重保運維工作中的作用在具備重保活動的策略指引和以企業信息安全管理體系框架的條件下,中層管理者的主要履職活動包括:梳理資產、掌握環境和資源;使每個崗位理解整體工作目標和自己工作目標,并審核各崗位的工作計劃;建立事件響應的標準,不斷驗證組織對于事件響應的效率和事件識別能力;組織學習各項規章制度,按規定開展各項活動,評價活動。與各部門定期交流信息,保持與國家管理部門和公安系統的聯系;監控過程,并確保審計系統的正常運行。
重保期間信息系統運維工作的性質決定了其特殊重要性,值得運維工作的管理者和實施者不斷探索、思考和系統學習,也需要通過實踐來檢驗,形成了本組織特有的管理方式和運維流程,繼而上升到理論,有效指導實際工作。
參考文獻
[1] Peter BrooksMetrics for IT Service Management(PeterBrooks著的IT服務管理指標)