運維項目經理的任務之二是不要把希望全部寄托在自動化運維上。
這聽起來矛盾,實際上完全符合客觀規律,我們做任何一個復雜的事情都不是靠一招鮮,而是多頭并舉。一套大型核心生產系統,上線后半年內是穩定期,其后的一年是優化期,這和汽車磨合有些類似。無論穩定還是優化,都需要我們主動做一些事情。

1.定期巡檢包括晨檢、日檢、月檢,每季度的優化巡檢。
2.系統日常優化包括每日抓取效率低下的SQL語句TOP10,增加完善網管監控點,數據模型的生命周期管理,對部署、配置參數的不斷調整,對平臺軟件、中間件的打補丁、升級等。
3.專項優化專項優化建立在日常巡檢數據的記錄分析、連續的故障、系統長時期反應緩慢或專門的健康檢查基礎之上,某些公司專門提供這種服務。主要由數據庫、網絡、存儲、中間件等專家實施,也有一些很高級的工具軟件支持這類優化。
這里技術含量最高的是應用系統與各類平臺類軟硬件的結合,找到最佳的部署、配置、代碼方法。
化工生產車間有操作規程,IT生產車間也需要。一類是管理規程,一類是技術操作規程。前者主要用來約束生產操作紀律、工作處理流程。
比如約定短信告警的處理時限,出現重大故障后的處理方法、報告順序、生產系統的安全管理規范等。非常多,也好理解,只是要加強教育、演練,讓所有人記住。技術操作規程也不難,就是把各種生產操作方法固化下來,形成規范、工序、標準。難的是建立規程的過程。如同新企業與老企業的區別一樣,一個新的辦事處、分支,在成立最初的兩三年里,重要的任務是形成各種規程,這是一個不斷總結、吸取教訓、積累經驗的過程。

幾乎所有生產事故都可以歸納出管理上的漏洞,或者執行上的偏頗。有時候我們覺得用盡了一切方法,使盡了一切努力,還是會出故障。這時,你只需再堅持一下,曙光可能就在前面。