歡迎光臨
每天分享高質量文章

【運維故事】記一次系統重大升級的經歷

來源:運維人那些事兒

ID:jzjytd2016

記一次系統重大升級的經歷

 時光荏苒,一晃自己從事證券行業資訊系統運維工作已逾十年!回顧以往運維經歷,歷歷在目。


作為以利潤為中心的證券公司,IT後臺支援部門是不直接創造利潤的,雖然小到日常業務處理、帳務核算,大到整個公司的經營管理、業務創新和決策支援,背後都由IT系統支撐,但是絕大多數人不瞭解我們的工作,也許某種程度上存在理解誤區,認為系統運轉正常是應該的,只有當系統出現故障時,才會意識到我們的存在。但是大家不知道的是系統正常運轉的每一天,都離不開有“強迫症”運維人員的默默付出,正能量的說法是歲月靜好,是有人為我們負重而行。

作為一個運維人,應該每個人都有些許不同的經歷。對於我們集中交易運維小組來說,系統升級的體會卻是一樣的。在此我就以3.31號週六系統升級為例,來給大家展示系統重大升級的經歷。對於承載著一千多萬客戶的集中交易系統來說,它的實時性很強,對穩定性要求很高,每一次系統重大升級,運維任務都很重,資訊科技人員任何小的疏忽和拖拉,就可能造成系統的中斷,影響客戶群體的數量規模會逐漸放大,就可能給公司帶來巨大的經濟和聲譽損失。所以在升級前期我們會做很多鋪墊工作,保證升級萬無一失。


 

01

升級前…

在升級前幾周,我們就要開始研究升級包,並仔細檢查合併升級包,瞭解升級變更的具體內容,分析升級後對我們現有系統業務的影響。我們還會和其他券商多做溝通交流,瞭解他們的升級進展情況,確定版本。同時還需要同開發商保持密切聯絡,看是否還有對應補充升級包,確保我們的升級補丁包是最佳版本。


考慮到我們歷史庫資料量龐大,升級時間很長,最長的一次歷時將近40小時,因此在系統升級前的週五晚上,正常清算完成後,我們升級了一臺歷史庫,備份另一臺歷史庫資料,這樣不僅可以充分利用時間,還能儘早驗證歷史指令碼是否正常,便於在開市前正常完成歷史庫的升級。

 

02

升級時…

週六升級當天,我們組織營業部進行全業務的升級驗證,因此我們要準備好測試環境。當清晨的天空微微泛白,我們提著家人提前準備好的早餐,坐上了新聞中早高峰擁擠不堪而現在能從頭望到尾的空空地鐵。7:10到達公司後,開啟一天的緊張工作。


首先檢查昨晚歷史庫升級的狀態和進度,預估升級時間(其實是判斷第二天才能回,還是當天能回J),發現歷史庫處於正常升級狀態後,欣喜若狂,接下來就是升級測試環境的準備工作,譬如刪除資料庫複製,備份系統資料庫、備份行情檔案、加掛電話委託測試語音、重啟並掛起交易系統資料庫、提交測試環境指令碼、升級包、設定相關引數等等。


測試驗證期間,我們會盡可能多的驗證系統的功能,爭取改寫全部業務,同時積極關註內部交流群營業部的測試資訊反饋,並同網上交易中心等外圍測試人員保持密切溝通,針對提出的問題進行分析,問題是否正常,還是會影響系統的正常執行,並將重要疑問及時反饋開發商,盡可能做到不帶疑問升級。

 

03

升級後…

下午3:30測試完後,根據營業部以及網上交易等參測方測試反饋,沒有特別的技術疑問,我們準備正式對生產環境當前交易資料庫進行升級。首先我們關閉測試環境,恢復行情檔案、恢覆電話委託語音,重啟所有應用伺服器、重啟資料庫伺服器、核對資料,開始升級過程,順利完成!檢查升級日誌,一切正常!忍不住內心的欣喜(對於運維人來說,系統一切正常就是最開心的事情),我們繼續將災備系統的資料庫升級,再透過生產庫建資料庫複製樣式用於災備當前庫的資料同步,接下來我們將重建DTS資料匯出,待所有資料庫升級以及複製同步完成後,開啟系統完成集中交易系統歸檔、系統初始化、引數檢查等工作,待觀察到客戶委託正常進入後,已經是晚上11:00,一天的系統升級加班工作終於圓滿完成。雖然回到家連眼皮都快睜不開了,心情卻無比放鬆。

以上就是我們一天運維工作的縮影,運維不是每一天都轟轟烈烈,激情澎湃,更多的是一份耐心、一份責任感。運維工作既有萬億行情下高壓超長時間“用生命在清算”,系統故障時爭分奪秒的緊張處理,系統升級時的披星戴月,也有順利完成升級後,一起堅守陪伴的兄弟們快樂歸巢,品嘗鍋裡溫熱的愛心加餐,還有休息期間歡樂鬥地主、球技對決等等的愉快時光,這一切,是如此的飽滿充實,我為我是運維人而自豪!

《Linux雲端計算及運維架構師高薪實戰班》2018年05月14日即將開課中,120天衝擊Linux運維年薪30萬,改變速約~~~~

    *宣告:推送內容及圖片來源於網路,部分內容會有所改動,版權歸原作者所有,如來源資訊有誤或侵犯權益,請聯絡我們刪除或授權事宜。

    – END –


    更多Linux好文請點選【閱讀原文】

    ↓↓↓

    贊(0)

    分享創造快樂