什么叫數(shù)據(jù)中心?維基百科給出的定義是“數(shù)據(jù)中心是一整套復(fù)雜的設(shè)施。它不僅僅包括計(jì)算機(jī)系統(tǒng)和其它與之配套的設(shè)備(例如通信和存儲(chǔ)系統(tǒng)),還包含冗余的 數(shù)據(jù)通信連接、環(huán)境控制設(shè)備、監(jiān)控設(shè)備以及各種安全裝置”。在云大行其道的今天,隨著數(shù)據(jù)中心建設(shè)規(guī)模的不斷擴(kuò)大,新技術(shù)的層出不窮,數(shù)據(jù)中心變得越來越 復(fù)雜。大型數(shù)據(jù)中心往往是由很多規(guī)模龐大的集群系統(tǒng)組成,其運(yùn)維工作需要具備方方面面的知識(shí),包括硬件、網(wǎng)絡(luò)、服務(wù)器、存儲(chǔ)、安全以及業(yè)務(wù)上的東西,需要 上下打通地去做運(yùn)維工作。
當(dāng)一個(gè)數(shù)據(jù)中心的規(guī)模非常大,面臨的挑戰(zhàn)和問題也比較超前,很多在小環(huán)境小體系下不是問題的問題在這樣的規(guī)模下也就凸顯出來了,所以要做好大型數(shù)據(jù)中心的 運(yùn)維工作,對整個(gè)數(shù)據(jù)中心技術(shù)體系的系統(tǒng)學(xué)習(xí)就要花費(fèi)比較長的時(shí)間,只有對這個(gè)數(shù)據(jù)中心整體非常了解,才能有針對性地制定一些運(yùn)維方案,甚至可以二次開發(fā) 一些監(jiān)控運(yùn)維軟件,對整個(gè)數(shù)據(jù)中心進(jìn)行有效管理與監(jiān)控,提升整個(gè)數(shù)據(jù)中心的運(yùn)行效率、減少故障的發(fā)生,從而將運(yùn)維工作推向新的高度。一個(gè)大型的數(shù)據(jù)中心內(nèi) 部往往都包含了很多小系統(tǒng),運(yùn)維工作都是圍繞著這些具體的應(yīng)用系統(tǒng)展開的,具體的可以分為基礎(chǔ)運(yùn)維管理、日常業(yè)務(wù)運(yùn)維、網(wǎng)絡(luò)、服務(wù)器、存儲(chǔ)、安全六大部 分,本文就來說一說一般大型的數(shù)據(jù)中心應(yīng)該具備的哪些運(yùn)維方法和能力。
首先從數(shù)據(jù)中心的基礎(chǔ)運(yùn)維管理方面來說,則主要有硬件配置管理、可維護(hù)性優(yōu)化、監(jiān)控、報(bào)警處理、自動(dòng)化運(yùn)維、斷網(wǎng),斷電、機(jī)房容災(zāi)等運(yùn)維工作。硬件配置管 理包含機(jī)柜里每臺(tái)服務(wù)器的型號(hào)和硬件配置,并清楚是哪些業(yè)務(wù)系統(tǒng)在使用這些服務(wù)器。即便是虛擬化運(yùn)行環(huán)境,也需要知道這些虛機(jī)都在哪些物理機(jī)組成的資源池 中流動(dòng)。數(shù)據(jù)中心物理機(jī)和虛機(jī)數(shù)量都很龐大,使用自動(dòng)化運(yùn)維是非常有必要的。自動(dòng)化運(yùn)維不僅能提升運(yùn)維的工作效率,還可以減少人為的參與,同時(shí)讓數(shù)據(jù)中心 自己管理自己,釋放人力。并對數(shù)據(jù)中心可能發(fā)生的故障還做好監(jiān)控與報(bào)警處理,以便能夠在故障發(fā)生的第一時(shí)間知曉問題,往往一次大的故障都是從開始的一點(diǎn)小 故障逐漸擴(kuò)展最終引發(fā)整個(gè)大系統(tǒng)的崩潰的,所以在出現(xiàn)一些小的異常時(shí)一定要及時(shí)消除,而這些異常就要靠完善的監(jiān)控和報(bào)警系統(tǒng)來檢測。
從數(shù)據(jù)中心的日常業(yè)務(wù)運(yùn)維方面考慮,則主要有資源、機(jī)器分配、資源使用、網(wǎng)絡(luò)吞吐、故障恢復(fù)、備份應(yīng)用,集群搭建、流量,壓力,遷移擴(kuò)容,升級(jí)、上下級(jí)業(yè) 務(wù)關(guān)聯(lián)情況、資源利用率、異常處理、應(yīng)急預(yù)案等等。這些日常運(yùn)維工作實(shí)際上要花費(fèi)大量的人力和時(shí)間,是運(yùn)維工作的主體,也最煩瑣,但卻最不能體現(xiàn)業(yè)績的部 分。一個(gè)數(shù)據(jù)中心能夠長久安全穩(wěn)定運(yùn)行,就是靠這些日常的工作積累,只有平時(shí)注意這些細(xì)微的變化,才能不斷優(yōu)化。壓力測試、軟件升級(jí)、業(yè)務(wù)部署、異常處理 等幾乎成為了運(yùn)維工作的日常必修課,只有將這些工作做好,才能避免出現(xiàn)大的故障,并能夠快速部署新的業(yè)務(wù),根據(jù)資源使用情況及時(shí)擴(kuò)容設(shè)備。
從數(shù)據(jù)中心網(wǎng)絡(luò)方面考慮,則主要有網(wǎng)絡(luò)硬件設(shè)備、ACL、OSPF、LACP、VIP、流量、負(fù)載均衡、二三四七層情況、網(wǎng)絡(luò)監(jiān)控、萬兆板卡、核心交換 等。網(wǎng)絡(luò)是數(shù)據(jù)中心的重要組成部分,是一切工作運(yùn)行的基本保證,沒有網(wǎng)絡(luò)數(shù)據(jù)中心就無法運(yùn)轉(zhuǎn)起來,所以保證網(wǎng)絡(luò)穩(wěn)定是數(shù)據(jù)中心運(yùn)維工作中的重中之重。這里 主要關(guān)注的就是網(wǎng)絡(luò)的硬件問題,ACL部署還有流量監(jiān)控情況。網(wǎng)絡(luò)可以說是包羅萬象,涉及太多的設(shè)備和協(xié)議技術(shù),所以也需要不斷地學(xué)習(xí),加深對網(wǎng)絡(luò)技術(shù) 的理解,這樣才能做好網(wǎng)絡(luò)運(yùn)維工作。
掃描二維碼
關(guān)注昊云訂閱號(hào)