解析IBM服務(wù)器內(nèi)存技術(shù)_第1頁(yè)
解析IBM服務(wù)器內(nèi)存技術(shù)_第2頁(yè)
解析IBM服務(wù)器內(nèi)存技術(shù)_第3頁(yè)
解析IBM服務(wù)器內(nèi)存技術(shù)_第4頁(yè)
免費(fèi)預(yù)覽已結(jié)束,剩余1頁(yè)可下載查看

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、解析 IBM 服務(wù)器內(nèi)存技術(shù)IBM 作為全球服務(wù)器行業(yè)的領(lǐng)導(dǎo)廠商,不完全是依靠它幾十年建立起來(lái)的品牌優(yōu)勢(shì),更重要是它在服務(wù)器領(lǐng)域長(zhǎng)期處于領(lǐng)先地位的各項(xiàng)服務(wù)器技術(shù)。雖然它的服務(wù)器內(nèi)存技術(shù)并不是IBM 的一項(xiàng)關(guān)鍵優(yōu)勢(shì),但這也不是隨便那個(gè)廠商都具備的,同時(shí)它卻對(duì)整個(gè)服務(wù)器穩(wěn)定性的保障起著至關(guān)重要的作用。正因如此, IBM 的服務(wù)器除了具備更高的性能外,另一個(gè)重要賣點(diǎn)就是具有非常高的穩(wěn)定性,可以在各種非常復(fù)雜的運(yùn)算環(huán)境下永久保持高度的穩(wěn)定性,這其中本文所要介紹的 IBM 三大內(nèi)存技術(shù)功不可沒(méi)。IBM 的服務(wù)器三大內(nèi)存技術(shù)包括: Chipkill 內(nèi)存、 Memory ProteXion (內(nèi)存保護(hù))和

2、 Memory Mirroring (內(nèi)存鏡像)。下面分別予以介紹。一、 Chipkill 內(nèi)存技術(shù)在服務(wù)嚦嚦領(lǐng)域, ECC 幾乎是內(nèi)存技術(shù)的代名詞,基本上所有品牌服務(wù)器都支持 ECC 技術(shù),但要說(shuō)明的是, ECC 并不是最先進(jìn)的內(nèi)存技術(shù)。本文所要介紹的 IBM 三大內(nèi)存技術(shù)就是三種更先進(jìn)的內(nèi)存技術(shù)。Chipkill內(nèi)存最初是由20 年前的 IBM 大型機(jī)發(fā)展過(guò)來(lái)的,ChipKill最初是為美國(guó)航空航天局 (NASA )的“探路者 ”探測(cè)器赴火星探險(xiǎn)而研制。它是 IBM 公司為了解決通用服務(wù)器ECC 內(nèi)存技術(shù)的不足而開發(fā)的,是一種新的ECC 內(nèi)存保護(hù)技術(shù)(HP 也有更新的ECC 內(nèi)存技術(shù))。要

3、注意,Chipkill 內(nèi)存只是一種內(nèi)存技術(shù),并不是一種特殊的內(nèi)存類型,所采用的只需普通的內(nèi)存即可,如原來(lái)的SD 內(nèi)存,現(xiàn)在的DDR 內(nèi)存均可。這樣就可大大節(jié)省用戶的投資,適應(yīng)范圍更廣。要正確理解了解。因?yàn)镮BMIBM 的 Chipkill內(nèi)存技術(shù)優(yōu)勢(shì),先要對(duì)通用的ECC 內(nèi)存技術(shù)有一個(gè)全面的的 Chipkill 內(nèi)存技術(shù)是在ECC 技術(shù)基礎(chǔ)上的改進(jìn)。ECC的英文全稱是 “Error Checking and Correcting(錯(cuò)”誤檢查和糾正),從這個(gè)名稱就可以看出它的主要功能就是“發(fā)現(xiàn)并糾正錯(cuò)誤”。奇偶校驗(yàn)技術(shù)一樣,ECC 糾錯(cuò)技術(shù)也需要額外的空間來(lái)儲(chǔ)存校正碼,但其占用的位數(shù)跟數(shù)據(jù)的長(zhǎng)

4、度并非成線性關(guān)系。具體來(lái)說(shuō),它是以8 位數(shù)據(jù)、 5 位 ECC 碼為基準(zhǔn),隨后每增加一個(gè) 8 位數(shù)據(jù)只需另增加一位ECC 碼即可。通俗地講就是, 一個(gè) 8 位的數(shù)據(jù)產(chǎn)生的ECC碼要占用5 位的空間,而一個(gè)16 位數(shù)據(jù) ECC 碼只需在原來(lái)基礎(chǔ)上再增加一位,也就是6位;而 32 位的數(shù)據(jù)則只需再在原來(lái)基礎(chǔ)增加一位,即7 位的 ECC 碼即可,如此類推。ECC 碼將信息進(jìn)行8 比特位的編碼,采用這種方式可以恢復(fù)1 比特的錯(cuò)誤。每一次數(shù)據(jù)寫入內(nèi)存的時(shí)候, ECC 碼使用一種特殊的算法對(duì)數(shù)據(jù)進(jìn)行計(jì)算,其結(jié)果稱為校驗(yàn)位 ( checkbits)。然后將所有校驗(yàn)位加在一起的和是“校驗(yàn)和 ”( checks

5、um),校驗(yàn)和與數(shù)據(jù)一起存放。當(dāng)這些數(shù)據(jù)從內(nèi)存中讀出時(shí),采用同一算法再次計(jì)算校驗(yàn)和,并和前面的計(jì)算結(jié)果相比較,如果結(jié)果相同,說(shuō)明數(shù)據(jù)是正確的,反之說(shuō)明有錯(cuò)誤,ECC 可以從邏輯上分離錯(cuò)誤并通知系統(tǒng)。當(dāng)只出現(xiàn)單比特錯(cuò)誤的時(shí)候, ECC 可以把錯(cuò)誤改正過(guò)來(lái)不影響系統(tǒng)運(yùn)行。工作原理見(jiàn)圖 1。圖 1除了能夠檢查到并改正單比特錯(cuò)誤之外,ECC 碼還能檢查到(但不改正)單DRAM 芯片上發(fā)生的任意2 個(gè)隨機(jī)錯(cuò)誤, 并最多可以檢查到4 比特的錯(cuò)誤。 當(dāng)有多比特錯(cuò)誤發(fā)生的時(shí)候, ECC 內(nèi)存會(huì)生成一個(gè)不可隱藏(non-maskable interrupt )的中斷( NMI ),會(huì)中止系統(tǒng)運(yùn)行,以避免出現(xiàn)數(shù)據(jù)

6、惡化。顯然 ECC 碼的長(zhǎng)度跟數(shù)據(jù)的長(zhǎng)度是成對(duì)數(shù)關(guān)系,當(dāng)數(shù)據(jù)長(zhǎng)度在64 位以上的時(shí)候, ECC碼在空間占用上就會(huì)凸現(xiàn)優(yōu)勢(shì)。此外,ECC 校驗(yàn)最大的優(yōu)點(diǎn)是如果數(shù)據(jù)中有一位錯(cuò)誤,它不但能發(fā)現(xiàn)而且可以對(duì)其更正,ECC 校驗(yàn)還可以發(fā)現(xiàn)24 位錯(cuò)誤(不能更正),當(dāng)然這樣的情況出現(xiàn)的幾率是非常低的。但ECC 碼的校驗(yàn)算法比奇偶校驗(yàn)復(fù)雜不少,需要專門的芯片來(lái)支持, 所以普通的電腦主板不一定支持。而且因?yàn)橄到y(tǒng)需要時(shí)間來(lái)等待校驗(yàn)的結(jié)果,所以 ECC 校驗(yàn)會(huì)降低系統(tǒng)速度 2%-3% 左右, 但這小小的代價(jià)換來(lái)系統(tǒng)穩(wěn)定性的大大提高可以說(shuō)事非常值得的。注意 :ECC 不是一種內(nèi)存類型,只是一種內(nèi)存技術(shù),不僅以前的ED

7、O 內(nèi)存可以有、內(nèi)存也可有,現(xiàn)在主流的DDR 內(nèi)存同樣可以有,所以在現(xiàn)在服務(wù)器配置中我們都可見(jiàn)到“ 512MB ECC DDR-400 內(nèi)存 ”之類的字樣。那是因?yàn)樗⒉皇且环N影響內(nèi)存結(jié)構(gòu)和存儲(chǔ)速度的技術(shù),可以應(yīng)用到不同的內(nèi)存類型之中,就象我們經(jīng)常到的“奇遇校正 ”內(nèi)存技術(shù)一樣。SDECC 內(nèi)存技術(shù)雖然可以同時(shí)檢測(cè)和糾正單一比特錯(cuò)誤,但如果同時(shí)檢測(cè)出兩個(gè)以上比特的數(shù)據(jù)有錯(cuò)誤,則無(wú)能為力。但隨著基于Intel 處理器架構(gòu)服務(wù)器的CPU 性能呈幾何級(jí)的倍數(shù)提高, 而硬盤驅(qū)動(dòng)器的性能同期只提高了5 倍。因此為了獲得足夠的性能,服務(wù)器需要大量的內(nèi)存來(lái)臨時(shí)保存在CPU 上讀取的數(shù)據(jù)。這樣大的數(shù)據(jù)訪問(wèn)量就

8、導(dǎo)致單一內(nèi)存芯片上每次訪問(wèn)時(shí)通常要提供4( 32 位)或 8(64 位)比特以上的數(shù)據(jù)。一次性讀取這么多數(shù)據(jù),出現(xiàn)多位數(shù)據(jù)錯(cuò)誤的可能性會(huì)大大地提高,而ECC 又不能糾正雙比特以上的錯(cuò)誤,這樣就很可能造成全部比特?cái)?shù)據(jù)的丟失,系統(tǒng)就很快崩潰了。IBM 的 Chipkill技術(shù)是利用內(nèi)存的子結(jié)構(gòu)方法來(lái)解決這一難題。Chipkill內(nèi)存子系統(tǒng)的設(shè)計(jì)原理是這樣的:在Chipkill 技術(shù)支持下,單一內(nèi)存芯片,無(wú)論數(shù)據(jù)寬度是多少,只有一個(gè)給定的ECC 識(shí)別碼,它的影響最多為一比特。舉個(gè)例子來(lái)說(shuō)明的就是,如果使用4 比特寬的SDRAM ,4 比特中的每一位奇偶性將分別組成不同的ECC識(shí)別碼,每個(gè)ECC 單元

9、可單獨(dú)用一個(gè)數(shù)據(jù)位來(lái)保存的,也就是說(shuō)這些識(shí)別碼分別保存在不同的內(nèi)存空間中。因此,即使整個(gè)內(nèi)存芯片出了故障,每個(gè)ECC 單元也將最多出現(xiàn)一比特壞數(shù)據(jù)。這種情況完全可以通過(guò)ECC 邏輯修復(fù),從而保證內(nèi)存子系統(tǒng)的容錯(cuò)性,保證了服務(wù)器在出現(xiàn)故障時(shí),有強(qiáng)大的自我恢復(fù)能力。Chipkill 內(nèi)存控制器所提供的存儲(chǔ)保護(hù)在概念上和具有校驗(yàn)功能的磁盤陣列類似,在寫數(shù)據(jù)的時(shí)候,把數(shù)據(jù)寫到多個(gè)DIMM 內(nèi)存芯片上。這樣,每個(gè)DIMM所起的作用和存儲(chǔ)陣列相同。 如果其中任何一個(gè)芯片失效了,它只影響到一個(gè)數(shù)據(jù)字節(jié)的某一比特,因?yàn)槠渌忍卮鎯?chǔ)在另外的芯片上。 出現(xiàn)錯(cuò)誤后, 內(nèi)存控制器能夠從失效的芯片重新構(gòu)造“失去 ”的數(shù)

10、據(jù),使得服務(wù)器可以繼續(xù)正常工作。采用這種 Chipkill 內(nèi)存技術(shù)的內(nèi)存可以同時(shí)檢查并修復(fù)4 個(gè)錯(cuò)誤數(shù)據(jù)位,進(jìn)一步提高服務(wù)器的實(shí)用性。新型的第三代 Chipkill內(nèi)存技術(shù)已經(jīng)集成到了IBM 的 X 架構(gòu)芯片組中, 不必另外定制。與 ECC 技術(shù)相比, Chipkill內(nèi)存技術(shù)更加有效,它提供對(duì)每個(gè)DIMM內(nèi)存芯片糾正4 比特錯(cuò)誤的能力。如果內(nèi)存發(fā)生錯(cuò)誤,Chipkill 內(nèi)存將自動(dòng)和平穩(wěn)地讓出錯(cuò)的內(nèi)存芯片離線,而服務(wù)器繼續(xù)保持正常工作。由于 Chipkill 內(nèi)存技術(shù)是通過(guò)內(nèi)存控制器提供的,所以可以在標(biāo)準(zhǔn)的ECC DIMM內(nèi)存上實(shí)現(xiàn),并且對(duì)于操作系統(tǒng)是透明的。目前Chipkill 內(nèi)存技術(shù)

11、不僅在IBM 的 x 系列服務(wù)器廣泛采用,而且通過(guò)授權(quán)許多國(guó)內(nèi)外品牌服務(wù)器中使用,如寶德公司的64 位新至強(qiáng)機(jī)架式服務(wù)器 PR2520(該公司還有許多其它服務(wù)器也支持這一內(nèi)存技術(shù),如PT4050R 和 PR2520等)、方正公司的方正圓明MT500 等。二、內(nèi)存保護(hù)(Memory ProteXion )技術(shù)Memory ProteXion技術(shù)最初是為務(wù)器中應(yīng)用了多年。它相對(duì)前面介紹的IBM 的主機(jī)開發(fā)的,在IBM 公司的 z 系列和Chipkill內(nèi)存技術(shù)在保護(hù)能力上更強(qiáng)些。i 系列服它的工作原理與硬盤的熱備份類似,為了確保當(dāng)某個(gè)DIMM存儲(chǔ)芯片失效的時(shí)候,內(nèi)存保護(hù)技術(shù)能夠自動(dòng)利用備用的比特位

12、自動(dòng)找回?cái)?shù)據(jù),從而保證服務(wù)器的平穩(wěn)運(yùn)行。該技術(shù)可以糾正發(fā)生在每對(duì)DIMM內(nèi)存中多達(dá)4 個(gè)連續(xù)比特位的錯(cuò)誤。當(dāng)出現(xiàn)隨機(jī)性的軟內(nèi)存錯(cuò)誤,可以通過(guò)使用熱備份的比特位來(lái)解決;如果出現(xiàn)永久性的硬件錯(cuò)誤,也將利用熱備份的比特位使得DIMM內(nèi)存芯片繼續(xù)工作,直到被替換為止。在存儲(chǔ)器糾錯(cuò)方面,Memory ProteXion技術(shù)比 ECC 技術(shù)更加有效,同時(shí)它使用的是標(biāo)準(zhǔn)的ECC 168 內(nèi)存。它的工作方式有點(diǎn)像在Windows NT 的 NTFS 文件系統(tǒng)下的在線備份磁盤扇區(qū)一樣: 當(dāng)操作系統(tǒng)在磁盤上檢測(cè)到壞的磁盤扇區(qū)時(shí),它將在另外的扇區(qū)中寫下這些數(shù)據(jù)留作備用。 我們可以認(rèn)為內(nèi)存保護(hù)技術(shù)就是提供在線備份數(shù)據(jù)

13、位。在一個(gè) 2 路交叉存取的內(nèi)存系統(tǒng)中, 每片 168 線 ECC 內(nèi)存包含72 位,但其實(shí)只有700 位是用于數(shù)據(jù)存取和校驗(yàn)的,余下的 2 位是備用的,如圖2 所示。圖 2因?yàn)?IBM 的內(nèi)存鏡像技術(shù)對(duì)內(nèi)存錯(cuò)誤的糾正是通過(guò)內(nèi)存控制器來(lái)完成的,所以不會(huì)增加操作系統(tǒng)的工作量, 也不需要操作系統(tǒng)來(lái)提供支持, 完全與操作系統(tǒng)無(wú)關(guān)。 另因?yàn)橹恍璨捎脴?biāo)準(zhǔn)的 ECC 168 線內(nèi)存,所以也無(wú)需另外購(gòu)買定制的內(nèi)存,也就無(wú)需為這種保護(hù)增加另外的開支。標(biāo)準(zhǔn)的 ECC 內(nèi)存雖然可以檢測(cè)出2 位的數(shù)據(jù)錯(cuò)誤,但它只能糾正一位錯(cuò)誤。如果同時(shí)在內(nèi)存上有多位出錯(cuò),僅采用ECC 技術(shù)的整塊內(nèi)存讀取就失敗了,此時(shí)唯有使系統(tǒng)臨時(shí)

14、掛起來(lái), 以盡量減少內(nèi)存容量的需求,直到這個(gè)節(jié)點(diǎn)被更換。如果采用內(nèi)存保護(hù)技術(shù),那么就可以立即隔離這個(gè)失效的內(nèi)存,重寫數(shù)據(jù)在空余的數(shù)據(jù)位。通過(guò)這種方法可以在每4對(duì) 168線內(nèi)存中修復(fù) 4 個(gè) 4 位連續(xù)的內(nèi)存錯(cuò)誤,是前面介紹的Chipkill 內(nèi)存技術(shù)保護(hù)能力的兩倍。而且它還還無(wú)需添加另外的硬件、無(wú)需增加額外的費(fèi)用,獨(dú)立操作系統(tǒng)工作, 也不會(huì)給系統(tǒng)增加任何額外負(fù)擔(dān)。 當(dāng)服務(wù)器下次重啟就會(huì)重新檢查內(nèi)存的狀態(tài),如果是內(nèi)存軟錯(cuò)誤 (臨時(shí)的),系統(tǒng)重啟后內(nèi)存的這些用于在線數(shù)據(jù)備份的數(shù)據(jù)位就重新釋放了,恢復(fù)空的狀態(tài)。如果是屬于硬故障, 這些在線備份數(shù)據(jù)位還會(huì)繼續(xù)用來(lái)備份,直到更換為止。 這種先進(jìn)技術(shù)可以使減少停機(jī)時(shí)間, 使服務(wù)器持續(xù)保持高效的計(jì)算平臺(tái)。這對(duì)于大型的數(shù)據(jù)庫(kù)系統(tǒng)中尤其重要。三、內(nèi)存鏡像(Memory Mirroring )技術(shù)IBM 的另一種更高級(jí)內(nèi)存技術(shù)就是內(nèi)存鏡像技術(shù),它又相對(duì)前面的內(nèi)存保護(hù)技術(shù),在內(nèi)存保護(hù)能力上更強(qiáng)。 當(dāng)服務(wù)器遇到了前面介紹的 Chipkill 修復(fù)技術(shù)和內(nèi)存保護(hù)技校術(shù)都不能完全修復(fù)時(shí),內(nèi)存鏡像技術(shù)可以得到更高級(jí)的內(nèi)存保護(hù)。內(nèi)存鏡像技術(shù)很像磁盤鏡像技術(shù),就是將數(shù)據(jù)同時(shí)寫入到兩個(gè)獨(dú)立的內(nèi)存卡中(每個(gè)內(nèi)存卡的配置者是一樣的) 。正常工作情況下, 內(nèi)存數(shù)據(jù)讀取只從活動(dòng)內(nèi)存卡中進(jìn)行,只是當(dāng)活動(dòng)內(nèi)存出現(xiàn)故障時(shí),才會(huì)從鏡像內(nèi)存中讀取數(shù)據(jù)。如圖 3 所示的是 CPU

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論