計(jì)算機(jī)容錯(cuò)技術(shù)_第1頁(yè)
計(jì)算機(jī)容錯(cuò)技術(shù)_第2頁(yè)
計(jì)算機(jī)容錯(cuò)技術(shù)_第3頁(yè)
計(jì)算機(jī)容錯(cuò)技術(shù)_第4頁(yè)
計(jì)算機(jī)容錯(cuò)技術(shù)_第5頁(yè)
已閱讀5頁(yè),還剩274頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、魏贇l容錯(cuò)和可靠性l容錯(cuò)技術(shù)的發(fā)展概況l容錯(cuò)技術(shù)的主要內(nèi)容l容錯(cuò)技術(shù)應(yīng)用l故障、失效和錯(cuò)誤的概念l可靠性的概念l容錯(cuò)的概念l可靠性和容錯(cuò)的關(guān)系l失效(failure)是指硬件物理特性異變,或軟件不能完成規(guī)定功能的能力。l故障(fault)是指硬件或軟件的錯(cuò)誤狀態(tài),是失效在邏輯上的等效。一個(gè)故障可以用種類、值、影響范圍和發(fā)生時(shí)間來(lái)描述。l錯(cuò)誤(error)是指程序或數(shù)據(jù)結(jié)構(gòu)中的故障表現(xiàn)形式,是故障和失效所造成的后果。容錯(cuò)設(shè)計(jì)的軟件可以有某些規(guī)定數(shù)目的故障但不導(dǎo)致失效,但對(duì)無(wú)容錯(cuò)的軟件而言,故障即失效。l若按邏輯性來(lái)分邏輯故障:造成邏輯值發(fā)生變化的故障非邏輯故障:造成象時(shí)鐘(clock)或電源出錯(cuò)

2、等錯(cuò)誤的故障l按時(shí)間劃分: 永久性故障:調(diào)用診斷程序進(jìn)行故障定位,然后采取糾錯(cuò)措施 間隔性故障:可以通過更換硬件或軟件等途徑來(lái)達(dá)到修復(fù)的目的 偶然性故障:只能靠改善環(huán)境條件等努力來(lái)減少這類故障 l概念l實(shí)現(xiàn)系統(tǒng)可靠性的方法l系統(tǒng)可靠性的指標(biāo)l可靠性的含義廣義:一切旨在避免、減少、處理、度量軟件/硬件故障(錯(cuò)誤、缺陷、失效)的分析、設(shè)計(jì)、測(cè)試等方法、技術(shù)和實(shí)踐活動(dòng)。狹義:指軟件/硬件無(wú)效運(yùn)行的定量度量。l可靠度:在規(guī)定的運(yùn)行環(huán)境中和規(guī)定的時(shí)間內(nèi)軟件無(wú)失效運(yùn)行的機(jī)會(huì)。l排錯(cuò)l容錯(cuò)避免故障,通過對(duì)組成系統(tǒng)的部件進(jìn)行嚴(yán)格的篩選、對(duì)系統(tǒng)進(jìn)行嚴(yán)格的測(cè)試、對(duì)系統(tǒng)進(jìn)行屏蔽以減少外界的干擾等方法來(lái)提高系統(tǒng)的可靠

3、性。l即使采用了排錯(cuò)技術(shù),一個(gè)計(jì)算機(jī)系統(tǒng)還是遲早會(huì)發(fā)生故障的。因此在設(shè)計(jì)計(jì)算機(jī)系統(tǒng)時(shí)應(yīng)考慮一旦發(fā)生故障能自動(dòng)檢測(cè)出故障并使系統(tǒng)自動(dòng)恢復(fù)正常運(yùn)行。這樣設(shè)計(jì)出來(lái)的計(jì)算機(jī)系統(tǒng)在發(fā)生故障后仍能正確運(yùn)行。l容錯(cuò)技術(shù)是從系統(tǒng)結(jié)構(gòu)方面來(lái)提高計(jì)算機(jī)系統(tǒng)的可靠性l容錯(cuò)技術(shù)與排錯(cuò)技術(shù)并不是相互對(duì)立的,它們可以相互補(bǔ)充,構(gòu)成高可信的計(jì)算機(jī)系統(tǒng)l可靠性l可維性l可用性l計(jì)算機(jī)機(jī)的可靠性指:計(jì)算機(jī)在規(guī)定的條件和規(guī)定的時(shí)間內(nèi)完成規(guī)定的功能的概率l規(guī)定的條件:環(huán)境條件,使用條件,維修條件,操作技術(shù)l失效:產(chǎn)品在規(guī)定的條件下和規(guī)定的時(shí)間內(nèi)喪失了規(guī)定的功能。l失效率:指計(jì)算機(jī)在某一瞬間元件失效數(shù)與元件總數(shù)的比率。l可維性(Se

4、rviceability)是指在規(guī)定的時(shí)間內(nèi),按照規(guī)定的程序和方法進(jìn)行維修時(shí),保持或恢復(fù)到能完成規(guī)定的功能的能力l通常指從判定故障到排除故障所需要的時(shí)間,包括故障診斷、故障定位、系統(tǒng)校正和恢復(fù)等時(shí)間。l可保持性(Maintainability)是指系統(tǒng)在給定的時(shí)間內(nèi)可隔離故障或修復(fù)的概率。它表征了系統(tǒng)可以正常運(yùn)行的效率??捎眯裕ˋvailability)稱有效率或利用率,是可維修部件在某時(shí)間具有維持規(guī)定功能的能力,即計(jì)算機(jī)系統(tǒng)的利用效率,也是系統(tǒng)在執(zhí)行任務(wù)的任意時(shí)刻能正常工作的概率。容錯(cuò)(Fault-tolerance):容忍故障,考慮故障一旦發(fā)生時(shí)能夠自動(dòng)檢測(cè)出來(lái)并使系統(tǒng)能夠自動(dòng)恢復(fù)正常運(yùn)行

5、。當(dāng)出現(xiàn)某些指定的硬件故障或軟件錯(cuò)誤時(shí),系統(tǒng)仍能執(zhí)行規(guī)定的一組程序,或者說程序不會(huì)因系統(tǒng)中的故障而中止或被修改,并且執(zhí)行結(jié)果也不包含系統(tǒng)中故障所引起的差錯(cuò)。l容錯(cuò)計(jì)算機(jī)系統(tǒng):在發(fā)生故障或存在軟件錯(cuò)誤的情況下仍能繼續(xù)正確完成指定任務(wù)的計(jì)算機(jī)系統(tǒng)。l設(shè)計(jì)與分析容錯(cuò)計(jì)算機(jī)系統(tǒng)的各種技術(shù)稱為容錯(cuò)技術(shù)l容錯(cuò)技術(shù)從系統(tǒng)結(jié)構(gòu)出發(fā)來(lái)提高系統(tǒng)的可靠性,與排錯(cuò)技術(shù)相互補(bǔ)充,構(gòu)成高可信度的系統(tǒng)(1)不希望事件的檢測(cè)。不希望事件是指失效、故障、差錯(cuò)等等。為容忍系統(tǒng)中的不希望事件,應(yīng)首先對(duì)其進(jìn)行檢測(cè)。(2)損壞估價(jià)。由于一個(gè)故障的出現(xiàn)和它的失效結(jié)果之間可能存在延遲,故障可能已經(jīng)傳播到該系統(tǒng)的其他地方,導(dǎo)致故障的擴(kuò)大。因

6、此,在作出一個(gè)被檢測(cè)的故障有關(guān)的決定之前,有必要判定系統(tǒng)已被破壞的程度,這依賴于系統(tǒng)設(shè)計(jì)者的策略和已有的探測(cè)技術(shù)。(3)不希望事件的恢復(fù)。在不希望事件檢測(cè)和損壞估價(jià)之后,應(yīng)采用不希望事件恢復(fù)技術(shù),把目前的錯(cuò)誤系統(tǒng)狀態(tài)轉(zhuǎn)換成一個(gè)正確的系統(tǒng)狀態(tài)。(4)不希望事件處理和繼續(xù)服務(wù)。確保已被恢復(fù)的不希望事件效應(yīng)不會(huì)立即再現(xiàn),以使系統(tǒng)繼續(xù)提供規(guī)定的服務(wù)。l故障限制:當(dāng)故障出現(xiàn)時(shí),希望限制其影響范圍。故障限制是把故障效應(yīng)的傳播限制到一個(gè)區(qū)域內(nèi),從而防止污染其他區(qū)域。l故障檢測(cè):大多數(shù)失效最終導(dǎo)致產(chǎn)生邏輯故障。有許多方法可用來(lái)檢測(cè)邏輯故障,如奇偶校驗(yàn)、一致性校驗(yàn)都可用來(lái)檢測(cè)故障。故障檢測(cè)技術(shù)有兩個(gè)主要的類別,

7、即脫機(jī)檢測(cè)和聯(lián)機(jī)檢測(cè),在脫機(jī)檢測(cè)情況下,進(jìn)行測(cè)試時(shí)設(shè)備不能進(jìn)行有用的工作;聯(lián)機(jī)檢測(cè)提供了實(shí)時(shí)檢測(cè)能力,因?yàn)槁?lián)機(jī)檢測(cè)與有用的工作同時(shí)執(zhí)行。聯(lián)機(jī)檢測(cè)技術(shù)包括奇偶校驗(yàn)和二模冗余校驗(yàn)。l故障屏蔽:故障屏蔽技術(shù)把失效效應(yīng)掩蓋了起來(lái),從某種意義上說,是冗余信息戰(zhàn)勝了錯(cuò)誤信息,多數(shù)表決冗余設(shè)計(jì)就是故障屏蔽的一個(gè)例子。l重試:在許多場(chǎng)合,對(duì)一個(gè)操作的第二次試驗(yàn)可能是成功的,對(duì)不引起物理破壞的瞬間故障尤其是這樣。l診斷 如果故障檢測(cè)技術(shù)沒有提供有關(guān)故障位置和/或性質(zhì)的信息,那么就需要一個(gè)診斷。l重組:當(dāng)檢測(cè)出一個(gè)故障并判明是一個(gè)永久性故障時(shí),這時(shí)重組系統(tǒng)的器件以便替代失效的器件或把失效的器件與系統(tǒng)的其他部分隔離

8、開來(lái),也可使用冗余系統(tǒng),系統(tǒng)能力不降低。l恢復(fù):檢測(cè)和重組(若必要的話)之后,必須消除錯(cuò)誤效應(yīng)。通常,系統(tǒng)會(huì)回到故障檢測(cè)前處理過程的某一點(diǎn),并從這一點(diǎn)重新開始操作。這種恢復(fù)形式(一般叫卷回)通常需要后備文件、校驗(yàn)點(diǎn)和應(yīng)用記錄方法。l重啟動(dòng):如果一個(gè)錯(cuò)誤破壞的信息太多,或者系統(tǒng)沒有設(shè)計(jì)恢復(fù)功能,那么恢復(fù)功能也許就不可能。僅當(dāng)系統(tǒng)未受任何破壞時(shí),才能進(jìn)行“熱”重啟(從故障檢測(cè)點(diǎn)恢復(fù)所有操作的)。“溫”重啟指僅有某些過程可以毫無(wú)損失的重新啟動(dòng),“冷”重啟相當(dāng)于系統(tǒng)需要完全重新加載。l修復(fù):把診斷為故障的器件換下來(lái),與故障檢測(cè)一樣,修復(fù)也可以是聯(lián)機(jī)進(jìn)行的或者脫機(jī)進(jìn)行的。l重構(gòu):對(duì)元件進(jìn)行物理替換之后,

9、把修復(fù)的模塊重新加入到該系統(tǒng)中去。對(duì)聯(lián)機(jī)修復(fù)來(lái)說,實(shí)現(xiàn)重構(gòu)不中斷系統(tǒng)的工作。l第一代計(jì)算機(jī)(1946-1957)l第二代計(jì)算機(jī)(1957-1964)l第三代計(jì)算機(jī)(1964-1970)l第四代計(jì)算機(jī)(1970-)l現(xiàn)在l元件:電子管、繼電器及延遲線存儲(chǔ)器l問題:元件的失效率相當(dāng)高,并易受瞬時(shí)故障的影響l措施:特別設(shè)置的硬件故障檢測(cè)和人工恢復(fù)l1956,SAPO,捷克,三個(gè)CPU同時(shí)工作,對(duì)運(yùn)算結(jié)果進(jìn)行表決,存儲(chǔ)器采用奇偶校驗(yàn),具有單條指令重復(fù)執(zhí)行的功能lSAGE,美國(guó),用于防空系統(tǒng),采用雙機(jī)比較以檢測(cè)故障,并配合以恢復(fù)技術(shù)l元件:晶體管及磁芯存儲(chǔ)器l問題:失效率比第一代計(jì)算機(jī)元件大為降低l措施

10、:避錯(cuò)技術(shù)占統(tǒng)治地位,對(duì)故障一般采用診斷程序進(jìn)行脫機(jī)檢測(cè)l元件:集成電路l問題:元件的失效率繼續(xù)降低,但計(jì)算機(jī)應(yīng)用范圍擴(kuò)大,對(duì)計(jì)算機(jī)系統(tǒng)的可信性要求更高l措施:容錯(cuò)技術(shù)重新提出,并得到了較快的發(fā)展,并出現(xiàn)了許多 容錯(cuò)計(jì)算機(jī)l1964美國(guó)土星V號(hào)運(yùn)載火箭導(dǎo)航計(jì)算機(jī)研制成功,該機(jī)采用三模冗余及奇偶校驗(yàn)來(lái)實(shí)現(xiàn)容錯(cuò)l1969,美國(guó)噴射推進(jìn)實(shí)驗(yàn)室的STAR計(jì)算機(jī),其處理機(jī)采用三重表決加備份的混合冗余方式,并用算術(shù)檢錯(cuò)碼及雙機(jī)比較檢測(cè)故障。l1965,貝爾實(shí)驗(yàn)室研制成功1號(hào)ESS處理機(jī),是用于電話交換的計(jì)算機(jī)系統(tǒng),采用了雙機(jī)比較技術(shù),是專用的硬件及軟件進(jìn)行故障的檢測(cè)、定位及識(shí)別。l元件:大規(guī)模和超大規(guī)模集

11、成電路l問題:硬件可靠性大大提高而價(jià)格卻大幅度降低,使采用各種容錯(cuò)技術(shù)在經(jīng)濟(jì)上更易接受。l需求:容錯(cuò)技術(shù)應(yīng)用范圍擴(kuò)展于銀行事務(wù)處理及各種實(shí)時(shí)控制系統(tǒng),甚至許多通用計(jì)算機(jī)系統(tǒng)也采用了容錯(cuò)技術(shù)l1975,美國(guó)貝爾實(shí)現(xiàn)室的3A號(hào)ESS處理l1975,美國(guó)TANDEM 16容錯(cuò)事務(wù)處理系統(tǒng)l1976,美國(guó)AMDAHL 470V/6容錯(cuò)通用計(jì)算機(jī)l1978,容錯(cuò)空間計(jì)算機(jī)FTSCl1979,IBM推出容錯(cuò)的4300通用計(jì)算機(jī)系列l(wèi)1980,容錯(cuò)多處理機(jī)FTMP及軟件實(shí)現(xiàn)的容錯(cuò)計(jì)算機(jī)SIFT研制成功l出現(xiàn)了商用容錯(cuò)計(jì)算機(jī)市場(chǎng)l分布式容錯(cuò)計(jì)算機(jī)系統(tǒng)的出現(xiàn)l容錯(cuò)的VLSI技術(shù)l人工智能在容錯(cuò)技術(shù)上的應(yīng)用計(jì)算機(jī)

12、故障診斷專家系統(tǒng)l1952,馮諾依曼作了一系列關(guān)于用重復(fù)邏輯模塊改善系統(tǒng)可靠性的報(bào)告l1956,他發(fā)表論文概率邏輯及用不可靠元件設(shè)計(jì)可靠的結(jié)構(gòu)l1971年以來(lái),IEEE計(jì)算機(jī)學(xué)會(huì)容錯(cuò)技術(shù)委員會(huì)每年召開一次國(guó)際容錯(cuò)計(jì)算學(xué)術(shù)會(huì)議l1987年中國(guó)計(jì)算機(jī)學(xué)會(huì)成為了容錯(cuò)計(jì)算專業(yè)委員會(huì)l故障檢測(cè)與診斷技術(shù)l故障屏蔽技術(shù)l動(dòng)態(tài)冗余技術(shù)l軟件容錯(cuò)技術(shù)l信息保護(hù)技術(shù)l容錯(cuò)技術(shù)的主要組成部分,又是微電子技術(shù)的支撐技術(shù)l故障檢測(cè)(Fault Detection):判斷系統(tǒng)是否存在故障的過程l故障定位(Fault Location):判斷系統(tǒng)在哪里發(fā)生故障的過程l故障測(cè)試(Fault Testing):又稱故障診斷(

13、Fault Diagnosis),故障檢測(cè)和故障定位,主要包括:測(cè)試集生成技術(shù),功能測(cè)試技術(shù),系統(tǒng)診斷技術(shù)l故障檢測(cè)的作用是確認(rèn)系統(tǒng)是否發(fā)生了故障,指示故障的狀態(tài),即查找故障源和故障性質(zhì)。一般來(lái)說,故障檢測(cè)只能找到錯(cuò)誤點(diǎn)(錯(cuò)誤單元),不能準(zhǔn)確找到故障點(diǎn)。l故障診斷的作用是給出故障定位。l基于檢錯(cuò)糾錯(cuò)碼的編碼技術(shù)。在數(shù)據(jù)的傳輸、存儲(chǔ)、處理過程中,根據(jù)信息位和校驗(yàn)位之間的相關(guān)性進(jìn)行檢查,判定信息是否出錯(cuò)、錯(cuò)在哪里,并進(jìn)行糾正。常用的檢錯(cuò)碼編碼技術(shù)有奇偶校驗(yàn)碼、循環(huán)碼、海明碼等。l其他故障檢測(cè)與診斷技術(shù)l故障屏蔽技術(shù)是防止系統(tǒng)中的故障在該系統(tǒng)的信息結(jié)構(gòu)中產(chǎn)生差錯(cuò)的各種措施的總稱,其實(shí)質(zhì)是在故障效應(yīng)達(dá)

14、到模塊的輸出以前,利用冗余資源將故障影響掩蓋起來(lái),達(dá)到容錯(cuò)目的。l特點(diǎn):不改變系統(tǒng)的結(jié)構(gòu),即系統(tǒng)部件之間的邏輯關(guān)系相互固定,又稱靜態(tài)冗余技術(shù)l元件級(jí)故障屏蔽技術(shù)l邏輯級(jí)故障屏蔽技術(shù)主要用于設(shè)計(jì)一些高可靠性的容錯(cuò)專用集成電路芯片和不宜放在功能模塊一級(jí)上進(jìn)行容錯(cuò)設(shè)計(jì)的關(guān)鍵硬核l模塊級(jí)故障屏蔽技術(shù)l系統(tǒng)級(jí)故障屏蔽技術(shù)由兩個(gè)以上的相同系統(tǒng)合成一個(gè)系統(tǒng),冗余系統(tǒng)間通過相互校驗(yàn)來(lái)保持正常運(yùn)行。l硬件冗余:在常規(guī)設(shè)計(jì)的硬件之外附加備份硬件,包括靜態(tài)冗余、動(dòng)態(tài)冗余l(xiāng)時(shí)間冗余:重復(fù)地執(zhí)行指令或一段程序而附加額外的時(shí)間l信息冗余:增加信息的多余度,使其具有檢錯(cuò)和糾錯(cuò)能力l軟件冗余:用于測(cè)試、檢錯(cuò)的外加程序l軟件容

15、錯(cuò)是指在出現(xiàn)有限數(shù)目的軟件故障的情況下,系統(tǒng)仍可提供連續(xù)正確執(zhí)行的內(nèi)在能力。其目的是屏蔽軟件故障,恢復(fù)因出故障而影響的運(yùn)行進(jìn)程。l軟件容錯(cuò)技術(shù)主要包括N版本程序設(shè)計(jì)和恢復(fù)塊技術(shù)l信息保護(hù)技術(shù),是指為了防止信息被不正當(dāng)?shù)卮嫒』蚱茐亩扇〉拇胧基本的信息保護(hù)技術(shù)分為以下四種:編碼化與密碼化、資格檢查、內(nèi)存保護(hù)、外存保護(hù)。l容錯(cuò)技術(shù)的應(yīng)用是網(wǎng)絡(luò)時(shí)代電子商務(wù)的客觀需求 l軟件容錯(cuò)技術(shù)將有較大進(jìn)展l硬件容錯(cuò)、操作系統(tǒng)容錯(cuò)相結(jié)合的容錯(cuò)設(shè)計(jì)方法將備受重視 lVLSI的容錯(cuò)設(shè)計(jì)技術(shù)將發(fā)揮巨大作用 l系統(tǒng)容錯(cuò)設(shè)計(jì)的應(yīng)用目標(biāo)明確 l容錯(cuò)技術(shù)應(yīng)用向PC發(fā)展 l容錯(cuò)技術(shù)向智能化發(fā)展 l容錯(cuò)技術(shù)應(yīng)用和應(yīng)用服務(wù)技術(shù)相

16、結(jié)合 l容錯(cuò)技術(shù)將走向開放化、標(biāo)準(zhǔn)化 2.1 聯(lián)機(jī)檢測(cè)和脫機(jī)檢測(cè)2.2 邏輯網(wǎng)絡(luò)的故障安全與自校驗(yàn)特性2.3 自校驗(yàn)網(wǎng)絡(luò)的基本結(jié)構(gòu)l聯(lián)機(jī)檢測(cè)與診斷:在系統(tǒng)運(yùn)行期間實(shí)現(xiàn)自我檢測(cè)與診斷的過程,也叫自檢測(cè)與自診斷,是提高系統(tǒng)可靠性的重要環(huán)節(jié)。l脫機(jī)檢測(cè)與診斷:在系統(tǒng)非運(yùn)行期間進(jìn)行檢測(cè)與診斷,是提高系統(tǒng)可用度、可維性的重要環(huán)節(jié)。l在系統(tǒng)中投入一定的冗余資源(指超過系統(tǒng)額定功能所需的資源),使系統(tǒng)在運(yùn)行中不僅能輸出功能所要求的信息,而且能輸出一些額外的信息。l實(shí)質(zhì)是可靠性編碼技術(shù)在系統(tǒng)設(shè)計(jì)中的應(yīng)用,是一種以硬件冗余為主的檢測(cè)與診斷技術(shù)l一個(gè)自檢測(cè)的系統(tǒng),其所有可能的輸出值的集合為U(輸出空間),由S和U

17、-S兩部分組成lS:系統(tǒng)的輸出碼,系統(tǒng)無(wú)故障時(shí)的輸出lU-S:系統(tǒng)出現(xiàn)故障時(shí)候的輸出,若能指示系統(tǒng)是否發(fā)生故障,則稱之為檢錯(cuò)碼;若能指示系統(tǒng)中哪個(gè)部件發(fā)生的故障,則稱之為診錯(cuò)碼l應(yīng)用軟件診斷程序,先優(yōu)化生成并輸入一組測(cè)試向量給系統(tǒng),然后觀測(cè)并分析系統(tǒng)的測(cè)試響應(yīng),以確定系統(tǒng)是否發(fā)生故障或哪個(gè)部件發(fā)生的故障。1、故障安全特性2、自校驗(yàn)特性l一個(gè)數(shù)字邏輯網(wǎng)絡(luò),對(duì)給定故障集F,如果在任何有效輸入碼激勵(lì)下,都不會(huì)因?yàn)楣收隙敵鲥e(cuò)誤的有效輸出碼,則稱它對(duì)故障集F是故障安全(Fault-Secure,F(xiàn)SE)的。l若該網(wǎng)絡(luò)在任意輸入碼激勵(lì)下,對(duì)給定故障集F都不會(huì)輸出錯(cuò)誤的有效輸出碼,則稱它對(duì)故障集F是強(qiáng)故障

18、安全的。l輸入是正確的,則輸出為正確的有效碼或無(wú)效碼,而不會(huì)輸出錯(cuò)誤的有效碼l這樣的系統(tǒng)不會(huì)因?yàn)楣收洗嬖诙斐慑e(cuò)誤的有效輸出,稱之為故障安全的系統(tǒng)l若輸出是無(wú)效碼,則該系統(tǒng)必有故障存在l若輸出的是有效碼,則不能斷定該系統(tǒng)是否有故障,但可斷定它的輸出是正確的l系統(tǒng)可能存在不可測(cè)故障l如果一個(gè)數(shù)字邏輯網(wǎng)絡(luò)對(duì)于給定故障集F內(nèi)的每一個(gè)故障,至少存在一個(gè)有效的輸入碼能使它的輸出產(chǎn)生一個(gè)無(wú)效輸出碼字,則稱該網(wǎng)絡(luò)對(duì)于故障集F是可自校驗(yàn)(Self-Testing,ST)的。l凡可自校驗(yàn)的系統(tǒng),可從觀測(cè)輸出碼字是否為有效碼字來(lái)判別其是否有故障,而且一定有一個(gè)校驗(yàn)碼就包含在有效的輸出碼字集合中。l所有故障的集合:

19、可自校驗(yàn)的故障集Ft,安全故障集Fs;l所有輸入向量的集合:正常輸入集N,故障安全輸入集I;l所有輸出向量的集合:輸出碼空間Sl表示沿未引起錯(cuò)誤的故障或表示系統(tǒng)無(wú)故障,Z(Xi,)表示系統(tǒng)無(wú)故障時(shí)的輸出lZ(Xi,fi)表示在Xi輸入時(shí),系統(tǒng)對(duì)故障fi的輸出所有故障FtFsf1f2f3所有輸入向量NX1IX2X3所有輸出向量SZ(X1,f1)Z(X1,f3)Z(X1,f2)Z(X1,)Z(X2,)Z(X2,f2)Z(X2,f3)Z(X2,f1)Z(X3,f2)Z(X3,)自校驗(yàn)性故障安全性l自校驗(yàn)系統(tǒng)的性質(zhì)由系統(tǒng)結(jié)構(gòu)和運(yùn)行環(huán)境所決定。l給定的N(由環(huán)境決定),F(xiàn)t由N能檢測(cè)到的所有故障組成。相

20、反,I不是由環(huán)境決定的(N的子集),而是由Fs決定。lFs是人為選擇的一個(gè)非空故障集。l完全自校驗(yàn)系統(tǒng):如果一個(gè)系統(tǒng)對(duì)正常輸入集N和故障集Ft是自校驗(yàn)的,并且對(duì)于N和故障集Fs是故障安全的,則稱該系統(tǒng)為完全自校驗(yàn)系統(tǒng)(TSC:Totally Self-Checking)。l部分自校驗(yàn)系統(tǒng):如果一個(gè)系統(tǒng)對(duì)于正常輸入集N和故障集Ft是自校驗(yàn)的,并且對(duì)于N的一個(gè)非空真子集I和故障集Fs是故障安全的,則稱該系統(tǒng)為部分自校驗(yàn)系統(tǒng)(PSC,Partially Self-Checking)。l僅自校驗(yàn)系統(tǒng):如果一個(gè)系統(tǒng)對(duì)正常輸入集N和故障集Ft是自校驗(yàn)的,但對(duì)于N的任何非空子集和故障集Fs都不具有故障安全性

21、,則稱該系統(tǒng)為僅自校驗(yàn)系統(tǒng)。l自校驗(yàn)網(wǎng)絡(luò):無(wú)需施加特定的測(cè)試輸入碼來(lái)判定是否存在故障,而是在正常工作的過程中,由一個(gè)稱為校驗(yàn)器的電路通過監(jiān)視自校驗(yàn)功能模塊的輸出狀態(tài)而自動(dòng)指示有無(wú)錯(cuò)誤。自校驗(yàn)功能模塊輸入XN檢測(cè)器/校正器檢錯(cuò)/糾錯(cuò)編碼輸出Z(X,) SZ(X, f ) S錯(cuò)誤指示l檢測(cè)器:當(dāng)出現(xiàn)無(wú)效碼時(shí),指示錯(cuò)誤狀態(tài),可構(gòu)成自檢測(cè)網(wǎng)絡(luò)。l校正器:當(dāng)出現(xiàn)無(wú)效碼時(shí),指示出錯(cuò)位置,并予以糾正,可構(gòu)成自診斷網(wǎng)絡(luò)或故障屏蔽網(wǎng)絡(luò)。l概述l元件級(jí)故障屏蔽技術(shù)l邏輯級(jí)故障屏蔽技術(shù)l模塊級(jí)故障屏蔽技術(shù)l系統(tǒng)級(jí)故障屏蔽技術(shù)l故障屏蔽技術(shù)(Fault Masking Technology)l防止系統(tǒng)中的故障在該系統(tǒng)

22、的信息結(jié)構(gòu)中產(chǎn)生差錯(cuò)的各種措施的總稱,其實(shí)質(zhì)是在故障效應(yīng)達(dá)到模塊的輸出以前,利用冗余資源將故障影響掩蓋起來(lái),達(dá)到容錯(cuò)目的。l二倍冗余l(xiāng)四倍冗余l(xiāng)橋接冗余IO單個(gè)元件IO并聯(lián)結(jié)構(gòu)I串聯(lián)結(jié)構(gòu)OCCCCC設(shè)三級(jí)管發(fā)生開路故障的概率為q0,發(fā)生短路故障的概率為qs,正常工作的概率為p:對(duì)于單個(gè)元件:p=1- q0 qs對(duì)于并聯(lián)結(jié)構(gòu):p=1-q02 -2 qs+qs2發(fā)生開路故障的概率為: q02發(fā)生短路故障的概率為:1-(1- qs )2對(duì)于串聯(lián)結(jié)構(gòu): p=1-2 q0+q02 -qs2發(fā)生開路故障的概率為: 1-(1- q0 )2發(fā)生短路故障的概率為:qs2IO并串聯(lián)結(jié)構(gòu)I串并聯(lián)結(jié)構(gòu)OCCCCCCC

23、C設(shè)三級(jí)管發(fā)生開路故障的概率為q0,發(fā)生短路故障的概率為qs,正常工作的概率為p:對(duì)于并串聯(lián)結(jié)構(gòu): p=1-2q02 +q04-4qs2+4qs3- qs4發(fā)生開路故障的概率為: 1-(1- q0 2 )2發(fā)生短路故障的概率為:1-(1- qs )2 2對(duì)于串并聯(lián)結(jié)構(gòu):p=1-4q02 +4q03-q04-2 qs2+qs4發(fā)生開路故障的概率為: 1-(1- q0 )2 2發(fā)生短路故障的概率為:1-(1- qs 2 )2l任一晶體管開路或短路l不是同一支路的兩個(gè)三極管短路(對(duì)串并聯(lián))或是不是同一回路的兩個(gè)三極管開路(對(duì)并串聯(lián)),或者每一支路都有一個(gè)三極管短路(對(duì)串并聯(lián))或每一回路都有一個(gè)三極管

24、開路(對(duì)并串聯(lián))l可以用在元件級(jí)l構(gòu)成獨(dú)立自足冗余,即不必增添邏輯線路來(lái)檢測(cè)故障與恢復(fù)信息l能滿足實(shí)時(shí)與連續(xù)可用條件l功耗大l對(duì)元件適應(yīng)條件要求較高l昂貴l結(jié)構(gòu)不能變,無(wú)靈活性l主要用于VLSI的設(shè)計(jì)中l(wèi)主要用于設(shè)計(jì)一些高可靠性的容錯(cuò)專用集成電路芯片和不宜放在功能模塊一級(jí)上進(jìn)行容錯(cuò)設(shè)計(jì)的關(guān)鍵硬核l多采用四倍冗余方案子部件1子部件k子部件k+1子部件n1P1P1P1PK個(gè)功能輸出N-K個(gè)校驗(yàn)輸出輸入1ml是以N倍冗余碼為基礎(chǔ),通為構(gòu)成N模冗余(NMR,N-Modular Redundancy)系統(tǒng)來(lái)實(shí)現(xiàn)故障屏蔽模塊1模塊2模塊n系統(tǒng)輸出差錯(cuò)指示輸入校正器l采用多個(gè)計(jì)算機(jī)系統(tǒng)來(lái)實(shí)現(xiàn)系統(tǒng)的功能。也可

25、稱為多處理機(jī)或多計(jì)算機(jī)系統(tǒng)l常用的結(jié)構(gòu)有:均分負(fù)載系統(tǒng)結(jié)構(gòu)主備用系統(tǒng)結(jié)構(gòu)雙機(jī)協(xié)同系統(tǒng)結(jié)構(gòu)緊耦合多處理機(jī)系統(tǒng)結(jié)構(gòu)分布式系統(tǒng)結(jié)構(gòu)網(wǎng)絡(luò)結(jié)構(gòu)l硬件冗余l(xiāng)軟件冗余l(xiāng)數(shù)據(jù)冗余l(xiāng)動(dòng)態(tài)冗余技術(shù)l在系統(tǒng)結(jié)構(gòu)上通過增加冗余資源的方法來(lái)掩蓋故障造成的影響,使得即使出錯(cuò)或發(fā)生故障,系統(tǒng)的功能仍不受影響,仍能夠正常執(zhí)行預(yù)定任務(wù)的技術(shù)。l分為硬件冗余、軟件冗余與數(shù)據(jù)冗余l(xiāng)從系統(tǒng)功能上講,三者都是增加“多余的設(shè)備”(硬件、軟件或數(shù)據(jù))為代價(jià)的l靜態(tài)冗余l(xiāng)動(dòng)態(tài)冗余l(xiāng)主要方法l利用邏輯重疊技術(shù)有效地掩蔽硬件故障,又稱掩蔽冗余。典型代表是N取r系統(tǒng)(三取二的冗余)l原理:采用并聯(lián)結(jié)構(gòu),從輸入端輸入相同的信息,并執(zhí)行同樣的程序,完

26、成同樣的任務(wù),得到的結(jié)果送入表決器,以多數(shù)的結(jié)果作為最后的輸出。l優(yōu)點(diǎn):系統(tǒng)可不進(jìn)行故障檢測(cè)、定位和系統(tǒng)的恢復(fù)工作,省掉了大量的軟件工作,簡(jiǎn)單易行l(wèi)缺點(diǎn):增加了硬件設(shè)備,提高了系統(tǒng)的費(fèi)用采用輔助系統(tǒng)作為主系統(tǒng)的熱備份,正常狀態(tài)下主系統(tǒng)工作,并對(duì)主系統(tǒng)進(jìn)行故障檢測(cè)和定位,一旦診斷出故障發(fā)生的位置,系統(tǒng)能進(jìn)行自動(dòng)修復(fù)。l可采用多級(jí)硬件冗余方法,通過多種設(shè)備的冗余,提高系統(tǒng)的可靠性。l并聯(lián)冗余,備份冗余和表決系統(tǒng)l冷備份,熱備份l優(yōu)點(diǎn):不可間斷系統(tǒng)采用了計(jì)算機(jī)局域網(wǎng)絡(luò)或分布式計(jì)算機(jī)系統(tǒng),各子系統(tǒng)無(wú)需或少許增加硬件設(shè)備,就可以起到互為冗余的作用。即不增加系統(tǒng)的體積、重量、功能和成功,設(shè)備充分共享,提高

27、了利用率,弱化了故障l缺點(diǎn):雖然不增加硬件設(shè)備卻增加了大量軟件工作,系統(tǒng)研制的難度、周期和費(fèi)用增加了;用戶的應(yīng)用程序在系統(tǒng)中運(yùn)行,經(jīng)常被診斷程序中斷,遇到故障時(shí)自動(dòng)定位和恢復(fù)過程較慢;不適合實(shí)時(shí)性很強(qiáng)的系統(tǒng)l指針對(duì)軟件本身的故障,采用何種方法去防止由于軟件的錯(cuò)誤而導(dǎo)致的系統(tǒng)失效。l分為動(dòng)態(tài)冗余和靜態(tài)冗余l(xiāng)程序回卷(Program Rollback)l多道程序表決法l模塊恢復(fù)法l在執(zhí)行的程序中設(shè)置若干測(cè)試點(diǎn),在每個(gè)測(cè)試點(diǎn)上檢查輸出結(jié)果。當(dāng)測(cè)試程序檢測(cè)出錯(cuò)誤時(shí),就認(rèn)為正在執(zhí)行的程序是一個(gè)錯(cuò)誤的系統(tǒng)中運(yùn)行的,這段程序要被重新執(zhí)行,即程序的卷回。l優(yōu)點(diǎn):不增加硬件設(shè)備,軟件也不復(fù)雜l缺點(diǎn):系統(tǒng)的反映時(shí)

28、間和精度要受損失,對(duì)偶發(fā)性錯(cuò)誤有效,對(duì)固定的故障無(wú)能為力l對(duì)同一個(gè)問題按不同的算法編多個(gè)程序,對(duì)執(zhí)行的結(jié)果進(jìn)行表決。l串行執(zhí)行:費(fèi)時(shí),過多地占用主存空間,不符合實(shí)時(shí)性和實(shí)用性的要求l并行執(zhí)行:需要硬件支持l程序按照模塊執(zhí)行,每執(zhí)行完一塊,接著執(zhí)行一個(gè)測(cè)試程序,對(duì)剛執(zhí)行的程序進(jìn)行測(cè)試,通過后再執(zhí)行下一個(gè)模塊,通不過則重新執(zhí)行l(wèi)無(wú)法適應(yīng)實(shí)時(shí)系統(tǒng)的要求l又稱軟件存儲(chǔ)冗余,是把關(guān)鍵的系統(tǒng)程序和應(yīng)用程序在系統(tǒng)中多點(diǎn)存儲(chǔ)在主存或高速輔助存儲(chǔ)器中。l在正常狀態(tài)下,只執(zhí)行一處或幾處的程序,其它做備份,一旦程序遭破壞,則快速調(diào)入備用程序,使系統(tǒng)仍能正常工作。l系統(tǒng)程序和應(yīng)用程序可采取分布式存儲(chǔ),或集中式存儲(chǔ)方式

29、,或兩者結(jié)合l軟件的拷貝不能作為軟件的備份,這與硬件容錯(cuò)顯然不同。l軟件的替換是暫時(shí)性的,被替換的軟件部件仍可以重新使用,硬件部件則需重新修復(fù)才可使用。l軟件容錯(cuò)在實(shí)現(xiàn)技術(shù)上比硬件容錯(cuò)要復(fù)雜得多l(xiāng)主要應(yīng)用于數(shù)據(jù)庫(kù)系統(tǒng)中。l若某種故障使數(shù)據(jù)庫(kù)中當(dāng)前狀態(tài)不正確或可疑,就必須把數(shù)據(jù)庫(kù)恢復(fù)到某一正確的狀態(tài)l根據(jù)數(shù)據(jù)庫(kù)存儲(chǔ)的位置和方式,分為集中式的數(shù)據(jù)冗余和分布式的數(shù)據(jù)冗余l(xiāng)概述l重組l可重組的動(dòng)態(tài)N模冗余技術(shù)l恢復(fù)l多處理機(jī)系統(tǒng)的動(dòng)態(tài)冗余結(jié)構(gòu)與容錯(cuò)處理l模擬部件的冗余容錯(cuò)l動(dòng)態(tài)冗余設(shè)計(jì)的綜合考慮關(guān)鍵技術(shù):l故障檢測(cè)與診斷l(xiāng)選擇系統(tǒng)冗余結(jié)構(gòu),實(shí)現(xiàn)靜態(tài)冗余設(shè)計(jì)l重組:故障處理技術(shù)l恢復(fù)l定義:綜合運(yùn)用以上

30、幾種技術(shù)來(lái)達(dá)到更強(qiáng)容錯(cuò)能力的一種綜合性容錯(cuò)技術(shù)l動(dòng)態(tài):體現(xiàn)在作為系統(tǒng)正常資源的冗余模塊數(shù)隨著檢測(cè)到的故障數(shù)多少而變化l基本步驟:故障檢測(cè) 故障處理(重組) 系統(tǒng)恢復(fù)l有更大的隔離災(zāi)難性故障的能力l直到所有的后備單元都耗盡了,系統(tǒng)才失效l 利用程序卷回等手段可消除由瞬時(shí)故障引起的錯(cuò)誤l易于調(diào)節(jié)后備單元的數(shù)量與類型l可利用后備單元的不加電元件的潛在低失效率特點(diǎn)l避免了靜態(tài)冗余的電路圖相關(guān)、故障相依問題l可用標(biāo)準(zhǔn)診斷程序檢查后備單元l可增加系統(tǒng)平均壽命l重組的概念l后緩備份重組l緩慢降低重組l重組的主要功能是防止失效影響到系統(tǒng)的正常工作。當(dāng)檢測(cè)出系統(tǒng)有故障并實(shí)現(xiàn)了故障定位后,系統(tǒng)便通過更換或切除故障

31、模塊的方法來(lái)重新組合,達(dá)到排除或隔離故障的目的。l重組的基礎(chǔ)是結(jié)構(gòu)的冗余和基于冗余結(jié)構(gòu)的故障檢測(cè)與診斷。實(shí)際中,往往在檢出故障后通過中斷來(lái)觸發(fā)重組。l后援備份重組l緩慢降級(jí)重組l后援備份:后援備份:系統(tǒng)配置一組平時(shí)不工作的模塊作為工作模塊組中失效模塊的備份。在故障發(fā)生后,通過故障檢測(cè)觸發(fā)后備模塊取代失效模塊l兩種備份方式兩種備份方式“冷冷”備份:備份:平時(shí)備份模塊不通電“熱熱”備份:備份:平時(shí)備份模塊通電,處于工作狀態(tài)l緩慢降級(jí)是指當(dāng)系統(tǒng)的工作模塊出現(xiàn)故障模塊后,進(jìn)行無(wú)替換的切換,每檢出一個(gè)切除一個(gè),從而使系統(tǒng)的功能和性能逐步降級(jí)l兩種設(shè)計(jì)指導(dǎo)思想1、按要求的性能設(shè)計(jì)系統(tǒng)資源,當(dāng)出現(xiàn)失效模塊后

32、系統(tǒng)降級(jí)繼續(xù)運(yùn)行,直至失效累積到系統(tǒng)無(wú)法正常工作。主要用于一般用途的計(jì)算機(jī)2、系統(tǒng)最初設(shè)計(jì)成以超額資源、超級(jí)性能運(yùn)行,當(dāng)系統(tǒng) 出現(xiàn)失效時(shí),仍能維持一個(gè)基本要求的性能等級(jí)。主要用于許多關(guān)鍵應(yīng)用應(yīng)用的實(shí)時(shí)控制處理器中l(wèi)待命儲(chǔ)備式N模冗余l(xiāng)可重組二模冗余l(xiāng)單模替換結(jié)構(gòu)l成對(duì)替換結(jié)構(gòu)lN個(gè)相同的模塊中,只有一個(gè)為主用模塊處理于運(yùn)行狀態(tài),用以產(chǎn)生系統(tǒng)輸出,其余模塊都作為備份片于待命狀態(tài)。l自檢測(cè)系統(tǒng),也可用軟件周期性或定期性地進(jìn)行故障檢測(cè)N個(gè)模塊中總有兩個(gè)組成主用模塊對(duì),它們并行工作并進(jìn)行比較;一旦比較結(jié)果不致便啟動(dòng)重組,將該對(duì)模塊切除,而換上另外兩個(gè)備用模塊作為主模塊對(duì)。l在靜態(tài)二模冗余的基礎(chǔ)上增加故

33、障檢測(cè)和模塊切換裝置而構(gòu)成的l有兩種常見的冗余模式:主備用冗余模式和二模協(xié)同冗余模式l實(shí)質(zhì)上是待命儲(chǔ)備式N模冗余系統(tǒng)的一個(gè)特例l兩個(gè)相同的模塊通過一定的接口電路(包括檢測(cè)和切換裝置)連接起來(lái),一個(gè)主用,一個(gè)備用。l二模協(xié)同:指兩個(gè)模塊同時(shí)執(zhí)行相同的指令,處理相同的數(shù)據(jù),完成相同的任務(wù)。l如果二模均正常,則任取其中一個(gè)的輸出作為系統(tǒng)輸出;如果一個(gè)失效,則它的輸出封鎖,而將正常的輸出作為系統(tǒng)輸出。l自診斷方法:聯(lián)機(jī)模塊運(yùn)行自診斷程序l每個(gè)模塊設(shè)置自校驗(yàn)器l利用監(jiān)視定時(shí)器判別故障模塊,觸發(fā)重組l利用外部仲裁控制配置:強(qiáng)迫二模塊運(yùn)行同一“已知結(jié)果的測(cè)試程序”l微周期級(jí)同步l總線周期級(jí)同步l任務(wù)級(jí)同步l

34、恢復(fù)的概念l恢復(fù)技術(shù)的方法 向前錯(cuò)誤恢復(fù)、向后錯(cuò)誤恢復(fù)(3) 常用恢復(fù)算法(4) 計(jì)算機(jī)系統(tǒng)基本部分的恢復(fù)技術(shù)(5) 文件恢復(fù)技術(shù)(6) 通信系統(tǒng)的恢復(fù)技術(shù)恢復(fù)是系統(tǒng)利用重組處理了永久故障等不可恢復(fù)硬件故障后,實(shí)現(xiàn)動(dòng)態(tài)冗余和容錯(cuò)的必不可少的環(huán)節(jié)。其作用是消除錯(cuò)誤造成的影響,使系統(tǒng)自動(dòng)恢復(fù)到正常工作狀態(tài)重新運(yùn)行下去。l向前錯(cuò)誤恢復(fù)l向后錯(cuò)誤恢復(fù)l概念:概念:根據(jù)系統(tǒng)的故障特征,校正出錯(cuò)的系統(tǒng)狀態(tài),使系統(tǒng)進(jìn)程正確運(yùn)行下去。這種恢復(fù)技術(shù)不需要保存系統(tǒng)出錯(cuò)前的狀態(tài)和信息,不需要卷回重運(yùn)行。l優(yōu)點(diǎn):優(yōu)點(diǎn):系統(tǒng)開銷小,無(wú)需保存恢復(fù)點(diǎn)信息的時(shí)間和空間;可避免多米諾效應(yīng)。多米諾效應(yīng):多米諾效應(yīng):伴隨“卷回”操

35、作而產(chǎn)生的一種連鎖倒退、直至退回到任務(wù)起點(diǎn)的反應(yīng)現(xiàn)象。在多進(jìn)程計(jì)算機(jī)系統(tǒng)中極易產(chǎn)生多米諾現(xiàn)象。l缺點(diǎn):缺點(diǎn):(1)恢復(fù)算法復(fù)雜,必須基于對(duì)故障特征和錯(cuò)誤性質(zhì)的深刻而全面的認(rèn)識(shí)。(2)不能采取措施來(lái)消除錯(cuò)誤或掩蓋故障。向后錯(cuò)誤恢復(fù)技術(shù)是把出錯(cuò)的系統(tǒng)進(jìn)程從當(dāng)前錯(cuò)誤狀態(tài)卷回到以前的某一正確狀態(tài),然后從這一狀態(tài)開始繼續(xù)系統(tǒng)的運(yùn)行。這種恢復(fù)方式是以事先建立恢復(fù)點(diǎn)為基礎(chǔ)的(1)保證為每個(gè)任務(wù)或進(jìn)程的程序模塊設(shè)置一 組恢復(fù)點(diǎn),并將系統(tǒng)正常運(yùn)行到各恢復(fù)點(diǎn) 時(shí)的狀態(tài)和必要信息予以保存,以便程序 一旦返回到該點(diǎn)時(shí)可以糾正故障影響。(2)避免因多模塊間通信而產(chǎn)生的多米諾效應(yīng), 關(guān)鍵在于選擇恢復(fù)點(diǎn)。(3)盡量保持各模

36、塊原有的并行性。(4)使各模塊保持獨(dú)立性,并使恢復(fù)過程對(duì)設(shè) 計(jì)者具有透明性。(5)避免因恢復(fù)造成多模塊的死鎖。(6)使恢復(fù)操作盡量少增加系統(tǒng)開銷。(7)具有完整性和一致性l靜態(tài)規(guī)劃法l無(wú)規(guī)劃法l動(dòng)態(tài)規(guī)劃法l優(yōu)點(diǎn):實(shí)現(xiàn)簡(jiǎn)單、恢復(fù)可靠l缺點(diǎn):系統(tǒng)的時(shí)間、空間開銷大,易引起多米諾效應(yīng)l程序卷回l記日志l恢復(fù)塊l原子操作l預(yù)設(shè)陷阱l糾錯(cuò)編碼l多數(shù)表決l向后錯(cuò)誤恢復(fù)方法l適用于瞬時(shí)錯(cuò)誤和永久錯(cuò)誤檢測(cè)l系統(tǒng)在運(yùn)行過程中一經(jīng)發(fā)現(xiàn)錯(cuò)誤,便進(jìn)行程序卷回,返回到起始點(diǎn)或離出錯(cuò)點(diǎn)最近的預(yù)設(shè)恢復(fù)點(diǎn)重試。微指令重試替換數(shù)據(jù)重試l恢復(fù)點(diǎn)的數(shù)目和位置選擇問題l各恢復(fù)點(diǎn)需要保存的狀態(tài)和信息量的確定問題l恢復(fù)點(diǎn)的功能設(shè)置問題l

37、程序卷回級(jí)別的選擇問題l同步功能l存檔功能l存檔內(nèi)容的更新功能l報(bào)告功能l向后錯(cuò)誤恢復(fù)方法l在進(jìn)程開始時(shí),保存初始數(shù)據(jù)的副本作為后備數(shù)據(jù),并在進(jìn)程執(zhí)行中,記下影響這些數(shù)據(jù)的全部業(yè)務(wù)。l向后恢復(fù)方法,以錯(cuò)誤檢測(cè)、向后冗余和多份軟件模塊為基礎(chǔ)l由恢復(fù)點(diǎn)、替換算法和驗(yàn)收測(cè)試三部分組成恢復(fù)點(diǎn):保存在恢復(fù)塊內(nèi)會(huì)發(fā)生變化的全局變量替換算法:一個(gè)或多個(gè)不同版本、但功能相同的備用程序模塊驗(yàn)收測(cè)試:一組邏輯表達(dá)式模塊,設(shè)置在每個(gè)替換算法的出口,用于檢測(cè)計(jì)算結(jié)果的正確性、合理性l滿足要求測(cè)試:算法執(zhí)行后完成必定滿足要求l合理性測(cè)試l審計(jì)測(cè)試l運(yùn)行時(shí)間測(cè)試l特性:一個(gè)原子操作可以只屬于一個(gè)進(jìn)程,也可以由多個(gè)進(jìn)程共享

38、原子操作是可嵌套的l一種錯(cuò)誤檢測(cè)的方法,還是一種確定一個(gè)故障的可能結(jié)果的界限的方法l可用于向前和向后錯(cuò)誤恢復(fù)l向前錯(cuò)誤恢復(fù)方法l根據(jù)系統(tǒng)可能出現(xiàn)的異常情況,設(shè)計(jì)一組處理程序,建立一個(gè)異常處理程序庫(kù),當(dāng)系統(tǒng)因故障而出現(xiàn)某種預(yù)料中的異常情況時(shí),便從庫(kù)中調(diào)用相應(yīng)的異常處理程序進(jìn)行處理,實(shí)現(xiàn)錯(cuò)誤恢復(fù)l通過在信息位的基礎(chǔ)上增加校驗(yàn)位,可以準(zhǔn)確地檢測(cè)出傳輸、存儲(chǔ)的信息中出現(xiàn)的差錯(cuò)和差錯(cuò)的位置,并能以正確的值校正差錯(cuò)值,使信息恢復(fù)到原來(lái)正確狀態(tài)。l可用于故障診斷、屏蔽,差錯(cuò)恢復(fù)l向前錯(cuò)誤恢復(fù),可以屏蔽錯(cuò)誤,并診斷出錯(cuò)位置l在多處理機(jī)系統(tǒng)中,多個(gè)處理機(jī)獨(dú)立運(yùn)行同一任務(wù),并同步完成相同的功能,按“擇多原則”得出

39、正確的結(jié)果值l中央處理機(jī)的故障排除與恢復(fù)l存儲(chǔ)器故障排除與恢復(fù)l外設(shè)的故障排除與恢復(fù)常見故障:l內(nèi)部硬件故障:由模塊或裝置內(nèi)的各種硬件校驗(yàn)和接口校驗(yàn)驗(yàn)出l程序錯(cuò)誤:可作為程序執(zhí)行時(shí)的軟件異常狀態(tài)和例外狀態(tài)由硬件檢驗(yàn)機(jī)構(gòu)檢出CPU1硬件故障硬件重試成功保存現(xiàn)場(chǎng)運(yùn)行信息多處理機(jī)?CPU1永久故障停機(jī),并保存現(xiàn)場(chǎng)運(yùn)行信息中斷CPUi(i=1)OS的功能恢復(fù)例行程序應(yīng)用軟件恢復(fù)例行程序有關(guān)處理任務(wù)異常終結(jié)繼續(xù)工作能恢復(fù)?CPU執(zhí)行OSNNYNYYNl硬件檢測(cè)機(jī)構(gòu)一旦檢出程序異常,立即發(fā)出程序錯(cuò)誤中斷(如非法操作碼中斷、指令使用錯(cuò)誤中斷等)報(bào)告給操作系統(tǒng)l對(duì)于操作系統(tǒng)中發(fā)生的程序錯(cuò)誤,通常采用“預(yù)設(shè)陷阱

40、”恢復(fù)算法,針對(duì)不同的程序錯(cuò)誤中斷,啟動(dòng)不同的“異常處理”程序。l對(duì)于用戶處理程序中發(fā)生的程序錯(cuò)誤恢復(fù)塊技術(shù)預(yù)設(shè)陷阱恢復(fù)方法l檢測(cè):奇偶校驗(yàn)電路、靜態(tài)測(cè)試、動(dòng)態(tài)測(cè)試等軟件檢測(cè)手法、海明碼l一旦檢測(cè)出有錯(cuò),檢測(cè)機(jī)構(gòu)向CPU發(fā)出中斷,啟動(dòng)運(yùn)行存儲(chǔ)器排除故障與恢復(fù)的中斷處理程序l處理方法:先了解發(fā)生誤操作的存儲(chǔ)器地址或芯片等故障信息,然后重新從外部存儲(chǔ)器調(diào)入出錯(cuò)的程序,從斷點(diǎn)處開始重試,看能否恢復(fù);若重試不成功,進(jìn)行硬件重組和重組后的恢復(fù)l重新調(diào)入執(zhí)行的程序,可重入(Reenterable)且可再生(Refreshable)的程序外設(shè):與CPU控制輸入/輸出設(shè)備工作相關(guān)的硬件組成部分:并行或串行I/

41、O通道、設(shè)備驅(qū)動(dòng)器、I/O設(shè)備和數(shù)據(jù)存取路徑l外設(shè)故障對(duì)策l外設(shè)故障的處理步驟l存取路徑多重化l設(shè)備的物理多重化:將信息同時(shí)寫入若干相同的設(shè)備l設(shè)備的邏輯多重化:為同一功能安排兩個(gè)以上的實(shí)體設(shè)備復(fù)制件,而且設(shè)置幾種不同的設(shè)備l用硬件或軟件重試硬件重試:由I/O通道、設(shè)備驅(qū)動(dòng)器對(duì)指令自動(dòng)重試軟件重試: 先在發(fā)生I/O操作錯(cuò)的同一存取路徑上進(jìn)行;若失敗,再改用另一路徑重試l故障的區(qū)分診斷l(xiāng)故障設(shè)備的重組l定時(shí)監(jiān)視用硬件/軟件重試成功?故障的區(qū)分診斷故障設(shè)備重組定時(shí)監(jiān)視超時(shí)?YNYN繼續(xù)運(yùn)行通道1驅(qū)動(dòng)器1通道2驅(qū)動(dòng)器2TDDP11P12P2212外存l將故障設(shè)備和故障單元在邏輯上與系統(tǒng)切斷,禁止存取

42、,通知操作員切除維修l故障設(shè)備修復(fù)后,在實(shí)際投入系統(tǒng)應(yīng)用前以診斷工作方式讀寫檢驗(yàn)其是否正常和可靠,稱為故障修復(fù)后的驗(yàn)收診斷l(xiāng)文件:計(jì)算機(jī)系統(tǒng)中具有邏輯關(guān)系的信息/數(shù)據(jù)的集合l文件恢復(fù)的故障前處理l文件恢復(fù)的故障后處理l故障前處理:在系統(tǒng)運(yùn)行過程中、故障發(fā)生前,將文件恢復(fù)所必需的信息記錄下來(lái)l故障后處理:系統(tǒng)因故障發(fā)生而中斷運(yùn)行時(shí),利用故障前記錄的信息使剛剛發(fā)生故障的文件及系統(tǒng)的其他狀態(tài)得到恢復(fù),使系統(tǒng)重新運(yùn)行l(wèi)二重化方式l虛擬空間方式l恢復(fù)點(diǎn)方式l報(bào)文記錄方式l全轉(zhuǎn)儲(chǔ)方式lID轉(zhuǎn)儲(chǔ)/狀態(tài)轉(zhuǎn)儲(chǔ)方式將重要信息二重化l更新文件時(shí),將文件復(fù)制到別的文件空間后再更新l虛擬空間:用于更新別的文件空間l聯(lián)機(jī)

43、系統(tǒng)使用l分類周期轉(zhuǎn)儲(chǔ):按一定時(shí)間周期,定期轉(zhuǎn)儲(chǔ)系統(tǒng)恢復(fù)所需的基本信息增量轉(zhuǎn)儲(chǔ):在文件每次更新前保存下文件的內(nèi)容、識(shí)別號(hào)、處理時(shí)間等信息l常用于小型報(bào)文交換系統(tǒng)l在形成輸入、輸出報(bào)文記錄時(shí)都附加上一定的識(shí)別號(hào)碼,然后系統(tǒng)恢復(fù)時(shí)通過檢驗(yàn)識(shí)別號(hào)碼來(lái)確定具體的恢復(fù)策略l每過一定時(shí)間,將系統(tǒng)運(yùn)行所必需的重要文件和需要長(zhǎng)期保存的信息全部從硬盤上轉(zhuǎn)儲(chǔ)到磁帶、光盤等后援存儲(chǔ)器上去。l轉(zhuǎn)儲(chǔ)系統(tǒng)的運(yùn)行狀態(tài)記錄,將記錄結(jié)合恢復(fù)點(diǎn)方式和報(bào)文記錄方式獲得的有關(guān)文件識(shí)別號(hào)碼、事務(wù)處理識(shí)別號(hào)碼、文件內(nèi)容等信息,恢復(fù)系統(tǒng)正常運(yùn)行狀態(tài)l狀態(tài)S0:接收完終端送來(lái)的報(bào)文時(shí)l狀態(tài)S1:在恢復(fù)點(diǎn)轉(zhuǎn)儲(chǔ)完文件更新信息,但尚未更新文件時(shí)l

44、狀態(tài)S2:用戶文件更新完成時(shí)l狀態(tài)S3:向終端發(fā)送輸出報(bào)文時(shí)l應(yīng)急恢復(fù)l文件恢復(fù)l系統(tǒng)恢復(fù)的優(yōu)先次序l利用ID轉(zhuǎn)儲(chǔ)/狀態(tài)轉(zhuǎn)儲(chǔ)信息和恢復(fù)點(diǎn)信息等,盡快使對(duì)用戶的服務(wù)重新開始的恢復(fù)l針對(duì)兩種故障狀態(tài):終端處于完全不能訪問系統(tǒng)中心的狀態(tài)終端送來(lái)的報(bào)文已輸入到系統(tǒng)中心,報(bào)文正在處理中或已處理完正等待輸出時(shí)發(fā)生故障的狀態(tài)讀出的文件發(fā)生故障時(shí),利用前一天的全轉(zhuǎn)儲(chǔ)信息和當(dāng)天的恢復(fù)點(diǎn)信息來(lái)恢復(fù)文件l終端控制程序的恢復(fù)處理l報(bào)文控制程序的恢復(fù)處理l通信系統(tǒng):由各機(jī)所屬的通信控制器和機(jī)間的通信線路網(wǎng)組成l通信控制器:故障檢測(cè):通過特設(shè)的回折試驗(yàn)線路和多重化通信的模擬輸入/輸出功能進(jìn)行檢測(cè)故障定位:終端控制程序的故

45、障區(qū)分例行程序l通信線路網(wǎng):交換線路網(wǎng)和專用線路網(wǎng)l終端控制程序:以終端、通信線路網(wǎng)的控制為中心,使數(shù)據(jù)正確而有效地傳送l報(bào)文控制程序:以一份報(bào)文為單位確保數(shù)據(jù)處理的正確性l業(yè)務(wù)控制程序:對(duì)接收的報(bào)文信息按應(yīng)用要求進(jìn)行綜合檢測(cè)報(bào)文錯(cuò)誤或傳送控制錯(cuò)誤l重試終端l代理接收l(shuí)試驗(yàn)呼叫用來(lái)校驗(yàn)報(bào)文格式和輸入/輸出流水號(hào)等錯(cuò)誤,并負(fù)責(zé)出錯(cuò)情況下的恢復(fù)處理工作l報(bào)文格式錯(cuò):將該份報(bào)文作廢并通知發(fā)送端重發(fā)l輸入流水號(hào)和輸出流水號(hào)錯(cuò)重號(hào):在接收端刪除重復(fù)報(bào)文漏號(hào):通知發(fā)送端重發(fā)l通信系統(tǒng)錯(cuò)誤恢復(fù)后,對(duì)中斷交換的報(bào)文處理重發(fā)脫發(fā):系統(tǒng)恢復(fù)工作總從下一份報(bào)文開始發(fā)送常用的多處理機(jī)冗余結(jié)構(gòu)(1)均分負(fù)載系統(tǒng)結(jié)構(gòu)(2

46、)主備用系統(tǒng)結(jié)構(gòu)(3)緊耦合系統(tǒng)結(jié)構(gòu)(4)分布式系統(tǒng)結(jié)構(gòu)(5)網(wǎng)絡(luò)結(jié)構(gòu)均分負(fù)載:把系統(tǒng)的負(fù)載基本均衡地分配給多個(gè)互相獨(dú)立的處理機(jī)來(lái)承擔(dān)特點(diǎn):有兩個(gè)或兩個(gè)以上的處理機(jī)有各處理機(jī)共享的主存儲(chǔ)器有各處理機(jī)共享的I/O子系統(tǒng)有統(tǒng)一的多機(jī)并發(fā)操作系統(tǒng)進(jìn)行控制l松耦合多處理機(jī)系統(tǒng)l相互通信的多個(gè)自治計(jì)算機(jī)節(jié)點(diǎn)的集合,各計(jì)算機(jī)即相互獨(dú)立,又是一個(gè)整體的組成部分,相互協(xié)作完成一個(gè)共同的任務(wù)l所有資源均可冗余l(xiāng)良好的可擴(kuò)性使得系統(tǒng)的冗余程度可隨應(yīng)用要求和環(huán)境的變化而作動(dòng)態(tài)調(diào)整l系統(tǒng)中資源在物理上是分散的,避免了由于局部故障而導(dǎo)致整個(gè)系統(tǒng)崩潰的現(xiàn)象l高速可靠的通信子網(wǎng)絡(luò)和資源的分散控制消除了單處理機(jī)和緊耦合多處理

47、機(jī)系統(tǒng)中存在的競(jìng)爭(zhēng)、數(shù)據(jù)流瓶頸和控制上的關(guān)鍵點(diǎn)l雙環(huán)結(jié)構(gòu)lC1,t環(huán)路結(jié)構(gòu)(n:節(jié)點(diǎn)數(shù),t:節(jié)點(diǎn)跳躍間隔)l多總線結(jié)構(gòu)l容錯(cuò)環(huán)總線結(jié)構(gòu)nl每個(gè)節(jié)點(diǎn)并不連接到所有的總線上,而是按一定規(guī)律連接在部分總線上l特點(diǎn):總線數(shù)增多時(shí),節(jié)點(diǎn)的端口數(shù)不必隨之增加每條總線的負(fù)載不會(huì)隨著節(jié)點(diǎn)的增加而明顯增大l網(wǎng)絡(luò)冗余性的表現(xiàn):終端設(shè)備與線路的多重冗余存取路徑的多重冗余引入集配器裝置l網(wǎng)絡(luò)結(jié)構(gòu)的基本形式:集中式網(wǎng)絡(luò)分布式網(wǎng)絡(luò)l軟件可靠性概述l軟件容錯(cuò)技術(shù)l信息保護(hù)技術(shù)l軟件可靠性和硬件可靠性的聯(lián)系和區(qū)別l軟件可靠性技術(shù)的內(nèi)涵l軟件可靠性定義l軟件可靠性指標(biāo)l軟件可靠性和硬件可靠性的聯(lián)系l軟件可靠性和硬件可靠性的區(qū)別

48、l軟、硬件故障機(jī)理l軟件故障的特性l指系統(tǒng)(或產(chǎn)品、模塊)在一定的條件下和一定時(shí)間內(nèi)能完成預(yù)定功能的性質(zhì)l兩者都是復(fù)雜性的函數(shù)l都可利用可靠性增長(zhǎng)來(lái)提高它們的可靠性l概念內(nèi)涵l指標(biāo)選擇l設(shè)計(jì)分析手段l提高可靠性的方法途徑l硬件故障來(lái)源于元部件的失效,“后生”的故障l軟件故障來(lái)源于人的失誤和水平、能力的局限性,“先天”的故障l固有性l環(huán)境敏感性運(yùn)行環(huán)境:硬件平臺(tái)、硬件配置、支撐軟件輸入環(huán)境:應(yīng)用對(duì)象,用戶要求,輸入數(shù)據(jù)等l故障影響的傳染性:任一軟件故障,只要未被除,始終存在于該軟件中,一旦引起錯(cuò)誤,是可以傳染給其他軟件的。l可靠性設(shè)計(jì):為了獲得高可靠性的軟件避錯(cuò)排錯(cuò)設(shè)計(jì)容錯(cuò)設(shè)計(jì)信息保護(hù)l可靠性分

49、析:通過建立一定的可靠性模型,為軟件可靠性設(shè)計(jì)和軟件維護(hù)提供必要的依據(jù)軟件可靠性技術(shù)設(shè)計(jì)技術(shù)分析技術(shù)避錯(cuò)排錯(cuò)技術(shù)容錯(cuò)技術(shù)信息保護(hù)技術(shù)可靠性模型管理技術(shù)設(shè)計(jì)方法學(xué)驗(yàn)證技術(shù)多版本技術(shù)恢復(fù)塊技術(shù)替換技術(shù)混合技術(shù)基本信息保護(hù)技術(shù)網(wǎng)絡(luò)信息保護(hù)技術(shù)時(shí)間技術(shù)計(jì)數(shù)技術(shù)播種技術(shù)數(shù)據(jù)技術(shù)l計(jì)算機(jī)軟件:與計(jì)算機(jī)系統(tǒng)的操作有關(guān)的程序、規(guī)程、規(guī)則以及與之有關(guān)的文件和數(shù)據(jù)l軟件質(zhì)量l軟件可靠性l指軟件產(chǎn)品滿足規(guī)定需求或隱含能力所有的特征和特征之和l軟件質(zhì)量指標(biāo)功能性(實(shí)用性、準(zhǔn)確性、互操作性、一致性和安全性)可靠性(成熟性、容錯(cuò)性、可恢復(fù)性)易使用性(易學(xué)性、易理解性、易操作性)效率(時(shí)間性、資源性)維護(hù)性(可分析性、易

50、修改性、穩(wěn)定性和易測(cè)試性)可移植性(適應(yīng)性、可安裝性、規(guī)范性和可換性)l在規(guī)定的條件下和規(guī)定的時(shí)間內(nèi),軟件成功地完成功能的能力或不引起系統(tǒng)故障的能力,稱為軟件可靠性l特點(diǎn):與軟件開發(fā)方法有關(guān)與驗(yàn)證方法有關(guān)與使用的程序設(shè)計(jì)語(yǔ)言、軟件的運(yùn)行環(huán)境條件、操作人員的素質(zhì)有關(guān)軟件可靠性指標(biāo)應(yīng)根據(jù)實(shí)際系統(tǒng)的可靠性指標(biāo)分析確定,并遵循以下原則:l與系統(tǒng)可靠性表示方法相協(xié)調(diào)l用戶概念l以使用過程中易觀測(cè)的參數(shù)來(lái)表示l針對(duì)具體的任務(wù),對(duì)不同的功能應(yīng)用不同的指標(biāo)和要求l軟件可靠度:軟件系統(tǒng)在特定的環(huán)境下,在規(guī)定的時(shí)間內(nèi)不發(fā)生故障地運(yùn)行的概率 (Rs(t)l故障率:軟件工作到某時(shí)刻t尚未失效,在時(shí)間t后單位時(shí)間內(nèi)發(fā)生

51、故障的概率 (s(t)l平均故障間隔時(shí)間:是軟件在交付用戶使用的操作期間,軟件各次故障的間隔時(shí)間的期望值 (MTBF)l平均故障前時(shí)間:是軟件經(jīng)測(cè)試過程中,軟件各次故障之間的間隔時(shí)間的期望值 (MTTF)l平均修復(fù)時(shí)間:軟件系統(tǒng)在特定的環(huán)境下,在規(guī)定的時(shí)間內(nèi),在規(guī)定的維修級(jí)別上,維修時(shí)間的平均值(MTTR)l平均不工作時(shí)間:軟件系統(tǒng)平均不工作時(shí)的時(shí)間l平均操作錯(cuò)誤時(shí)間:軟件操作錯(cuò)誤的平均間隔時(shí)間l軟件系統(tǒng)不工作時(shí)間均值:因軟件故障,系統(tǒng)不工作時(shí)間的平均值l可用性:軟件在規(guī)定的開始時(shí)刻t0運(yùn)行正常的條件下,在規(guī)定的未來(lái)時(shí)間t正常運(yùn)行的概率l初始錯(cuò)誤個(gè)數(shù)和剩余錯(cuò)誤個(gè)數(shù)l使用方誤用率:使用方在使用軟

52、件的總次數(shù)中,誤用次數(shù)所占的百分率l容錯(cuò)軟件的基本概述及原理l容錯(cuò)軟件設(shè)計(jì)的基本技術(shù)l容錯(cuò)軟件設(shè)計(jì)的先進(jìn)技術(shù)l容錯(cuò)軟件的定義l實(shí)現(xiàn)軟件容錯(cuò)的基本原理l實(shí)現(xiàn)容錯(cuò)軟件的有關(guān)技術(shù)l規(guī)定功能的軟件,如果在一定程序上對(duì)自身故障的作用具有屏蔽能力,那么,稱此軟件為具有容錯(cuò)功能的軟件,即容錯(cuò)軟件l規(guī)定功能的軟件,如果在一定程度上能從故障狀態(tài)自動(dòng)恢復(fù)到正常狀態(tài),則稱為容錯(cuò)軟件l規(guī)定功能的軟件,在因缺陷而出故障時(shí),仍然能在一定程度上完成預(yù)期的功能,則稱為容錯(cuò)軟件l規(guī)定功能的軟件,如果能在一定程序上具有容錯(cuò)能力,則稱為容錯(cuò)軟件l容錯(cuò)的對(duì)象是一個(gè)規(guī)定功能的軟件,這些功能是由需求規(guī)范定義的l容錯(cuò)的能力總是有一定限度的

53、l當(dāng)軟件由于自身存在缺陷而在運(yùn)行中出故障時(shí),若其為容錯(cuò)軟件,應(yīng)能屏蔽這一故障,對(duì)其進(jìn)行處理以避免失效(通過故障檢測(cè)算法、故障恢復(fù)算法、軟件冗余備份來(lái)實(shí)現(xiàn))l缺陷與因其而引起的故障間的關(guān)系十分復(fù)雜,依據(jù)對(duì)故障的觀測(cè)來(lái)確定缺陷難度是很大的l設(shè)計(jì)中的殘存缺陷大多已經(jīng)和軟件總體以及各階段中形成的文檔、資料等建立了密切的聯(lián)系,難以一舉排除l在研制時(shí)間上,不允許作曠日持久的檢驗(yàn)和修改將若干個(gè)根據(jù)同一規(guī)范編寫的不同程序(或程序塊),在不同空間同時(shí)運(yùn)行或在同一空間依次運(yùn)行,然后在每一個(gè)預(yù)定的檢測(cè)點(diǎn)上或最終通過表決或接收測(cè)試進(jìn)行裁決。在判明其正確或一致后接收這個(gè)結(jié)果,否則便加以拒絕,并作出報(bào)警。 結(jié)果報(bào)警正確執(zhí)

54、行可診斷的故障不可診斷的故障版本裁決器l裁決器判斷正確,軟件正確無(wú)誤地實(shí)現(xiàn)了需求規(guī)范所載的功能l裁決器判斷正確,發(fā)現(xiàn)故障,發(fā)出的報(bào)警,能制止系統(tǒng)失效導(dǎo)致嚴(yán)重的后果l裁決器判斷錯(cuò)誤或軟件存在不可診斷的故障,使系統(tǒng)最終失效l多(N)版本程序設(shè)計(jì)(N-Version Programming,NVP)結(jié)構(gòu)l恢復(fù)塊(Recovery Block,RB)技術(shù)l版本冗余l(xiāng)故障檢測(cè)技術(shù)l故障恢復(fù)技術(shù)l破壞估計(jì)l故障隔離技術(shù)l繼續(xù)服務(wù)l軟件斷言(Software Assertions)l軟件的自測(cè)試l軟件在宿主系統(tǒng)中運(yùn)行時(shí),能對(duì)其進(jìn)程或功能的正確與否作出判斷的條件稱為軟件斷言。l斷言提供三個(gè)結(jié)論:正確,不正確,

55、不能判別l正面校驗(yàn)(Positive Check)原則:測(cè)試軟件將輸入轉(zhuǎn)化為輸出的功能是否正確l反面校驗(yàn)(Negative Check)原則:將軟件輸出逆轉(zhuǎn)化為輸入,檢查是否正確l向前恢復(fù)l向后恢復(fù)故障檢測(cè)狀態(tài)恢復(fù)方案狀態(tài)恢復(fù)重構(gòu)重試?yán)^續(xù)服務(wù)向前向后l破壞估計(jì)判定故障被檢測(cè)出來(lái)之前已經(jīng)引起的破壞發(fā)生故障后,在處理的延滯或恢復(fù)實(shí)施過程中,無(wú)效信息在系統(tǒng)中傳播的可能性故障可能導(dǎo)致的其他未被檢測(cè)到的后續(xù)故障l故障隔離l繼續(xù)服務(wù)l主動(dòng)地采取措施,防止故障的破壞性蔓延的技術(shù)稱為故障隔離l權(quán)限最小化原則:對(duì)過程的數(shù)據(jù)加以嚴(yán)格的定義和限制,令過程不能提供任何超過事先規(guī)定限度的功能,也無(wú)權(quán)接受來(lái)自限定數(shù)據(jù)庫(kù)之

56、外的數(shù)據(jù)l確保向前恢復(fù)后的輸出序列中所失去的部分不致于影響軟件的基本功能l確保向后恢復(fù)后輸出序列中重復(fù)多余的部分和差錯(cuò)狀態(tài)不致影響輸出的正確執(zhí)行l(wèi)N版本程序設(shè)計(jì)(NVP)l恢復(fù)塊(Recovery Block)技術(shù)lNVP的思想來(lái)自硬件NMR(N-Modular Redundant)結(jié)構(gòu),是一種靜態(tài)冗余技術(shù)lNVP要求由N個(gè)實(shí)現(xiàn)相同功能的不同程序同時(shí)(或幾乎同時(shí))在松耦合計(jì)算機(jī)上運(yùn)行,然后比較運(yùn)行結(jié)果,在出現(xiàn)不一致的情況下,利用多數(shù)表決決定一個(gè)最優(yōu)先的結(jié)果版本1版本2版本N表決器結(jié)果告警多數(shù)少數(shù)l優(yōu)點(diǎn):結(jié)構(gòu)簡(jiǎn)單,不設(shè)計(jì)檢測(cè)程序來(lái)確定運(yùn)行結(jié)果的正確與否l缺點(diǎn):處理時(shí)間是單版本的N倍設(shè)計(jì)所花的力量

57、是單版本的N倍表決程序設(shè)計(jì)較困難當(dāng)該程序需要與外部事件同步時(shí),或在并行處理中在交互過程時(shí),難于處理思想來(lái)源于硬件的待機(jī)(Standby)冗余的動(dòng)態(tài)結(jié)構(gòu)l恢復(fù)塊的基本結(jié)構(gòu)l接收測(cè)試設(shè)計(jì)l替換塊的設(shè)計(jì)版本1接收測(cè)試版本2接收測(cè)試版本1接收測(cè)試結(jié)果告警接收接收l(shuí)逆向檢查:接收測(cè)試?yán)媚K中的結(jié)果,計(jì)算本應(yīng)采用的輸入值,并與真實(shí)輸入值比較以決定結(jié)果是否可接受l編碼校驗(yàn):利用糾、檢錯(cuò)碼的原理建立接收測(cè)試l合理性測(cè)試:根據(jù)可能的變化范圍,以便檢查變量是否越出范圍或狀態(tài)變化違反允許的序列l(wèi)結(jié)構(gòu)校驗(yàn):比如利用數(shù)據(jù)結(jié)構(gòu)鏈表的鏈接特性來(lái)進(jìn)行校驗(yàn)l帳目校驗(yàn):在事務(wù)處理中,帳目校驗(yàn)是用帳目平衡來(lái)作接收測(cè)試最方便的基準(zhǔn)

58、l運(yùn)行時(shí)間校驗(yàn):l相同加權(quán),獨(dú)立設(shè)計(jì)l優(yōu)先的、全功能設(shè)計(jì)l功能降級(jí)設(shè)計(jì)l一致性恢復(fù)塊l接收表決lN自檢程序設(shè)計(jì)按順序結(jié)合NVP和RB的混合系統(tǒng)稱為一致性恢復(fù)塊(CRB)。如果NVP失效,系統(tǒng)將恢復(fù)到RB。只有當(dāng)NVP和RB都失效時(shí)系統(tǒng)才發(fā)生故障。l與CRB混合方向反向,多個(gè)模塊并行執(zhí)行,模塊輸出先經(jīng)過接收測(cè)試,接收測(cè)試接受輸出后,結(jié)果再經(jīng)表決器表決。l表決器是動(dòng)態(tài)的,因?yàn)榻邮諟y(cè)試的輸出結(jié)果數(shù)目每次各不相同l只有兩個(gè)或多個(gè)輸出正確時(shí),表決器才產(chǎn)生一個(gè)決定lN個(gè)模塊成對(duì)執(zhí)行(N取偶數(shù))l采用比較模塊輸出或其他方法來(lái)判斷系統(tǒng)正確與否l比較模塊輸出:如果每一對(duì)的輸出之間不相同,則放棄輸出l各冗余軟件由

59、相互獨(dú)立的不同人員進(jìn)行開發(fā)l各冗余軟件以不同的形式說明l各冗余軟件的設(shè)計(jì)評(píng)審的參與人員不重復(fù)l各冗余軟件的最終規(guī)范及最終設(shè)計(jì)、最終編程由不重復(fù)的審核人員對(duì)照軟件需求、軟件規(guī)范、軟件設(shè)計(jì)進(jìn)行審核l如果開發(fā)采用了CAD工具,則各冗余軟件應(yīng)采用不同的CAD工具l各冗余軟件析測(cè)試程序的規(guī)范、測(cè)試方式、測(cè)試程序,盡可能由不重復(fù)的互相獨(dú)立的人員組開發(fā)l各冗余軟件應(yīng)在算法上相異l各冗余軟件應(yīng)在邏輯結(jié)構(gòu)上相異l如有可能,各冗余軟件最好由不同開發(fā)單位設(shè)計(jì),開發(fā)單位之間是相互獨(dú)立的l各冗余軟件用不同的程序設(shè)計(jì)語(yǔ)言設(shè)計(jì)l各冗余軟件用不同的編譯程序或匯編程序翻譯成目標(biāo)碼l概述l基本信息保護(hù)技術(shù)l先進(jìn)的計(jì)算機(jī)網(wǎng)絡(luò)信息保

60、護(hù)技術(shù)l網(wǎng)絡(luò)備份系統(tǒng)信息保護(hù)技術(shù):為防止信息被不正當(dāng)?shù)卮嫒』蚱茐亩扇〉拇胧﹍編碼化與密碼化l資格檢查l內(nèi)存保護(hù)l外存保護(hù)l編碼化:在信息上附加冗余信息,防止硬件故障、程序錯(cuò)誤以及人為差錯(cuò)等原因引起的信息破壞l密碼化:防止信息泄漏(明文、密文、密鑰)l設(shè)置“允許存取的口令”l設(shè)置“程序權(quán)限等級(jí)”l設(shè)置“用戶權(quán)限等級(jí)”l區(qū)域寄存器方式l保護(hù)鍵方式l環(huán)狀保護(hù)方式l虛擬存儲(chǔ)方式l殘存信息的清除l層次結(jié)構(gòu)的保護(hù)方式,分為控制程序、服務(wù)程序與編譯程序、用戶程序三個(gè)層次l規(guī)則:外環(huán)的程序不能破壞內(nèi)環(huán)的程序和數(shù)據(jù)外環(huán)能否讀出內(nèi)環(huán),取決于存取保護(hù)位內(nèi)環(huán)能否寫入外環(huán),取決于存取保護(hù)位內(nèi)環(huán)能讀出外環(huán)的內(nèi)容l文件的

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論