網(wǎng)絡(luò)系統(tǒng)故障排查手冊v10_第1頁
網(wǎng)絡(luò)系統(tǒng)故障排查手冊v10_第2頁
網(wǎng)絡(luò)系統(tǒng)故障排查手冊v10_第3頁
網(wǎng)絡(luò)系統(tǒng)故障排查手冊v10_第4頁
網(wǎng)絡(luò)系統(tǒng)故障排查手冊v10_第5頁
已閱讀5頁,還剩28頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、北京華勝天成科技股份有限公司網(wǎng)絡(luò)系統(tǒng)故障排查手冊(v 1.0)作者趙鳳毅審核分類非SUN技術(shù)文檔子類網(wǎng)絡(luò)設(shè)備更新時間2007年6月24日關(guān)鍵字Cisco switch 綁定摘要本文介紹了在交換機、路由器等網(wǎng)絡(luò)設(shè)備的故障排查主要適用環(huán)境Cisco局域網(wǎng)交換機版本說明版本日期內(nèi)容編寫人V1.02007-6-24文檔初稿趙鳳毅 網(wǎng)絡(luò)系統(tǒng)故障排除手冊目 錄交換機故障排查5交換機故障分類:5交換機故障的排障步驟:7故障處理常用操作命令8OSPF故障排除15排除故障的步驟:15OSPF相關(guān)的show命令:18OSPF相關(guān)的debug命令:18BGP協(xié)議故障診斷19故障排除BGP問題19處理BGP故障命令2

2、2網(wǎng)速問題診斷22附錄:Cisco網(wǎng)際操作系統(tǒng)(IOS)使用維護26用戶命令模式:26特權(quán)命令模式:27全局配置模式:30接口配置模式:32線配置模式:33協(xié)議配置模式:33交換機故障排查交換機故障分類:l 硬件故障l 軟件故障1) 硬件故障主要指交換機電源、背板、模塊、端口等部件的故障,可以分為以下幾類。(1)電源故障:由于外部供電不穩(wěn)定,或者電源線路老化或者雷擊等原因?qū)е码娫磽p壞或者風(fēng)扇停止,從而不能正常工作。由于電源緣故而導(dǎo)致機內(nèi)其他部件損壞的事情也經(jīng)常發(fā)生。如果面板上的POWER指示燈是綠色的,就表示是正常的;如果該指示燈滅了,則說明交換機沒有正常供電。這類問題很容易發(fā)現(xiàn),也很容易解決

3、,同時也是最容易預(yù)防的。針對這類故障,首先應(yīng)該做好外部電源的供應(yīng)工作,一般通過引入獨立的電力線來提供獨立的電源,并添加穩(wěn)壓器來避免瞬間高壓或低壓現(xiàn)象。如果條件允許,可以添加UPS(不間斷電源)來保證交換機的正常供電,有的UPS提供穩(wěn)壓功能,而有的沒有,選擇時要注意。在機房內(nèi)設(shè)置專業(yè)的避雷措施,來避免雷電對交換機的傷害。(2)端口故障:這是最常見的硬件故障,無論是光纖端口還是雙絞線的RJ-45端口,在插拔接頭時一定要小心。如果不小心把光纖插頭弄臟,可能導(dǎo)致光纖端口污染而不能正常通信。我們經(jīng)??吹胶芏嗳讼矚g帶電插拔接頭,理論上講是可以的,但是這樣也無意中增加了端口的故障發(fā)生率。在搬運時不小心,也可

4、能導(dǎo)致端口物理損壞。如果購買的水晶頭尺寸偏大,插入交換機時,也容易破壞端口。一般情況下,端口故障是某一個或者幾個端口損壞。所以,在排除了端口所連計算機的故障后,可以通過更換所連端口,來判斷其是否損壞。遇到此類故障,可以在電源關(guān)閉后,用酒精棉球清洗端口。如果端口確實被損壞,那就只能更換端口了。(3)模塊故障:交換機是由很多模塊組成,比如:堆疊模塊、管理模塊(也叫控制模塊)、擴展模塊等。這些模塊發(fā)生故障的機率很小,不過一旦出現(xiàn)問題,就會遭受巨大的經(jīng)濟損失。如果插拔模塊時不小心,或者搬運交換機時受到碰撞,或者電源不穩(wěn)定等情況,都可能導(dǎo)致此類故障的發(fā)生。當(dāng)然上面提到的這3個模塊都有外部接口,較易辨認,

5、有的還可以通過模塊上的指示燈來辨別故障。比如:堆疊模塊上有一個扁平的梯形端口,管理模塊上有一個CONSOLE口,用于和網(wǎng)管計算機建立連接,方便管理。如果擴展模塊是光纖連接的話,會有一對光纖接口。在排除此類故障時,首先確保交換機及模塊的電源正常供應(yīng),然后檢查各個模塊是否插在正確的位置上,最后檢查連接模塊的線纜是否正常。在連接管理模塊時,還要考慮它是否采用規(guī)定的連接速率,是否有奇偶校驗,是否有數(shù)據(jù)流控制等因素。連接擴展模塊時,需要檢查是否匹配通信模式,比如:使用全雙工模式還是半雙工模式。若確認模塊有故障,應(yīng)當(dāng)更換。(4)背板故障:交換機的各個模塊都是接插在背板上的。如果環(huán)境潮濕,電路板受潮短路,或

6、者元器件因高溫、雷擊等因素而受損都會造成電路板不能正常工作。比如:散熱性能不好或環(huán)境溫度太高導(dǎo)致機內(nèi)溫度升高,指使元器件燒壞。在外部電源正常供電的情況下,如果交換機的各個內(nèi)部模塊都不能正常工作,那就可能是背板壞了,遇到這種情況,惟一的辦法就是更換背板了。(5)線纜故障:其實這類故障從理論上講,不屬于交換機本身的故障,但在實際使用中,電纜故障經(jīng)常導(dǎo)致交換機系統(tǒng)或端口不能正常工作,所以這里也把這類故障歸入交換機硬件故障。比如接頭接插不緊,線纜制作時順序排列錯誤或者不規(guī)范,線纜連接時應(yīng)該用交叉線卻使用了直連線,光纜中的兩根光纖交錯連接,錯誤的線路連接導(dǎo)致網(wǎng)絡(luò)環(huán)路等。從上面的幾種硬件故障來看,機房環(huán)境

7、不佳極易導(dǎo)致各種硬件故障,所以我們在建設(shè)機房時,必須先做好防雷接地及供電電源、室內(nèi)溫度、室內(nèi)濕度、防電磁干擾、防靜電等環(huán)境的建設(shè),為網(wǎng)絡(luò)設(shè)備的正常工作提供良好的環(huán)境。2) 交換機的軟件故障是指系統(tǒng)及其配置上的故障,它可以分為以下幾類。(1)系統(tǒng)錯誤:交換機系統(tǒng)是硬件和軟件的結(jié)合體。在交換機內(nèi)部有一個可刷新的只讀存儲器,它保存的是這臺交換機所必需的軟件系統(tǒng)。這類錯誤也和我們常見的Windows、Linux一樣,由于當(dāng)時設(shè)計的原因,存在一些漏洞,在條件合適時,會導(dǎo)致交換機滿載、丟包、錯包等情況的發(fā)生。所以交換機系統(tǒng)提供了諸如Web、TFTP等方式來下載并更新系統(tǒng)。當(dāng)然在升級系統(tǒng)時,也有可能發(fā)生錯誤

8、。對于此類問題,有新的系統(tǒng)推出或者新的補丁,請及時更新。(2)配置不當(dāng):對交換機不熟悉,或由于各種交換機配置不同,往往在配置交換機時出現(xiàn)配置錯誤。比如VLAN 劃分不正確導(dǎo)致網(wǎng)絡(luò)不通,端口被錯誤地關(guān)閉,交換機和網(wǎng)卡的模式配置不匹配等原因。這類故障有時很難發(fā)現(xiàn),需要一定的經(jīng)驗積累。(3)密碼丟失:可以通過一定的操作步驟來恢復(fù)或者重置系統(tǒng)密碼。(4)外部因素:由于病毒或者黑客攻擊等情況的存在,有可能某臺主機向所連接的端口發(fā)送大量不符合封裝規(guī)則的數(shù)據(jù)包,造成交換機處理器過分繁忙,致使數(shù)據(jù)包來不及轉(zhuǎn)發(fā),進而導(dǎo)致緩沖區(qū)溢出產(chǎn)生丟包現(xiàn)象。還有一種情況就是廣播風(fēng)暴,它不僅會占用大量的網(wǎng)絡(luò)帶寬,而且還將占用大

9、量的CPU處理時間。網(wǎng)絡(luò)如果長時間被大量廣播數(shù)據(jù)包所占用,正常的點對通信就無法正常進行,網(wǎng)絡(luò)速度就會變慢或者癱瘓。一塊網(wǎng)卡或者一個端口發(fā)生故障,都有可能引發(fā)廣播風(fēng)暴。由于交換機只能分割沖突域,而不能分割廣播域(在沒有劃分VLAN 的情況下),所以當(dāng)廣播包的數(shù)量占到通信總量的30%時,網(wǎng)絡(luò)的傳輸效率就會明顯下降。可以使用show interface fastethernet X/X查看交換機端口狀態(tài)信息變化。交換機故障的排障步驟:交換機的故障多種多樣,不同的故障有不同的表現(xiàn)形式。故障分析時要通過各種現(xiàn)象靈活運用排除方法(如排除法、對比法、替換法),找出故障所在,并及時排除。(1)排除法:當(dāng)我們面

10、對故障現(xiàn)象并分析問題時,無意中就已經(jīng)學(xué)會使用排除法來確定發(fā)生故障的方向了。這種方法是指依據(jù)所觀察到的故障現(xiàn)象,盡可能全面地列舉出所有可能發(fā)生的故障,然后逐個分析、排除。在排除時要遵循有簡到繁的原則,提高效率。使用這種方法可以應(yīng)付各種各樣的故障,但維護人員需要有較強的邏輯思維,對交換機知識有全面深入的了解。(2)對比法:所謂對比法,就是利用現(xiàn)有的、相同型號的且能夠正常運行的交換機作為參考對象,和故障交換機之間進行對比,從而找出故障點。這種方法簡單有效,尤其是系統(tǒng)配置上的故障,只要簡單地對比一下就能找出配置的不同點,但是有時要找一臺型號相同、配置相同的交換機也不是一件容易的事。(3)替換法:這是我

11、們最常用的方法,也是在維修電腦中使用頻率較高的方法。替換法是指使用正常的交換機部件來替換可能有故障的部件,從而找出故障點的方法。它主要用于硬件故障的診斷,但需要注意的是,替換的部件必須是相同品牌、相同型號的同類交換機才行。當(dāng)然為了使排障工作有章可循,我們可以在故障分析時,按照以下的原則來分析。1,由遠到近由于交換機的一般鼓掌(如:端口故障)都是通過所連接計算機而發(fā)現(xiàn)的,所以經(jīng)常從客戶端開始檢查。我們可以沿著客戶端計算機>端口模塊>水平線纜>跳線>交換機這樣一條路線,逐個檢查,先排除遠端故障的可能。2,由外而內(nèi)如果交換機存在故障,我們可以先從外部的各種指示燈上辨別,然后根

12、據(jù)故障指示,再來檢查內(nèi)部的相應(yīng)部件是否存在問題。比如POWER LED為綠燈表示電源供應(yīng)正常,熄滅表示沒有電源供應(yīng);LINK LEDs為黃色表示現(xiàn)在該連接工作在10Mb/s,綠色表示為100 Mb/s,熄滅表示沒有連接,閃爍表示端口被管理員手動關(guān)閉;RDP LED表示冗余電源;MGMT LED表示管理員模塊。無論能否從外面的出故障所在,都必須登錄交換機以確定具體的故障所在,并進行相應(yīng)的排障措施。3,由軟到硬發(fā)生故障,誰都不想動不動就那螺絲刀去先拆了交換機再說,所以在檢查時,總是先從系統(tǒng)配置或系統(tǒng)軟件上著手進行排查。如果軟件上不能解決問題,那就是硬件有問題了。比如某端口不好用,那我們可以先檢查用

13、戶所連接的端口是否不在相應(yīng)的VLAN中,或者該端口是否被其他的管理員關(guān)閉,或者配置上的其他原因。如果排除了系統(tǒng)和配置上的各種可能,那就可以懷疑到真正的問題所在硬件故障上。4,先易后難在遇到故障分析較復(fù)雜時,必須先從簡單操作或配置來著手排除。這樣可以加快故障排除的速度,提高效率。故障處理常用操作命令設(shè)備運行信息主要是指日志、單板運行轉(zhuǎn)態(tài)、路由條目等,下表列舉了一些常用的檢查項目,可以在進行設(shè)備日常維護時參考。l Cisco設(shè)備常用查看命令1) 全局命令: 序號命令檢查內(nèi)容備注1show version顯示系統(tǒng)硬件和軟件版本、DRAM、Flash2show startup-config顯示寫入NV

14、RAM中的配置內(nèi)容3show running-config顯示當(dāng)前運行的配置內(nèi)容4show buffers詳細輸出buffer的名稱和尺寸5show stacks提供路由器進程和處理器利用率信息, 用stack decode6show tech-support顯示幾個show命令的輸出7show access-lists查看訪問列表配置8show memory用于測試內(nèi)存問題9show logging顯示日志信息10show debug查看調(diào)試命令11show ip ospf neighborOSPF鄰居狀態(tài)12show ip bgp sumBGP鄰居狀態(tài)13show ip route sum

15、路由條目統(tǒng)計2) 接口相關(guān)命令序號命令檢查內(nèi)容備注1show queue e0/1查看接口上隊列的設(shè)置和操作2show ip interface e0/1顯示指定端口或一個模塊上所有端口的信息(VLAN、速率、雙工、狀態(tài)、類型、)3show interface e/0顯示端口下的數(shù)據(jù)統(tǒng)計信息3) 進程相關(guān)命令序號命令檢查內(nèi)容備注1show processes cpu查看接口上隊列的設(shè)置和操作如果顯示在five min的利用率超過70%,請檢查設(shè)備中哪個進程占用了大量的CPU資源。2show processes memory顯示路由器當(dāng)前進程的內(nèi)存使用情況如果free的內(nèi)存少于10M,請引起重視

16、。3Show environment確認溫度、電壓、風(fēng)扇等環(huán)境變量值是否在正常范圍內(nèi)4) TCP/IP協(xié)議相關(guān)命令序號命令檢查內(nèi)容備注1Show ip access-list顯示IP訪問列表(1-199)2Show ip arp顯示路由器的ARP緩存(IP、MAC、封裝類型、接口) 3Show ip protocols顯示運行在路由器上的IP路由協(xié)議的信息4Show ip route顯示IP路由表中的信息5Show ip traffic顯示IP流量統(tǒng)計信息l 交換以太網(wǎng)故障處理命令:序號命令檢查內(nèi)容備注1show system關(guān)于switch的高級總結(jié)信息,包括供電狀態(tài)、uptime和管理設(shè)置

17、2show interface顯示指定端口或一個模塊上所有端口的信息(VLAN、速率、雙工、狀態(tài)、類型、)3show log報告重要事件,包括所有模塊的重啟、trap、供電失敗、4show logging buffer等同于路由器的show log命令,根據(jù)logging級別,報告端口up或down、STP、5show cdp顯示相鄰CISCO設(shè)備信息 6show test僅顯示switch管理模塊狀態(tài),包括接口卡、供電、內(nèi)存等。7show mac顯示大量計數(shù),包括每端口幀流量、發(fā)出和進入的幀的總數(shù)量、丟棄、8show vtp status顯示vtp信息9show spantree顯示每個VL

18、AN的SPT進程狀態(tài)l 在交換機上排出故障,常使用show interface命令查看接口的信息。下面給出了在7609上查看第4槽位上第1個10G快速以太網(wǎng)接口的接口配置信息:CNC_HN_IDC_RSM7609#show interfaces tenGigabitEthernet 4/1TenGigabitEthernet4/1 is up, line protocol is up (connected) Hardware is C6k 10000Mb 802.3, address is 0014.a911.6280 (bia 0014.a911.6280) Description: IDC

19、_Conn_ZhongYuanLu_GSR Internet address is 6/30 MTU 1500 bytes, BW 10000000 Kbit, DLY 10 usec, reliability 255/255, txload 1/255, rxload 1/255 Encapsulation ARPA, loopback not set Keepalive set (10 sec) Full-duplex, 10Gb/s input flow-control is desired, output flow-control is on ARP type:

20、 ARPA, ARP Timeout 04:00:00 Last input 00:00:00, output 00:00:00, output hang never Last clearing of "show interface" counters never Input queue: 0/75/1/194183 (size/max/drops/flushes); Total output drops: 0 Queueing strategy: fifo Output queue: 0/40 (size/max) 5 minute input rate 2356000

21、bits/sec, 2579 packets/sec 5 minute output rate 1422000 bits/sec, 215 packets/sec L2 Switched: ucast: 11819643 pkt, 995418667 bytes - mcast: 586708 pkt, 55150282 bytes L3 in Switched: ucast: 841794328 pkt, 162577143292 bytes - mcast: 0 pkt, 0 bytes mcast L3 out Switched: ucast: 12532860236 pkt, 4603

22、062036766 bytes mcast: 0 pkt, 0 bytes 860275888 packets input, 164075878947 bytes, 0 no buffer Received 684533 broadcasts (0 IP multicast) 0 runts, 0 giants, 110 throttles 1 input errors, 0 CRC, 0 frame, 0 overrun, 0 ignored 0 watchdog, 0 multicast, 0 pause input 0 input packets with dribble conditi

23、on detected 12525875619 packets output, 4599376755602 bytes, 0 underruns 0 output errors, 0 collisions, 2 interface resets 0 babbles, 0 late collision, 0 deferred 0 lost carrier, 0 no carrier, 0 PAUSE output 0 output buffer failures, 0 output buffers swapped out2、下表給出了show interface的輸出中所有表項的具體含義:表項

24、描述 GigabitEthernet. is up.is administratively down表明接口的硬件當(dāng)前是否是被激活的還是被管理員手工的showdown掉了。 line protocol is標(biāo)識該接口的線協(xié)議也就是軟件進程是否可用,還是被管理員手工的給shutdown了。 Hardware硬件類型(例如MCI Ethernet, SCI, cBus Ethernet) 和硬件地址 Internet address帶有子網(wǎng)信息的該接口的IP地址。 MTU接口上的最大傳輸單元。 BW接口的帶寬,通常單位是kb/s。 DLY端口的延遲,單位是ms。 Rely以255為參照數(shù)的接口的可

25、靠性參數(shù) (255/255 就是百分之百的可靠), 以5分鐘的平均數(shù)來計算。 Load以255為參照數(shù)的接口的負荷(255/255 就是百分之百的負荷量), 5分鐘的平均數(shù)來計算。 Encapsulation接口的封裝類型。 ARP type接口配置的地址解析協(xié)議(ARP)的類型。 Loopback標(biāo)識是否設(shè)置了接口回環(huán)。 Keepalive標(biāo)識接口是否設(shè)置了發(fā)送存活(keepalives)信息 Last input自從接口接受到最近的一個數(shù)據(jù)包后的時間。當(dāng)該數(shù)據(jù)包是被precess-switch的方式轉(zhuǎn)發(fā)的時候計數(shù)器會更新,而當(dāng)該包是被fast-switch的方式轉(zhuǎn)發(fā)時則不更新計數(shù)器。 Ou

26、tput自從接口發(fā)送最近的一個數(shù)據(jù)包后的時間。 output hang接口因為數(shù)據(jù)包傳輸時間過長而重啟后的時間,如果沒有重啟,則顯示為never。 Last clearing清除接口統(tǒng)計計數(shù)器后的時間。注意:可能會影響到路由的變量信息時不會被清除置0的,例如load和reliablity 型號*表示清計算器后的時間太長顯示不出來了。 Output queue, input queue, drops在接口輸入輸出隊列中的數(shù)據(jù)包的個數(shù)。每個數(shù)字都跟了個/隊列的最大范圍。以及超過了隊列的最大范圍而丟棄的包的數(shù)量。 5 minute input rate, 5 minute output rate在最

27、近5分鐘內(nèi)每秒傳輸?shù)臄?shù)據(jù)包的平均值。 packets input系統(tǒng)接受到的數(shù)據(jù)包的總的個數(shù)。 Bytes系統(tǒng)接受到的所有數(shù)據(jù)包(包括數(shù)據(jù)和MAC封裝)的字節(jié)數(shù)。 no buffer因為在系統(tǒng)中沒有足夠的緩存從而丟棄的數(shù)據(jù)包的個數(shù)??梢院蚷gnore的計數(shù)來比較。以太網(wǎng)上個廣播風(fēng)暴和串行接口上的傳輸質(zhì)量不好通??赡軙?dǎo)致該計數(shù)器的增加。 Received . broadcasts接口所接受到的廣播和多播的數(shù)據(jù)包的數(shù)量。 Runts因為小于介質(zhì)的最小的包大小而丟棄的數(shù)據(jù)包的個數(shù)。例如,對以太網(wǎng)來說,小于64byte的數(shù)據(jù)包被認為是一個runt。 Giants因為大于介質(zhì)的最大的包大小而丟棄的數(shù)據(jù)

28、包的個數(shù)。例如,對以太網(wǎng)來說,大于1518byte的數(shù)據(jù)包被認為是一個giant。 Throttles接口disable的次數(shù),可能是因為緩存或者處理器過載等因素。 input errors包括runts, giants, no buffer, CRC, frame, overrun, 和ignored的所有的計數(shù)器。其他和輸入相關(guān)的error包也可以造成input errors計數(shù)器的增長。同時,一個數(shù)據(jù)包可能會包括多個的error。 CRC接口接受到的循環(huán)冗余校驗和的數(shù)量。在局域網(wǎng)中,通常是因為線路質(zhì)量或者硬件的傳輸問題,一個比較高的CRC數(shù)目通常是有些工作站發(fā)送大量壞的數(shù)據(jù)包造成的。 f

29、rame接受到的含有CRC錯誤和非整數(shù)的十進制數(shù)目的數(shù)據(jù)包的數(shù)量,在局域網(wǎng)中,通常是因為碰撞過多或者以太網(wǎng)設(shè)備的故障。 Overrun因為輸入的速率超出了接受者硬件的處理能力沒有硬件緩存來處理的次數(shù)。 Ignored和系統(tǒng)的緩存不同,這個是因為接口的內(nèi)部緩存而造成的接受到數(shù)據(jù)包被忽略的數(shù)目。 Abort接受時中斷的數(shù)據(jù)包的個數(shù)。 input packets with dribble condition detectedFrame超長的輸入的數(shù)據(jù)包。 packets output系統(tǒng)發(fā)出的數(shù)據(jù)包的個數(shù)。 Bytes系統(tǒng)發(fā)出的所有數(shù)據(jù)包(包括數(shù)據(jù)和MAC封裝)的字節(jié)數(shù)。 Underruns發(fā)送者傳

30、輸過快導(dǎo)致路由器無法處理的次數(shù)。 output errors接口認為的所有傳輸數(shù)據(jù)包的錯誤的總和,同時,一個數(shù)據(jù)包可能會包括多個的error。 Collisions因為以太網(wǎng)沖突導(dǎo)致重傳的數(shù)據(jù)包的個數(shù)。 interface resets接口重啟的次數(shù)。在幾秒鐘時間內(nèi)進入隊列的數(shù)據(jù)包都沒有傳輸?shù)那闆r下可能發(fā)生。在串行接口上,可能是因為傳輸?shù)膍odem故障沒有發(fā)送時鐘信號或者線纜的問題 。如果系統(tǒng)發(fā)現(xiàn)串行上因為有載波信號接口up但是協(xié)議是down的情況下,接口會努力周期性的重啟自己。當(dāng)接口回環(huán)或者被shut down是接口也可能會重啟。 Babbles傳輸?shù)挠嫊r器到。 late collision

31、傳輸數(shù)據(jù)包序文報頭后發(fā)生的碰撞叫l(wèi)ate collisions。通常發(fā)生late collision都是因為以太網(wǎng)的線纜過長,超出了它所能傳輸?shù)木嚯x限制造成的。 Deferred因為載波的問題,芯片延后傳輸幀。 lost carrier傳輸過程中丟失載波的次數(shù)。 OSPF故障排除由于OSPF協(xié)議自身的復(fù)雜性,在配置的過程中可能會出現(xiàn)錯誤。OSPF協(xié)議正常運行的標(biāo)志是:在每一臺運行該協(xié)議的路由器上,應(yīng)該得到的路由一條也不少,并且都是最優(yōu)路徑。排除故障的步驟:l 配置故障處理:檢查是否已經(jīng)啟動并正確配置了OSPF協(xié)議。l 局部故障處理:檢查兩臺直接相連的路由器之間協(xié)議運行是否正常。l 全局故障處理

32、:檢查一下系統(tǒng)設(shè)計(主要是指區(qū)域的劃分)是否正確。l 其它疑難問題:路由時通時斷、路由表中存在路由卻無法PING通地址。此類問題需針對不同的情況具體分析。1) 參數(shù)不匹配使用debug ip ospf adj命令能夠看到大多數(shù)的不匹配問題。 (1)hello/dead間隔不匹配匹配才可以形成鄰居。 (2)不匹配的認證類型OSPF下有MD5和純文本認證。 Router ospf 100 Area 0 authentication message-digest Network x.x.0.0 55 area 0 (3)不匹配的區(qū)域ID區(qū)域信息在OSPF的HELLO分組中發(fā)送。不同

33、,不會形成鄰接。 (4)不匹配的短截/傳輸/NSSA區(qū)域選項當(dāng)OSPF與一個鄰居交換HELLO分組時,它所交換的一項內(nèi)容是由8比特表示的可選能力。選項字段之一是E比特,即OSPF短截標(biāo)志。當(dāng)E比特置0時,該路由關(guān)聯(lián)的區(qū)域是一個短截區(qū)域,外部LSA不允許進入這個區(qū)域。 2) OSPF狀態(tài)問題 成為鄰居的路由器不保證交換鏈路狀態(tài)更新。一旦路由器決定與一個鄰居形成鄰接,它就開始交換其鏈路狀態(tài)數(shù)據(jù)庫的一份完整拷貝。 (1)OSPF陷入ATTEMPT僅對neighbor語句的NBMA網(wǎng)絡(luò)有效。陷入ATTEMPT是指一臺路由器試圖通過發(fā)送它的HELLO來聯(lián)系鄰居但是它沒有收到響應(yīng)。 Show ip osp

34、f neighbor查看。 原因:錯誤配置neighbor;NBMA上的單播連通性斷了,這可能是由錯誤的DLCI,訪問列表或轉(zhuǎn)換單播的NAT引起的。 (2)OSPF陷入INITINIT狀態(tài)表示路由器收到來自鄰居的HELLO分組,但是雙向通信并沒有建立。原因: 一方訪問列表阻止了HELLO; 一方的多播能力失效(一個交換機故障); 僅在一方啟用了認證; 一方的frame-relay map/dialer map語句缺少了broadcast關(guān)鍵字。 一方的HELLO在第2層丟失了。 (3)OSPF陷入2-WAY雙向狀態(tài)是指路由器在HELLO分組的鄰居字段中見到了自己的路由器ID.類似于所有路由器的

35、優(yōu)先級都為0,則不會發(fā)生選舉,所有路由器停留在雙向狀態(tài)中。 解決:確保至少一臺路由器具有一個至少為1的IP OSPF優(yōu)先級。 (4)OSPF陷入EXSTART/EXCHANGE在EXSTART或EXCHANGE狀態(tài)的OSPF鄰居正處于嘗試交換DBD(數(shù)據(jù)庫描述)分組的過程中。 原因:不匹配的接口MTU鄰居上重復(fù)的路由器ID,無法用超過特定MTU長度進行PING斷掉的單播連通性,它可能是因為錯誤的DLCI,訪問列表或轉(zhuǎn)換單播的NAT (5)OSPF陷入LOADING鄰居沒有應(yīng)答或鄰居的應(yīng)答從未到達本地路由器,路由器也會陷入LOADING狀態(tài)。常有"%OSPF-4-BADLSA"

36、;控制臺信息。 原因: 不匹配的MTU,錯誤的鏈路狀態(tài)請求分組 3.點到點鏈路的一方是無編號的 Interface s0 Ip unnumbered loopback0 解決:雙方都需要成為一個有編號點到點鏈路或一個無編號點到點鏈路。 3) ABR沒有產(chǎn)生一個類型4的匯總LSA 類型4的匯總LSA的一個功能是宣告到其他區(qū)域的ASBR的可達性。如果同一個區(qū)域中存在ASBR則不需要類型4的LSA. Show ip ospf database external命令的輸出顯示在路由器的外部OSPF數(shù)據(jù)庫中是否存在路由。 Show ip ospf database asbr-summary命令的輸出顯示

37、路由是否有類型4的LSA. 檢查R是否真是ABR.如果是,則產(chǎn)生類型3或類型4的匯總LSA.show ip ospf 4) 轉(zhuǎn)發(fā)地址不能通過區(qū)域內(nèi)或區(qū)域間路由獲知 當(dāng)OSPF獲得一條外部LSA時,它在將該路由裝入路由選擇表之前要確定轉(zhuǎn)發(fā)地址可通過一條OSPF區(qū)域內(nèi)或區(qū)域間路由獲知。如果轉(zhuǎn)發(fā)地址不能通過區(qū)域內(nèi)或區(qū)域間路由獲知,OSPF不會將路由裝入路由選擇表中。 可能的解決: 不在ABR上進行匯總,在ASBR上過濾再分布入OSPF中的直接子網(wǎng) Router ospf 1 Redistribute rip subnets 5) 路由匯總問題 兩種類型匯總: 可執(zhí)行在ABR上的區(qū)域間路由匯總 可執(zhí)行

38、在ASBR上的外部路由匯總 (1)區(qū)域間匯總 Router ospf 1 Area 3 range x.x.x.0 通過show ip ospf可以查看 (2)外部匯總 Router ospf 1 summary-address x.0.0.0 6) CPUHOG問題 產(chǎn)生在:鄰居形成過程LSA刷新過程 7) SPF計算和路由翻動 只要拓撲有變化,OSPF就運行SPF算法再次計算最短路徑優(yōu)先樹,可能引起鏈路的不穩(wěn)定。原因:區(qū)域內(nèi)的接口翻動,區(qū)域內(nèi)的鄰居接口翻動,重復(fù)的路由器ID 使用show ip ospf命令可查看在一個給定區(qū)域中SPF算法運行

39、的次數(shù); 使用debug ip ospf monitor來隔離一個翻動的LSA; 使用show log命令顯示由接口引起的翻動。 解決: 修復(fù)正在翻動的鏈路重新定義區(qū)域邊界,處理OSPF故障,OSPF是鏈路狀態(tài)協(xié)議,維護3個數(shù)據(jù)庫:相鄰數(shù)據(jù)庫、拓撲結(jié)構(gòu)數(shù)據(jù)庫、路由表。 OSPF相關(guān)的show命令:Show running-config Show ip route Show ip route ospf ;僅顯示OSPF路由 Show ip ospf process-id ;顯示與特定進程ID相關(guān)的信息 Show ip ospf ;顯示OSPF相關(guān)信息 Show ip ospf border-ro

40、uters ;顯示邊界路由器 Show ip ospf database ;顯示OSPF的歸納數(shù)據(jù)庫 Show ip ospf interface ;顯示指定接口上的OSPF信息 Show ip ospf neighbor ;顯示OSPF相鄰信息 Show ip ospf request-list ;顯示鏈路狀態(tài)請求列表 Show ip ospf summary-address ;顯示歸納路由的再發(fā)布信息 Show ip ospf virtual-links ;顯示虛擬鏈路信息 Show ip interface ;顯示接口的IP設(shè)置 OSPF相關(guān)的debug命令: Debug ip ospf

41、 adj ; Debug ip ospf events Debug ip ospf flood Debug ip ospf lsa-generation Debug ip ospf packet Debug ip ospf retransmission Debug ip ospf spf Debug ip ospf tree 注意:OSPF的每個area不超過100臺路由器,整個網(wǎng)絡(luò)不超過700臺路由器。另外,通配符掩碼配置不當(dāng)是常見的故障問題。BGP協(xié)議故障診斷BGP是唯一能夠運行在AS之間的路由協(xié)議,在Internet上,他有不可替代的地位。同時BGP是“傳遞路由信息”的協(xié)議,并不是“發(fā)現(xiàn)

42、路由信息”的協(xié)議,協(xié)議的工作過程可以分為如下兩個過程:l 設(shè)備之間正常的建立起B(yǎng)GP鄰居;l 鄰居之間傳遞、同步路由信息;當(dāng)然,由于BGP協(xié)議十分靈活,而且路由屬性眾多,可以通過多種路由策略完成特定的需求,我們在此只考慮最簡單的情況。故障排除BGP問題 原則:首先應(yīng)檢查第1/2層,然后是IP連通性(第3層),再TCP連接(第4層),最后是BGP配置。 1) BGP鄰居關(guān)系問題(1)直接的外部BGP鄰居沒有初始化 自治系統(tǒng)(AS)不會向AS發(fā)送或從AS接收任何IP前綴更新,除非鄰居關(guān)系達到established狀態(tài),該狀態(tài)是BGP鄰居建立的最后階段。當(dāng)AS有一條單一的EBGP連接時,直到BGP完

43、成了它的收發(fā)IP前綴操作后IP連通性才能發(fā)生。 原因:第2層宕掉了,阻止了與直接的EBGP鄰居通信,在BGP配置中有錯誤的鄰居IP地址。命令:show ip bgp summary和show ip bgp neighbors檢查BGP鄰居關(guān)系 active狀態(tài)表示鄰居間沒有發(fā)生成功的通信,并且鄰居未形成。用PING測試其連通性,失敗則表示要修復(fù)第1/2層問題。Debug ip bgp能夠幫助診斷問題。(2)非直接的外部BGP鄰居沒有初始化 有些情況下,EBGP鄰居不是直連的。BGP鄰居關(guān)系能夠建立在試圖形成由一臺或多臺路由器分隔開的EBGP鄰居關(guān)系的路由器之間。這種鄰居在IOS中被稱為EBGP

44、多跳。當(dāng)路由器之間存在多個接口并且需要在那些接口之間IP流量負載均衡時,通常在回環(huán)接口之間建立EBGP對等實體。 可能的原因: 到非直連對等實體地址的路由從路由選擇表中丟失了,BGP配置中缺少ebgp-multihop命令;缺少update-source interface命令。命令:show ip bgp summary和show bgp neighbors router bgp 65131 bgp router-id 3 bgp log-neighbor-changes neighbor 5 remote-as 65130 neighbor

45、 5 password 7 1046071A0B14 neighbor remote-as 65132 ! address-family ipv4 neighbor 5 activate neighbor activate neighbor soft-reconfiguration inbound neighbor distribute-list deny_all out no auto-summary no synchronizati

46、on bgp dampening network network mask exit-address-family(3)內(nèi)部BGP鄰居沒有初始化 原因:到非直接IBGP鄰居的路由丟失了(4)BGP鄰居(外部和內(nèi)部)沒有初始化接口訪問列表/過濾是BGP鄰居活動問題的一個常見原因。2) 故障排除BGP路由通告發(fā)生在BGP路由通告的產(chǎn)生和接收中。(1)沒有產(chǎn)生BGP路由原因:IP路由選擇表中沒有匹配的路由發(fā)生了配置錯誤,BGP自動匯總到有類別/網(wǎng)絡(luò)邊界(2)向IBGP/EBGP鄰居傳播/產(chǎn)生一條BGP路由的問題配置的

47、分布列表過濾可能是該問題的起因,或者是策略路由選擇有問題。(3)向EBGP鄰居但沒有向IBGP鄰居傳播一條BGP路由的問題Show run Show ip bgp Show ip bgp summary(4)向IBGP/EBGP鄰居傳播一條IBGP路由的問題一條BGP路由只有首先通過IGP或靜態(tài)路由獲得后才是同步的。Show ip bgp命令的輸出顯示了BGP表中的不同步路由。3) 排除路由沒有裝入IP路由選擇表中的故障原因:(1)IBGP原因IBGP路由不同步;BGP下一跳不可達(2)EBGP原因在多跳EBGP情況下BGP下一跳不可達;BGP路由被抑制,多出口鑒別器(MED)值為無窮4) B

48、GP下一跳不可達解決: 使用靜態(tài)路由或再分布經(jīng)由IGP宣告EBGP下一跳 使用next-hop-self命令將下一跳改變?yōu)橐粋€內(nèi)部對等實體地址 router bgp 65131neighbor 5 next-hop-self 5) BGP路由被抑制 抑制(dampening)是減小本地BGP網(wǎng)絡(luò)中來自EBGP鄰居的不穩(wěn)定BGP路由所引起的不穩(wěn)定性的方法。抑制是一種為一條翻動的BGP路由指派一個罰點的方法。 Router bgp 65131Bgp dampening 處理BGP故障命令BGP(包括IBGP和EBGP)的關(guān)鍵配置是鄰居關(guān)系,BGP使用TCP建立相鄰關(guān)系。BG

49、P相關(guān)的show命令: Show ip bgp ;顯示BGP所學(xué)習(xí)到的路由 Show ip bgp network ;顯示特定網(wǎng)絡(luò)的BGP信息 Show ip neighbors ;顯示BGP鄰居信息 Show ip bgp peer-group ;顯示BGP對待組信息 Show ip bgp summary ;顯示所有BGP連接的歸納 Show ip route bgp ;顯示BGP路由表 BGP相關(guān)的debug命令: Debug ip bgp updates Debug ip bgp dampening Debug ip bgp events Debug ip bgp

50、keepalives Debug ip bgp updates 網(wǎng)速問題診斷網(wǎng)絡(luò)開通之后,經(jīng)常會遇到“下載速度慢”、“用戶掉線”等非功能性問題。導(dǎo)致這類問題的原因比較復(fù)雜,而且很可能與主機、網(wǎng)絡(luò)拓撲等相關(guān),問題定位也相對復(fù)雜。這里我們針對“下載速度慢”問題給出我們的故障診斷建議,如果遇到類似問題,可以參考執(zhí)行。網(wǎng)速問題診斷步驟網(wǎng)絡(luò)下載速度受很多因素影響,在進行問題處理之前我們需要進行充分的測試,并且作橫、縱向比較,定位大概的問題范圍。比如我們需要應(yīng)用不同的終端在相同的時間、相同的網(wǎng)絡(luò)位置進行下載(針對相同的網(wǎng)站和不同的網(wǎng)站都要做);應(yīng)用同一臺終端在相同的網(wǎng)絡(luò)位置,不同時間從同一個網(wǎng)站下載文件一

51、般情況下,如果相同時間、相同網(wǎng)絡(luò)位置,下載同一個網(wǎng)站上的內(nèi)容,如果有的終端快、有的終端慢,基本可以肯定為終端問題,速度差異可能是由終端配置、操作系統(tǒng)、網(wǎng)卡質(zhì)量等因素造成。如果相同時間、相同網(wǎng)絡(luò)位置,應(yīng)用同一臺終端在不同的網(wǎng)站上下載內(nèi)容,如果速度相差很大,基本可以肯定為網(wǎng)站服務(wù)器問題,速度差異可能由服務(wù)器配置、服務(wù)器出口帶寬、熱點程度等原因造成。如果有可能,我們可以進行網(wǎng)絡(luò)的橫向比較。在不同的網(wǎng)絡(luò)中相同時間,下載同一個網(wǎng)站的內(nèi)容。測試結(jié)果可以一定程度上考察本地網(wǎng)以外的網(wǎng)絡(luò)質(zhì)量。本地網(wǎng)絡(luò)診斷步驟進行充分的測試、比較后,如果確認本地網(wǎng)絡(luò)是網(wǎng)絡(luò)速度的瓶頸,那么就需要在本地網(wǎng)絡(luò)的不同網(wǎng)絡(luò)節(jié)點再作進一步的

52、測試。在本地網(wǎng)絡(luò)中選取有代表性的測試點(一般每一級設(shè)備下選取一個測試點),應(yīng)用能力相同的終端,在同一時間下載同一網(wǎng)站的內(nèi)容。排除本地傳輸鏈路經(jīng)過多次轉(zhuǎn)接的情況,本地網(wǎng)絡(luò)各級設(shè)備以下的測試速度應(yīng)該相差不大。如果測試中發(fā)現(xiàn)相鄰級別測試點的速度下降幅度過大(超過50%),那么兩級測試點之間的設(shè)備可能存在問題。首先,我們應(yīng)該檢查設(shè)備上行端口的帶寬利用率,如果利用率已經(jīng)幾乎達到“滿負荷”,那么速度的下降也就是正常的了,這是我們需要考察數(shù)據(jù)流量的內(nèi)容,如果大部分是“病毒報文”或者“非法報文”,就需要進行殺毒和限速處理。如果基本上屬于正常的業(yè)務(wù)報文,就需要進行設(shè)備升級或擴容了。由于不同的設(shè)備內(nèi)部轉(zhuǎn)發(fā)流程不同

53、,所以只考察端口帶寬利用率并不能完全說明問題。我們還需要檢查設(shè)備的CPU占用率、內(nèi)存使用率等性能參數(shù)。一般基于軟件轉(zhuǎn)發(fā)機制的設(shè)備,并不能保證所有端口的“線速轉(zhuǎn)發(fā)”,如果某一項性能參數(shù)已經(jīng)達到極限,就需要對設(shè)備進行升級或擴容了。下載速度“瓶頸”確認和TCP協(xié)議的改善如果本地網(wǎng)絡(luò)各測試點之間的速度差異不大,基本上可以確認本地網(wǎng)絡(luò)不是下載速度瓶頸。為了進一步證明這一點,我們采取檢測“全路徑”每一跳時延的方式,可以通過traceroute命令的返回結(jié)果確認,如果外網(wǎng)(本地網(wǎng)絡(luò)出口設(shè)備以上的網(wǎng)絡(luò))的某一跳時延很大(達到幾十甚至上百ms),那么瓶頸最可能就在這一跳,這種情況一般出現(xiàn)在不同運營商的互聯(lián)鏈路上

54、。我們還可以通過架設(shè)本地服務(wù)器的方式考察本地網(wǎng)絡(luò)是否為下載速度瓶頸。當(dāng)確認“外網(wǎng)”某鏈路為速度瓶頸后,我們需要采取相應(yīng)的措施進行改善,一般情況下,很難對“外網(wǎng)”鏈路作出調(diào)整的要求。由于TCP本身有“滑動窗口”機制,在網(wǎng)絡(luò)時延比較大、但是鏈路質(zhì)量比較好的情況下,“窗口”不是向前“滑動”的,而是“跳動”。如果我們進行抓包分析,可以看到一定數(shù)目的數(shù)據(jù)包幾乎是同時發(fā)出,“長時間”之后“同時得到確認”。終端的下載速度基本上符合以下計算公式:下載速度滑動窗口大小×每秒鐘整窗口的滑動個數(shù)其中“每秒鐘整窗口的滑動個數(shù)”取決于端到端時延,很難進行優(yōu)化,我們可以通過適當(dāng)?shù)恼{(diào)整終端TCP滑動窗口大小來改善基于TCP協(xié)議的應(yīng)用。由于UDP協(xié)議幾乎是“逐包確認”的,完全取決于“端到端時延”,所以在這種情況下很難改善,只能進行網(wǎng)絡(luò)拓撲或者傳輸鏈路的優(yōu)化。以上針對網(wǎng)絡(luò)中常見的問題進行分析,提供了故障分析建議。由于網(wǎng)絡(luò)設(shè)備支持的網(wǎng)絡(luò)協(xié)議眾多、特性復(fù)雜,而且隨著網(wǎng)絡(luò)規(guī)模的擴大,問題復(fù)雜度成

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論