實(shí)戰(zhàn)案例:兩臺(tái)交換機(jī)匯聚互聯(lián),兩邊的終端卻一部分能通、一部分不通?原來(lái)中間有...
本期分享的案例是有線網(wǎng)絡(luò)的相關(guān)問(wèn)題。
案例背景
這是一個(gè)工業(yè)網(wǎng)絡(luò)的項(xiàng)目,客戶是一家專做機(jī)器人解決方案的集成商。近期在某新廠區(qū)中采購(gòu)了兩臺(tái)某P交換機(jī)本地組網(wǎng),兩臺(tái)交換機(jī)通過(guò)網(wǎng)線匯聚互聯(lián),模式為靜態(tài)匯聚(有臺(tái)交換機(jī)不支持動(dòng)態(tài)LACP),交換機(jī)下面各自掛在不同的終端設(shè)備,拓?fù)淙缦拢?/p>
然而,一段時(shí)間后用戶發(fā)現(xiàn),A、B區(qū)域之間部分終端通信出現(xiàn)了異常,而部分終端之間通信卻又是正常的,比如:
- A區(qū)域的IO_device正常通B區(qū)域的CPU1
- A區(qū)域的硬盤錄像機(jī)正常通B區(qū)域的攝像機(jī)1
- A區(qū)域的CPU2與B區(qū)域的IO_device通信出現(xiàn)異常
- A區(qū)域的硬盤錄像機(jī)與B區(qū)域的攝像機(jī)2通信出現(xiàn)異常
這種部分通的情況非常奇怪,要說(shuō)是線路故障,那A、B兩邊應(yīng)該徹底斷聯(lián)才是。OK,那就一起來(lái)看看這個(gè)“奇怪”的問(wèn)題吧!
排查分析
第一步:確認(rèn)問(wèn)題現(xiàn)象
是因?yàn)榇嬖诮K端之間通信異常問(wèn)題,所以在A區(qū)域插上一臺(tái)測(cè)試電腦觀察與B區(qū)域的連通性情況,果然是存在部分終端的通信異常:
- A區(qū)域的PC 能ping通B區(qū)域的光端機(jī)1、光端機(jī)2、攝像機(jī)1、攝像機(jī)2等設(shè)備
- A區(qū)域的PC 無(wú)法ping通B區(qū)域的CPU1、IO_device等設(shè)備
那么這些設(shè)備是不是可能離開(kāi)網(wǎng)絡(luò)了?為了驗(yàn)證想法,將PC插到B區(qū)域的交換機(jī)上驗(yàn)證。
第二步:確認(rèn)目標(biāo)設(shè)備是否存在網(wǎng)絡(luò)中
首先B區(qū)域的CPU1和IO_device分別接的是B交換機(jī)的端口1和端口2,我們登錄該交換機(jī)查看端口狀態(tài):
顯然是亮的,然后把電腦插在B交換機(jī)上ping這兩個(gè)設(shè)備,都通,說(shuō)明B區(qū)域的目標(biāo)設(shè)備存在網(wǎng)絡(luò)中:
玄學(xué)了!B區(qū)域中該設(shè)備都在,從A區(qū)域去訪問(wèn)為啥直接不通呢?那么就要考慮匯聚互聯(lián)的問(wèn)題了,下一步檢查匯聚端口。
第三步:確認(rèn)兩端匯聚端口
進(jìn)入A區(qū)域交換機(jī)查看匯聚端口的狀態(tài):
進(jìn)入B區(qū)域交換機(jī)查看匯聚端口的狀態(tài):
看到這里非常奇怪,兩邊的網(wǎng)線不是直連的么?怎么會(huì)出現(xiàn)一端亮一端不亮的情況?
其實(shí)到這里就已經(jīng)能明確問(wèn)題原因了,因?yàn)閰R聚是根據(jù)MAC或者IP通過(guò)hash的方式選出口的,如下:
- A區(qū)域的PC訪問(wèn)B區(qū)域的CPU1或IO_device設(shè)備時(shí),因?yàn)锳交換機(jī)7口異常,走的時(shí)6口;
- B區(qū)域的CPU1或IO_device設(shè)備收到包后,由于B交換機(jī)3、5口正常link,所以響應(yīng)的數(shù)據(jù)包概率性會(huì)hash到5口出去;
- 數(shù)據(jù)包從B交換機(jī)的5口出去后,自然時(shí)到達(dá)不了A交換機(jī)故障7口了,所以造成不通的問(wèn)題。
那么現(xiàn)在就只有最后一個(gè)疑問(wèn)了:為啥網(wǎng)線直連,A交換機(jī)7口不亮而B(niǎo)交換機(jī)的5口卻是亮的呢?
答案恐怕呼之欲出:拓?fù)浣o的不對(duì),中間可能不是直連而是經(jīng)過(guò)未知設(shè)備!
第四步:拓?fù)涫崂?/strong>
因?yàn)槲也幌嘈庞脩衄F(xiàn)場(chǎng)的描述,所以讓他直接給我梳理匯聚鏈路的拓?fù)洌l(fā)現(xiàn)是這樣的:
終于找到答案,中間是通過(guò)兩對(duì)光纖收發(fā)器接過(guò)去的......A交換機(jī)網(wǎng)口7那條網(wǎng)線故障,才導(dǎo)致匯聚異常。
原因和解決方案
原因總結(jié):兩邊匯聚端口的狀態(tài)不對(duì)等導(dǎo)致鏈路存在丟包問(wèn)題。
解決方案:
- 方案1:修復(fù)故障的網(wǎng)線鏈路
- 方案2:換成支持LACP的機(jī)型使用,但這里需要考慮一個(gè)點(diǎn)是中間的光纖收發(fā)器是否支持透?jìng)鱈ACP,如果不支持就沒(méi)必要了。