實(shí)戰(zhàn)案例:每次集體斷電后,總有那么一些 AP 無(wú)法上線?呵,真是有意思(智障)的案例!
本期分享的案例是有線網(wǎng)絡(luò)的相關(guān)問(wèn)題。
1. 背景介紹
某個(gè)商場(chǎng)使用了某P品牌的AC+AP,一共是50多個(gè)點(diǎn)位,實(shí)現(xiàn)無(wú)線覆蓋組網(wǎng),近期運(yùn)維人員發(fā)現(xiàn),每次機(jī)房斷電后,總有那么一些AP沒法上線,必須要嘗試斷電重啟(拔插PoE交換機(jī)端口)這些AP多次才能上來(lái)。
拓?fù)湟彩呛芎?jiǎn)單:
- 網(wǎng)段:192.168.0.0/23,起始地址為:192.168.0.1—192.168.1.254
2. 處理思路
針對(duì)AP離線的問(wèn)題,我們的標(biāo)準(zhǔn)排查思路是什么呢?主要如下:
- 確認(rèn)AP的運(yùn)行狀態(tài)和接線是否正常;
- 確認(rèn)AP是否正確獲取到了IP地址;
- 確認(rèn)AP是否正常屬于網(wǎng)絡(luò)中,并且AC能ping通AP設(shè)備;
- 如果是跨三層管理,注意DHCP服務(wù)器上是否配置了option字段保證AP能單播找到AC實(shí)現(xiàn)管理。
來(lái)吧,一個(gè)一個(gè)看,很有意思。
3. 排查分析
第一步:確認(rèn)AP的運(yùn)行狀態(tài)和接線是否正常
- AP接線確認(rèn):通過(guò)POE交換機(jī)上網(wǎng)線標(biāo)簽,確認(rèn)網(wǎng)口燈是正常亮的,POE供電和Link正常
- AP狀態(tài)確認(rèn):我們找到了離線AP,定睛一看,AP的指示燈是常量的,說(shuō)明已經(jīng)被管理了。
意味著什么?意味著AP設(shè)備可能已經(jīng)被管理了,但是這個(gè)是離線設(shè)備,是不是匪夷所思?
第二步:確認(rèn)AP是否正確獲取到了IP地址
現(xiàn)場(chǎng)是一個(gè)二層網(wǎng)絡(luò),所以可以直接在核心交換機(jī)的ARP表上查看是否有學(xué)到離線AP的IP-MAC就行:
發(fā)現(xiàn)是能正常學(xué)到的,但由于ARP表項(xiàng)老換時(shí)間過(guò)長(zhǎng),學(xué)到了不一定表示其一直在網(wǎng)絡(luò)中,那么下來(lái)看一下交換機(jī)的MAC地址表中有沒有:
有學(xué)到了MAC地址條目,并且處于15號(hào)口,那就說(shuō)明AP設(shè)備一定還在網(wǎng)絡(luò)中的,基本排除了物理連通性問(wèn)題。
第三步:測(cè)試AC能ping通AP設(shè)備
AC要想正常管理到AP,兩者必須是通的,所以下一步在AC的診斷工具中自己去ping該AP,發(fā)現(xiàn)是ping不通的,然后用核心交換機(jī)去ping該AP:
發(fā)現(xiàn)核心也ping不通AP!但是又能學(xué)到它的ARP,這又是怎么一回事呢?玄學(xué)吧!而其它正常在線的AP都是能通的,下來(lái)進(jìn)一步再確認(rèn)AC是否跨三層管理AP,很顯然這個(gè)網(wǎng)絡(luò)不需要,所以無(wú)需關(guān)注option配置。
第四步:抽絲剝繭
所以各位,我們把上面的證據(jù)收集下來(lái)然后剖析一下:
- AP離線,但是接線link正常,指示燈常量(被管理)
- 核心交換機(jī)能學(xué)到離線AP的ARP,并且MAC表能查到AP對(duì)應(yīng)的端口,其就在網(wǎng)絡(luò)中沒跑
- AP能拿到IP 192.168.1.12,192.168.0.1的核心和192.168.0.253的AC卻ping不通它
那么,真相似乎只有一個(gè)了!離線AP被其它AC設(shè)備管理到了,并且非法AC給AP分配的地址應(yīng)該是192.168.1.X/24。反推完美解釋上述三條證據(jù)鏈!如何驗(yàn)證?空口抓包看看。
第五步:空口抓包驗(yàn)證非法AC的存在
因?yàn)榻尤隤OE交換機(jī)是傻瓜式的嘛,所以無(wú)法端口監(jiān)AP確認(rèn)其交互情況。但可以直接抓空口廣播包確認(rèn),為何?因?yàn)锳P在DHCP交互時(shí)會(huì)有廣播交互。我們就看看,出了核心交換機(jī)給它分配地址,還有誰(shuí)!
重啟一個(gè)AP后,看到?jīng)]有,出了0.1這個(gè)核心,還有1.253給它分配了地址,看下內(nèi)容:
OK,確認(rèn)找到了非法AC設(shè)備,這個(gè)設(shè)備的IP正是192.168.1.253。然后通過(guò)這個(gè)IP登錄看看:
果不其然,離線AP都在上面上線了。但是這臺(tái)非法AC為何會(huì)出現(xiàn)在網(wǎng)絡(luò)里呢?說(shuō)來(lái)好笑,是因?yàn)楝F(xiàn)場(chǎng)的交換機(jī)不夠用了,正好發(fā)現(xiàn)一臺(tái)“類似交換機(jī)”的設(shè)備直接插上就用,欸,發(fā)現(xiàn)有線也好使。
4. 原理及解決方案
(1) 故障原理
非法AC當(dāng)成交換機(jī)接入網(wǎng)絡(luò)使用,AP重啟時(shí)會(huì)概率性的給它分配192.168.1.0/24 IP地址,所以這些AP沒法和192.168.0.X網(wǎng)段的交換機(jī)、合法AC通信,并且在非法AC上上線。
(2) 解決方案
將非法AC設(shè)備192.168.1.253從網(wǎng)絡(luò)中撤掉即可。