Здравствуйте!
Устраивайтесь поудобнее, сейчас я Вам сказки рассказывать буду.
Есть вот такой вот коммутатор:
Код:
csw4_DGS-3612G:oper#sh sw
Command: show switch
Device Type : DGS-3612G Gigabit Ethernet Switch
MAC Address : 00-1E-58-CE-16-00
IP Address : 0.0.0.0 (Manual)
VLAN Name : default
Subnet Mask : 0.0.0.0
Default Gateway : 0.0.0.0
Boot PROM Version : Build 1.10-B09
Firmware Version : Build 3.00.B40
Hardware Version : A1
К портам 1-7,9-12 которого подключены коммутаторы доступа в конфигурациях "кольцо" и "звёзда". Соответственно настроен STP.
В восьмой же порт данной железки подключена оптика стороннего провайдера по которой прокинут вилан в котором поднят ospf, ospfv3, pim. Т. е. этот порт является аплинком.
Долгое время всё работало нормально и ничто не предвещало беды, но аккурат в пятницу вечером около 23:00 по Москве коммутаторы доступа подключённые к этому csw начали хаотически падать и подниматься. Дежурный саппорт сначала запаниковал, но видя что пользователи не звонят с жалобами немного успокоился и принялся анализировать происходящее. Однако поняв своё бессилие перед Хаосом, пал он ниц и воззвал с мольбой о помощи к силам высшего порядка. Повествовал он следующее:
Цитата:
Никаких аномалий на данный момент выявить не удалось, сообщений об
изменении топологии не обнаружено (за исключением тех, которые я сам же
и спровоцировал), просмотр netlogs также не принес результата (нет
сообщений о перестроении, нет падений линков между sw), просмотрены три
кольца на предмет роста ошибок на гигабитных линках. итог: рост не
наблюдается, также как и закономерность в падениях.
Вняв мольбе и пробудившись от сладостной дрёмы админы первейшим предположением причины возникшего беспорядка положили давно известный баг у L3 коммутаторов D-Link связанный с пропаданием arp записей на коммутаторе. И действительно все симптомы указывали именно на это. Ситуация один в один повторяла описанную в
viewtopic.php?f=2&t=169887#p936517 за исключением другой модели коммутатора. Однако продолжая анализировать ситуацию выяснилась интереснейшая история.
На этом коммутаторе есть пользовательский вилан в котором созданы 2 ipif, v10.12.102 primary с ip 10.12.102.1/24 и ipif v164.65 secondary с ip x.x.164.65/28 соответственно. Таже заведён отдельный вилан управления на все коммутаторы доступа с ipif внутри него v172.16.4 и ip подсетью 172.16.4.1/24 (arp записи из которой и пропадают).
Так вот, если прекратить анонсировать ipif v164.65 в ospf то проблема исчезает. Полностью.
Коммутаторы доступа перестают падать, загрузка CPU возвращается в норму. Включаем анонс - проблема возвращается.
Вот такая вот сказочка. Если кто-то что-то имеет сказать - пишите.
Сам я к сожалению ухожу в отпуск, но мои коллеги будут отслеживать эту тему.
Присказка: прошло часов 12 и коммутаторы доступа падать перестали, но загрузка CPU возросла раза в три.