Попробую востстановить, последовательность событий.
Сеть это цепь из 5 3627g, к ним подключены ромашкой коммутаторы
3550, 3526, 3852, 3200 общим количеством около 170 штук.
Сеть растёт.
на 36-х DGS36xx_2.40-B55.had
на 38-х DES3852_4.50-B13.had
на 32-х DGS3200_1.20-B008.had и DGS3200-1.15-B005.had
на 35-х от DES3526_5.01-B19.had до DES3550_5.01-B36.had
Всё работало изумительно.
И тут выбрав время я решил сделать две вещи.
1. прошить 35 новыми прошивками, так как в новых прошивках были реализованы две вещи улучшение по option 82 и фиксаци по второму имимиджу. Для этого получил две прошивки, DES3526_5.01-B45.had и DES3550_5.01-b47.had
2. Хоть управление вынесено в отдельный влан, но у коммутаторов L2 интерфейс system находился в влане выделенным под управление, а у коммутаторов L3, хоть они и имели интерфейс в управляющем влане, но интерфейс system был в дефолтовом влане. Это казалось мне логически не правильным. Например, хотелось поиграть с SIM, а коммутаторы L3 командеры не видели L2, так как их системные интерфейсы находились в разных вланах.
В один прекрасный летний вечер и ночь, прошил все свичи 35 на новые прошивки и перенёс системный интерфейс у маршрутизаторов в управляющий влан. (Есть конфиги типовые для всех моделей после модернизации)
Днём начался шторм.
Клиенты в сети разделены на подсети, но находились все в дефолтовом влане. Штормы и раньше были. Например если у коммутатора произойдёт сбой энергозависимой памяти, то в кольце начнётся броадкастовый шторм. Штатными средствами локализовать и обезвредить возмутителя спокойствия дело 5-10 минут.
В чём заключался шторм, подскакивает загрузка cpu до 100%, у 3526 от нескольких секунд, до пары минут, у 3550 до получаса. В это время на чинаются потери транзитного трафика, разрывы сессий и тп, клиенты на портах такого коммутатора не могут получить IP адрес, так как системный интерфейс не отвечает.
Наблюдение первое, чем больше коммутаторов подключены к 3627, тем сильнее шторм. 3627 у которого было всего 3 коммутатора и все 35, они не испытывали запредельных нагрузок вообще.
Второе, чем ближе к 36 находился 35-й тем чаще от уходил в аут.
Третье, 35-е отделённые от 36 -х, 38-ми и 32-ми также не испытывали за предельных нагрузок.
Первым делом, попытался локализовать возмутителя спокойствия.
И не смог этого сделать.
Шторм переодически стихал минут на 15 - 20 и начинался по новой.
Шторм стихает, если оключить полсети, может для этого типа шторма просто был достигнуто какое-то предельное значение коммутаторов, и прошивки здесь по большему счёту не сильно помогли.
И хотя клиенты порой не могли получить IP, потоковое тв шло у такого абонента как будто в сети нет ни каких проблем.
Отключил подачу мультикаста. Не помогло.
Стал бить клиентов на вланы, сначала один клиентский влан на узел во главе с 3627. Потом влан на лепесток ромашки, ни локализовать возмутителя ни сбить шторм не получилось.
Откатил несколько 35 на старые прошивки, изменений нет, как они уходили в завис, так и продолжали.
Получил новые прошивки. Прошил 3627 и с ним несколько 35 новыми, изменений нет.
Загрузка cpu 36 держится на уровне 30%, мониторинг проходящих покетов показывает, что нет такого трафика для такой загрузки.
Отключение в ключение сейфгард энджина, не меняет загрузку процессора у 36, как есть 30%. И если у кого - нибудь из 36 загрузка резко падает до 2-5 %, то резко падает у всех 36 одновременно и шторм прекращается на несколько минут.
Вспомнил, что ещё полгода назад, обратил в нимание, что у одиноко стоящего 3627 при включениий igmp snooping, загрузка cpu подскакивала yf 10%. Не кретично, положивсшись на то, что в будущих прошивках это пофиксят, и что после включения потокового тв, сеть работала стабильно, благополучно об этом факте забыл.
Отключил снупинг у некоторых 35 и о чудо они стали в норме. Отключил снупинг у 36 загруз cpu упал до приемлемых величин, но шторм не прикратился. Только когда стал отключать снупинг поголовно, сеть успокоилась.
Несколько вот дней наслаждаюсь спокойствием, но без потокового тв.
В чём причина, в прошивках, конфигах или ещё в чём, я не знаю.
По факту только одно, отключение функции igmp snooping привело к стабильности.
Последний раз редактировалось Ce$$ Пт сен 19, 2008 01:16, всего редактировалось 3 раз(а).
|