Краткое описание:
Модель: DGS-3200-10
firmware: 1.62.B020
Повод:
Заход на веб-интерфейс управления по IPv6. Проявляется не сразу. Ранее не влиял.
Возможно: Самопроизвольно и случайно. Скачки напряжения. Помехи в сети питания. Определенные пакеты. Определенный аптайм.
Проявления:
Потеря доступа на интерфейс управления (полная или только на web).
Частичная потеря switching на всех VLAN.
Отсутствие link на портах в которые включаются устройства после сбоя.
Возможно, проблема схожа с
viewtopic.php?f=2&t=142102Подскажите, как открыть кейс в техподдержке? Один из свитчей оставлен в полу подвисшем состоянии. чтобы снять дамп и найти причину (дадим доступ).
Сейчас хотели купить ещё несколько подобных коммутаторов (только где больше портов), но теперь задумались...
История сбоев:
Зашел на веб-интерфейс свитча по IPv6. Это делалось и ранее.
Он долго ждал, видимо, IPv6 доступ не работал.
Зашел по IPv4 адресу, свитч показал страницу авторизации. Но после ввода данных,
- веб-интерфейс перестал отвечать.
Пинг из той же подсети управления перестал проходить как по IPv4 так и по IPv6.
Подсеть управления находится в отдельном VLAN и приходит в tagged виде с другого аналогичного свитча.
При этом пинг на пользователей (во всяком случае некоторых) проходил (другой VLAN).
Соседний свитч (через который подключен этот) на себя пустил также по IPv6, веб-интерфейс работал.
Занесение ARP записи вручную также не помогло. Он просто не отвечал на пакеты (по tcpdump видны только запросы)
При физическом доступе к свитчу, подключившись в порт untagged в VLANе управления, линк не загорелся. Во второй раз - загорелся. Но пинга так же не было, как и доступа. Также не было доступа к другим IP во VLAN управления (т.е. отсутствовал switching).
Подключившись в порт в пользовательском VLAN также не получил связи.
Пришлось свитч перезагрузить.
После этого веб-интерфейс заработал. Но не надолго. После некоторых настроек (изменение состава портов во VLANах, description порта) выбрал Save config 1, Java приложение выдало ошибку.
После этого веб-интерфейс перестал отвечать. Перезагружал компьютер, не помогло. С других - тоже самое.
Но на этот раз пинг проходил и по IPv4 и по IPv6, и на свитч можно было попасть по SSH.
tcpdump показал, что при обращении к веб-интерфейсу, TCP соединение устанавливается, но далее свитч не отвечает.
В таком состоянии он сейчас и остался, для возможности анализа состояния специалистами.
DHCP Relay при этом работает (функция крайне важна).
Теперь самое странное. После перезагрузки 1-го свитча, я также зашел по IPv6 на соседний свитч (который ранее пускал) - и он также стал недоступен.
Доступ пропал полностью, на пинг не отвечал. Т.е. ситуация аналогичная первой с другим свитчем.
При этом транзит через него (как выяснилось позднее -частично) работал. Т.к. я с удаленного свитча (пострадавшего 1-м) мог работать через него.
Свитчи находятся в разных домах, расположенных неподалеку, связаны по оптике через SFP. Возможно, запитаны от одной линии электропитания, что оставляет вариант странной помехи по электросети. 3-й свитч, расположенный в датацентре, не пострадал. Но я на него не заходил, дабы не сломать сеть совсем.
Все свитчи заземлены. Междомовые медные линии отсутствуют (только оптика). На клиентских портах включено loopback detection.
Затем поступила жалоба от пользователя подвисшего свитча. У него адрес был вбит статически (т.е. DHCP Relay не при чем) - отсуствие входящих пакетов.
Пришлось также физически прийти к свитчу.
При включении в различные порты ноутбука, линк не загорался. Пробовал разными патч-кордами. В тех портах, где линк уже был - он сохранился.
После перезагрузки свитча все стало работать (и линки появились).
Т.к. подозрение было на IPv6 на интерфейсе управления, я решил его отключить, и зайдя в IPv6 interface, перевел его в состояние Disabled. Видимо, это почему-то повлияло на весь System интерфейс, и доступ по IPv4 также пропал. Пришлось ещё раз перезагрузить свитч.
В момент перезагрузки свитча, ноутбук (с win7), подключенный к нему патч-кордом и работающий от батарей выдал core dump и перезагрузился!
После загрузки свитч работает нормально, но на него более не заходил.
В syslog во время вышеперечисленных сбоев ничего странного не выводилось.
Прошу предложить версии данных странных глюков оборудования.
Особенно настораживает связанный по времени сбой на разных устройствах.
Кстати, у них был близкий аптайм (после обновления firmware) - несколько месяцев.
Работа данного оборудования очень критична. Данный факт сбоя заставил усомниться в надежности данной модели. Ранее (пол года) они ни разу не зависали.
К вопросу о похожести на соседню проблему в форуме - свитчи также связаны двумя линиями (STP). Но во время проблем, шторма не наблюдалось (tcpdump На сервере не показывал наличие большого количества бродкастов).