Добрый день!
Некоторое время назад возникла непонятная и очень неприятная проблема. В некоторых вланах, запущеных с 3627 и в которых он служит шлюзом, время от времени перестают ходить пакеты до него. Интервал между "периодами потерь" - от 5 до 60 минут, пакеты прекращают ходить на 5-60 секунд (успеет пропасть 2-10 пингов, редко больше).
Сначала было замечено на одном-двух хостах в офисе, затем стало на всех. Ни штормов, ни петель никаких нет. Затем стало то же самое в нескольких пользовательских сегментах.
Что было изначально:
Два 3627G, соединённые друг с другом езерчанелами, с обоих уходит по одному езерчанелу в офис+серверную в два 3100-24.
Изначально вилан offi (tag 249) и вилан serv (50) прокинуты с 3627 №1, и IP-интерфейс шлюза заведён на нем же.
После того, как начались потери, перепробовали:
- первым делом перепрошили до полученных несколько дней назад прошивок 3627, 3100.
- Затем один большой сегмент переткнули из первого 3627 во второй, перенесли IP-интерфейс шлюза с одного на другой, разгрузили первый.
---
после этого массовые звонки от юзеров прекратились, но как минимум в нескольких виланах и ip-сетях за двумя 3100 проблема осталась.
Итак.
Чтобы исключить проблему в самом влане (что-то флудит или петляет), сделал отдельный временный влан с отдельной Ip-сеткой, прокинул с 3627 #1 на 3100 #1, воткнул комп. В вилане только шлюз и комп, "срать" ничего не может по идее. Проблема осталась. Воткнул другой PC, то же самое.
Чтобы исключить проблемы с arp-таблицей первого 3627, перевели ip-интерфейс вланов offi и временного влана на второй. Проблема осталась.
Решили попробовать радикально: одно незанятое волокно воткнули в 3627 #2, в офисе поставили абсолютно новый 3100-24. Прокинули на него отдельный новый vlan, воткнули один хост - проблема осталась. Прокинули офисный vlan на него - проблема осталась.
Пробовал и на 3100, и на 3627 на всякий случай прописывать статикой маки хостов в fdb-таблицу, не помогает.
Итого.
- никаких ACL и/или cpu acl нету; шторм-контрол выключили
- На порту 3627 есть Drop Pkts, 149699 за полсуток накапало
- Пробовал выключать PIM & igmp (3627 гоняют под сотню iptv-каналов), не помогло
- Пробовал всячески изменять arp и fdb aging time как на 3627, так и на 3100 (фдб), не помогло
- Это не проблема с link aggregation, т.к. во-первых часть виланов работает отлично, во-вторых - убирали link_aggregation, не помогло.
- Это не проблема с L3-коммутацией одного из 3627, т.к. на двух разных одно и то же.
- Это не проблема с FDB-коммутацией на 3627, т.к. во-первых, на двух разных одно и то же, во-вторых, не помогает прописывание статикой маков.
- Это не флуд или штормы в вилане, т.к. в новом отдельном - то же самое.
- Это не проблемы с 3100, т.к. на абсолютно новом - то же самое.
- Это не проблемы с оптикой, т.к. по тем же волокнам идет серверный влан, и в нем, тфу-тфу-тфу, потерь нет.
p.s. пару раз удалось поймать момент потерь в консоли 3627G. ARP-запись нужного IP есть, в FDB таблице он есть. На 3100 в fdb Тоже есть и 3627, и хост.
Мы уже головы сломали, пытаясь понять, что происходит. Вроде все звенья по одному менять перепробовали, не спасало. Единственная зацепка - явление перестало быть массовым у пользователей, когда разгрузили 3627 №1, переткнули из него во второй сегмент маков на 800.
3627G:
Boot PROM Version : Build 1.10-B09
Firmware Version : Build 2.51.B23
3100-24:
Boot PROM Version : 1.0.1.04
Firmware Version : 3.50.20