[IT-инфраструктура, Сетевое оборудование, Сетевые технологии] Невыдуманные истории про сеть: как я учил физику на своих и чужих ошибках

Автор Сообщение
news_bot ®

Стаж: 6 лет 3 месяца
Сообщений: 27286

Создавать темы news_bot ® написал(а)
02-Июл-2020 13:32

Привет, Хабр! Меня зовут Антон Клочков, я сетевой архитектор в компании DataLine, а также участник проекта linkmeup. Я занимаюсь сетью более 10 лет и за это время успел поработать в больших и маленьких телеком-операторах, крупных корпорациях и небольших бизнесах. 
На практике я не раз убеждался, что физика упряма и обязательно отомстит за попытки пренебречь ее законами. За ошибки в физике сети я расплачивался квартальными премиями, исправлением косяков по ночам и «любовью» пользователей.  Зато такая школа жизни запоминается раз и навсегда.
Сегодня хочу поделиться подборкой историй про физику сетей и сформулировать правила сетевой жизни, которые вывел на практике. 

Дисклеймер: в статье собраны истории из моего опыта в больших и малых энтерпрайзах и операторах связи. Многие из них случились со мной или коллегами еще на заре карьеры. Большинство персонажей — собирательные образы, любые совпадения случайны. Мое мнение может не совпадать с мнением компании DataLine.

#1. Судьба энтерпрайза висит на патч-корде 
Обычный день, ничто не предвещает беды, если не считать Очень-Важное-Совещание топ-менеджеров компании. У технической службы последняя заявка на сегодня: нужно подключить нового пользователя.
Доблестная техподдержка бежит спокойно идет разбираться с подключением. Необходимо завести патч-корд в кросс и порт свитча, и рабочий день закончен! 
До важного совещания 15 минут.
Как назло, органайзер переполнен. Нужно освободить место и «перекоммутировать» некоторые провода. Расчищаем поляну, вставляем все обратно.
Одно неловкое движение — и тот самый очень важный патч-корд к конференц-системе оказался снаружи. Вот незадача, язычок коннектора был надорван или коннектор почему-то был уже сломан.
До важного совещания в той самой конференц-системе — 10 минут.
Недолго думая, воин техподдержки вставляет сломанный патч-корд обратно в коммутатор. В принципе все держится, все работает.
… На Очень-Важном-Совещании решается судьба энтерпрайза: будет ли у сотрудников годовая премия и прочие важные моменты.
Во время выступления Самого-Важного-Топ-Менеджера сломанный патч-корд предательски начинает движение и выпадает из разъема коммутатора. Главное событие года остается без связи.  
Какой была реакция участников, догадаться нетрудно. 

Правила патч-кордов: 
  • Всегда использую готовые патч-корды с защитой замка — и никакого самопала. Если язычок сломан, лучше не лениться и заменить патч-корд.

  • Если все-таки приходится использовать самопал как временное решение, использую качественный многожильный кабель (stranded или patch) и защитные колпачки. 
  • Не советую проводить работы, если намечается важная задача, где лучше ничего не трогать. В крайнем случае, нужно четко понимать, что вы делаете. Также есть известная примета, что работы в пятницу, особенно во второй половине дня, — к «веселым» выходным.

#2. «Обеднёнка»
Отдел закупок телеком-компании узнал про ценовые преимущества омеднённой витой пары из алюминия. Дешево и сердито, берем! Проводов уходит много, так что закупщики взяли большую партию, сэкономили бюджет компании и получили за это свой бонус. 
Прошло 9 месяцев. Сразу пачкой стали прилетать заявки: что-то линка нет, все флапает, растут ошибки CRC на портах. Где мой интернет и за что я плачу?
Закупщики не знали, что алюминий и медь образуют гальванопару. За 9 месяцев наша «омеднёнка» испытала немало температурных перепадов, и коннекторы окислились. Но это еще половина боли. Почти все сегменты витой пары были более 40 метров. Мало того, что коннекторы окисляются, так еще линк прыгает из-за большой длины «омеднёнки» .  
Поэтому два зимних месяца из трех монтажники разъезжали по точкам присутствия оператора связи и перекладывали линии, вместо того чтобы подключать новых клиентов. Переобжим коннекторов продолжался, пока не перешли на чистую медь. 

Правила витой пары: 
  • Нигде не использую «омеднёнку» (или «обеднёнку», как я ее называю). Основное преимущество — цена, и на этом все плюсы заканчиваются. 
    Если пустить питание по PoE, можно получить непредсказуемые эффекты, вплоть до выхода оборудования из строя. Как правило, «омеднёнка» — это двухпарка, поэтому скорости больше 100 мегабит не видать. Температура и влажность в шкафах бывает разной, контакты окисляются очень быстро, и линки падают на 10 мегабит.
  • Если хозяйство досталось в наследство, проверить витую пару очень просто. Если «омеднёнка» стальная — магнитом. Если алюминиевая — смотрим на торец разъема или достаем кабель из бухты и смотрим маркировку. 

#3. Мой друг «коротыш»
В любой инструкции по подключению есть пункт: убедиться в отсутствии напряжения в слаботочке. Администратор шел подключать нового пользователя, но услышал над ухом привычное «быстрее-быстрее» и подключился без проверки. 
 
Моргнул раз, и POE-панель выключилась. 
Моргнул второй, и половина офиса осталась без связи — через PoE-панель запитаны телефоны сотрудников. 
Моргнул третий, и все остались без приложений — по телефону подключались еще и компьютеры пользователей. 
В это время подключенный сотрудник озадаченно склонился над блоком питания.  Стоило включить компьютер, и можно было услышать звук старого-доброго dialup-модема, который издавал блок питания. Устройство сгорело не полностью и дало нам повод поностальгировать. 
Остальным сотрудникам повезло больше: у панели была защита от короткого замыкания. Достаточно было выключить и включить, и, о чудо, все заработало. ИТ-отдел отделался легким испугом.

Правило PoE: 
Перед подключением проверяю напряжение на патч-корде тестером с поддержкой PoE. Хорошим тоном считается проверять тестером вообще все каналы перед включением. Посмотреть на розетку и на порт коммутатора недостаточно. Пока вы идете к розетке с другой стороны, все может поменяться. 
#4. Модный* бизнес-центр 
Как-то раз наш офис переехал в новый бизнес-центр. Время шло, гигабита уже не хватало, LACP не тащил, нужно было переходить на сеть 10G. Начали поднимать.
Некоторые каналы поднимались на десятке сразу, некоторые не поднимались совсем. Один поднимался как-то странно: на портах было слишком много ошибок. Проект рисковал не завершиться в срок, и я начал копать. 
Маркировка на кабеле в БЦ отсутствовала. Пришлось забраться под самый потолок и найти кабели с маркировкой. Выяснилось, что подключение организовано так: с одной стороны идут многомодовые патч-корды, дальше одномодовое волокно, и на другой стороне — снова многомодовые патч-корды. 
Как мы знаем, одномод и многомод отличаются не только диаметром, но и длиной волны. Получилась такая ситуация: 

Представителям бизнес-центра пришлось признать ошибку и переварить все кабели. 

* то ли одномодный, то ли многомодный
Правила оптики: 
  • Не верю написанному на бумаге и проверяю все сам. Типы оптических кабелей проверяю обязательно, но правило касается не только оптики. 
  • Использую ВОЛС нужного класса OM (2-5) и не смешиваю разные OM. Иначе нужно быть готовым к работе на понижение.
  • Перед приемкой ВОЛС получаю результаты тестирования рефлектометра от специалистов, которые варили муфты и кросс.

#5. Еще про оптику и патч-корды
Чем отличается медь от оптики, всем сетевикам понятно. Одно из практических отличий — в экстренной ситуации медный патч-корд можно сделать самостоятельно. Да, мы против самопала, но для хотфикса или тестирования это делают быстро и непринужденно. Оптический патчкорд либо есть, либо нет, поэтому все держат запас на складе. 
Сломать оптический патч-корд довольно сложно, но однажды мне повезло: рука просто с мясом вырвала его из коннектора. На мое счастье, архитектура сети была отказоустойчивой, кабели в серверную шли с двух плечей, и сервер продолжил работать. Я отправился на склад и — сюрприз! — не обнаружил ни единого оптического патч-корда.  
Спокойно сел за компьютер и вбил патч-корд нужной длины. И тут выяснилось, что в огромном Санкт-Петербурге купить его сегодня практически негде.
Тем временем я заметил сбой на устройстве, которое обеспечивает отказоустойчивость серверов. Один из портов вывалился, и получился шахматный порядок: один сервер недоступен с первого юнита, второй сервер недоступен со второго. 
Поиски кабеля продолжились в менее спокойном темпе. Нашлось только одно (Карл!) место, где забрать патч-корд можно СЕГОДНЯ! Пришлось включить режим RUN AS ADMINISTRATOR.

Правило запасных принадлежностей: 
Всегда держу запас оптических патч-кордов. Это не медь, быстро обжать времянку не получится.
#6. Бродкастовый шторм и телефоны
Запускали в пилоте одну железку. Там, где она крутилась, сеть находилась в одном-единственном первом плане. Не сказать, что система мониторинга отсутствовала как класс, были какие-то зачатки. Но так исторически сложилось, что она не видела, когда сеть заваливает бродкастовым трафиком. 
Именно это и произошло. Не без помощи помощи кривых рук администратора устройство собрало на себе петлю, и все выходные молотил бродкастовый  шторм. 
После этого в прямом смысле сгорело 18 телефонов Avaya: CPU оплавились.   Естественно, это большая дыра в бюджете. Повезло, что не сгорела телефонная станция,
иначе меняй работу. 
Часть пользователей в это время работали. Они не заметили неудобств, потому что работали на старых телефонах с обычной коммутацией каналов. Ну разве что все выходные «сетка подтормаживала» и отчеты с десятого раза отправлялись.
Казалось бы, при чем тут физика? Сгорели аппараты физически, из-за физически подключенного кабеля в прод, где шаловливые ручонки собрали петлю.

Правила настройки оборудования:
  • Слежу, чтобы мониторинг был всегда.
  • Правильно настраиваю storm control BMU.
  • Если у вас до сих пор есть STP*, его тоже нужно настраивать.
  • Оборудование должно быть управляемым.
  • Если эксперименты на проде неизбежны, проверяю что изменилось во время и после эксперимента, а не просто ухожу домой. 

#7. Поиски утраченного линка
Когда я работал в маленьком интернет-провайдере, на чердаке одного дома был ящик. Ящик служил центром агрегации всех оптических соединений. Открывать его было опасно само по себе: можно обломать патч-корды, идущие в кроссы. Но, вдобавок ко всему, эту стойку не оборудовали органайзерами. По воспоминаниям, это было вот так:

 
Попытки разобраться в ящике работали как не до конца оттестированный медикамент: в одном месте лечишь, в другом калечишь. Создать аварию можно было на ровном месте. Однажды я хотел переставить из порта номер 2 в номер 3, что в итоге привело к отказу целого региона. Но это уже совсем другая история.

Правила стоек и кроссов: 
  • Всегда использую органайзеры или угловые панели. Понятно, это стоит денег, но потом будет проще разобраться, что к чему. 
  • Маркирую стойки, панели, кабель, патчи, даже всю активку. 
  • Использую стяжки и липучки при укладывании и закреплении кабелей для удобного доступа к оборудованию и лучшей вентиляции в стойке. Для оптики использую ТОЛЬКО липучки.
  • Стойки выбираю под задачу, но если количество оборудования нельзя спланировать заранее, беру высокий шкаф на 42U.

В идеале стремлюсь вот к этому:

Это далеко не все истории из жизни сетевика. Буду рад, если поделитесь своими. Какие истории помогли вам не повторять популярных ошибок?
===========
Источник:
habr.com
===========

Похожие новости: Теги для поиска: #_itinfrastruktura (IT-инфраструктура), #_setevoe_oborudovanie (Сетевое оборудование), #_setevye_tehnologii (Сетевые технологии), #_optika (оптика), #_vols (ВОЛС), #_patchkord (патчкорд), #_patchkord (патч-корд), #_vitaja_para (витая пара), #_shirokoveschatelnyj_shtorm (широковещательный шторм), #_poe, #_setevoe_administrirovanie (сетевое администрирование), #_setevoe_oborudovanie (сетевое оборудование), #_blog_kompanii_dataline (
Блог компании DataLine
)
, #_itinfrastruktura (
IT-инфраструктура
)
, #_setevoe_oborudovanie (
Сетевое оборудование
)
, #_setevye_tehnologii (
Сетевые технологии
)
Профиль  ЛС 
Показать сообщения:     

Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете голосовать в опросах
Вы не можете прикреплять файлы к сообщениям
Вы не можете скачивать файлы

Текущее время: 12-Май 06:38
Часовой пояс: UTC + 5