[IT-инфраструктура, Сетевое оборудование, Сетевые технологии] Невыдуманные истории про сеть: как я учил физику на своих и чужих ошибках
Автор
Сообщение
news_bot ®
Стаж: 6 лет 9 месяцев
Сообщений: 27286
Привет, Хабр! Меня зовут Антон Клочков, я сетевой архитектор в компании DataLine, а также участник проекта linkmeup. Я занимаюсь сетью более 10 лет и за это время успел поработать в больших и маленьких телеком-операторах, крупных корпорациях и небольших бизнесах.
На практике я не раз убеждался, что физика упряма и обязательно отомстит за попытки пренебречь ее законами. За ошибки в физике сети я расплачивался квартальными премиями, исправлением косяков по ночам и «любовью» пользователей. Зато такая школа жизни запоминается раз и навсегда.
Сегодня хочу поделиться подборкой историй про физику сетей и сформулировать правила сетевой жизни, которые вывел на практике.
Дисклеймер: в статье собраны истории из моего опыта в больших и малых энтерпрайзах и операторах связи. Многие из них случились со мной или коллегами еще на заре карьеры. Большинство персонажей — собирательные образы, любые совпадения случайны. Мое мнение может не совпадать с мнением компании DataLine.
#1. Судьба энтерпрайза висит на патч-корде
Обычный день, ничто не предвещает беды, если не считать Очень-Важное-Совещание топ-менеджеров компании. У технической службы последняя заявка на сегодня: нужно подключить нового пользователя.
Доблестная техподдержка бежит спокойно идет разбираться с подключением. Необходимо завести патч-корд в кросс и порт свитча, и рабочий день закончен!
До важного совещания 15 минут.
Как назло, органайзер переполнен. Нужно освободить место и «перекоммутировать» некоторые провода. Расчищаем поляну, вставляем все обратно.
Одно неловкое движение — и тот самый очень важный патч-корд к конференц-системе оказался снаружи. Вот незадача, язычок коннектора был надорван или коннектор почему-то был уже сломан.
До важного совещания в той самой конференц-системе — 10 минут.
Недолго думая, воин техподдержки вставляет сломанный патч-корд обратно в коммутатор. В принципе все держится, все работает.
… На Очень-Важном-Совещании решается судьба энтерпрайза: будет ли у сотрудников годовая премия и прочие важные моменты.
Во время выступления Самого-Важного-Топ-Менеджера сломанный патч-корд предательски начинает движение и выпадает из разъема коммутатора. Главное событие года остается без связи.
Какой была реакция участников, догадаться нетрудно.
Правила патч-кордов:
- Всегда использую готовые патч-корды с защитой замка — и никакого самопала. Если язычок сломан, лучше не лениться и заменить патч-корд.
- Если все-таки приходится использовать самопал как временное решение, использую качественный многожильный кабель (stranded или patch) и защитные колпачки.
- Не советую проводить работы, если намечается важная задача, где лучше ничего не трогать. В крайнем случае, нужно четко понимать, что вы делаете. Также есть известная примета, что работы в пятницу, особенно во второй половине дня, — к «веселым» выходным.
#2. «Обеднёнка»
Отдел закупок телеком-компании узнал про ценовые преимущества омеднённой витой пары из алюминия. Дешево и сердито, берем! Проводов уходит много, так что закупщики взяли большую партию, сэкономили бюджет компании и получили за это свой бонус.
Прошло 9 месяцев. Сразу пачкой стали прилетать заявки: что-то линка нет, все флапает, растут ошибки CRC на портах. Где мой интернет и за что я плачу?
Закупщики не знали, что алюминий и медь образуют гальванопару. За 9 месяцев наша «омеднёнка» испытала немало температурных перепадов, и коннекторы окислились. Но это еще половина боли. Почти все сегменты витой пары были более 40 метров. Мало того, что коннекторы окисляются, так еще линк прыгает из-за большой длины «омеднёнки» .
Поэтому два зимних месяца из трех монтажники разъезжали по точкам присутствия оператора связи и перекладывали линии, вместо того чтобы подключать новых клиентов. Переобжим коннекторов продолжался, пока не перешли на чистую медь.
Правила витой пары:
- Нигде не использую «омеднёнку» (или «обеднёнку», как я ее называю). Основное преимущество — цена, и на этом все плюсы заканчиваются.
Если пустить питание по PoE, можно получить непредсказуемые эффекты, вплоть до выхода оборудования из строя. Как правило, «омеднёнка» — это двухпарка, поэтому скорости больше 100 мегабит не видать. Температура и влажность в шкафах бывает разной, контакты окисляются очень быстро, и линки падают на 10 мегабит.
- Если хозяйство досталось в наследство, проверить витую пару очень просто. Если «омеднёнка» стальная — магнитом. Если алюминиевая — смотрим на торец разъема или достаем кабель из бухты и смотрим маркировку.
#3. Мой друг «коротыш»
В любой инструкции по подключению есть пункт: убедиться в отсутствии напряжения в слаботочке. Администратор шел подключать нового пользователя, но услышал над ухом привычное «быстрее-быстрее» и подключился без проверки.
Моргнул раз, и POE-панель выключилась.
Моргнул второй, и половина офиса осталась без связи — через PoE-панель запитаны телефоны сотрудников.
Моргнул третий, и все остались без приложений — по телефону подключались еще и компьютеры пользователей.
В это время подключенный сотрудник озадаченно склонился над блоком питания. Стоило включить компьютер, и можно было услышать звук старого-доброго dialup-модема, который издавал блок питания. Устройство сгорело не полностью и дало нам повод поностальгировать.
Остальным сотрудникам повезло больше: у панели была защита от короткого замыкания. Достаточно было выключить и включить, и, о чудо, все заработало. ИТ-отдел отделался легким испугом.
Правило PoE:
Перед подключением проверяю напряжение на патч-корде тестером с поддержкой PoE. Хорошим тоном считается проверять тестером вообще все каналы перед включением. Посмотреть на розетку и на порт коммутатора недостаточно. Пока вы идете к розетке с другой стороны, все может поменяться.
#4. Модный* бизнес-центр
Как-то раз наш офис переехал в новый бизнес-центр. Время шло, гигабита уже не хватало, LACP не тащил, нужно было переходить на сеть 10G. Начали поднимать.
Некоторые каналы поднимались на десятке сразу, некоторые не поднимались совсем. Один поднимался как-то странно: на портах было слишком много ошибок. Проект рисковал не завершиться в срок, и я начал копать.
Маркировка на кабеле в БЦ отсутствовала. Пришлось забраться под самый потолок и найти кабели с маркировкой. Выяснилось, что подключение организовано так: с одной стороны идут многомодовые патч-корды, дальше одномодовое волокно, и на другой стороне — снова многомодовые патч-корды.
Как мы знаем, одномод и многомод отличаются не только диаметром, но и длиной волны. Получилась такая ситуация:
Представителям бизнес-центра пришлось признать ошибку и переварить все кабели.
* то ли одномодный, то ли многомодный
Правила оптики:
- Не верю написанному на бумаге и проверяю все сам. Типы оптических кабелей проверяю обязательно, но правило касается не только оптики.
- Использую ВОЛС нужного класса OM (2-5) и не смешиваю разные OM. Иначе нужно быть готовым к работе на понижение.
- Перед приемкой ВОЛС получаю результаты тестирования рефлектометра от специалистов, которые варили муфты и кросс.
#5. Еще про оптику и патч-корды
Чем отличается медь от оптики, всем сетевикам понятно. Одно из практических отличий — в экстренной ситуации медный патч-корд можно сделать самостоятельно. Да, мы против самопала, но для хотфикса или тестирования это делают быстро и непринужденно. Оптический патчкорд либо есть, либо нет, поэтому все держат запас на складе.
Сломать оптический патч-корд довольно сложно, но однажды мне повезло: рука просто с мясом вырвала его из коннектора. На мое счастье, архитектура сети была отказоустойчивой, кабели в серверную шли с двух плечей, и сервер продолжил работать. Я отправился на склад и — сюрприз! — не обнаружил ни единого оптического патч-корда.
Спокойно сел за компьютер и вбил патч-корд нужной длины. И тут выяснилось, что в огромном Санкт-Петербурге купить его сегодня практически негде.
Тем временем я заметил сбой на устройстве, которое обеспечивает отказоустойчивость серверов. Один из портов вывалился, и получился шахматный порядок: один сервер недоступен с первого юнита, второй сервер недоступен со второго.
Поиски кабеля продолжились в менее спокойном темпе. Нашлось только одно (Карл!) место, где забрать патч-корд можно СЕГОДНЯ! Пришлось включить режим RUN AS ADMINISTRATOR.
Правило запасных принадлежностей:
Всегда держу запас оптических патч-кордов. Это не медь, быстро обжать времянку не получится.
#6. Бродкастовый шторм и телефоны
Запускали в пилоте одну железку. Там, где она крутилась, сеть находилась в одном-единственном первом плане. Не сказать, что система мониторинга отсутствовала как класс, были какие-то зачатки. Но так исторически сложилось, что она не видела, когда сеть заваливает бродкастовым трафиком.
Именно это и произошло. Не без помощи помощи кривых рук администратора устройство собрало на себе петлю, и все выходные молотил бродкастовый шторм.
После этого в прямом смысле сгорело 18 телефонов Avaya: CPU оплавились. Естественно, это большая дыра в бюджете. Повезло, что не сгорела телефонная станция, — иначе меняй работу.
Часть пользователей в это время работали. Они не заметили неудобств, потому что работали на старых телефонах с обычной коммутацией каналов. Ну разве что все выходные «сетка подтормаживала» и отчеты с десятого раза отправлялись.
Казалось бы, при чем тут физика? Сгорели аппараты физически, из-за физически подключенного кабеля в прод, где шаловливые ручонки собрали петлю.
Правила настройки оборудования:
- Слежу, чтобы мониторинг был всегда.
- Правильно настраиваю storm control BMU.
- Если у вас до сих пор есть STP*, его тоже нужно настраивать.
- Оборудование должно быть управляемым.
- Если эксперименты на проде неизбежны, проверяю что изменилось во время и после эксперимента, а не просто ухожу домой.
#7. Поиски утраченного линка
Когда я работал в маленьком интернет-провайдере, на чердаке одного дома был ящик. Ящик служил центром агрегации всех оптических соединений. Открывать его было опасно само по себе: можно обломать патч-корды, идущие в кроссы. Но, вдобавок ко всему, эту стойку не оборудовали органайзерами. По воспоминаниям, это было вот так:
Попытки разобраться в ящике работали как не до конца оттестированный медикамент: в одном месте лечишь, в другом калечишь. Создать аварию можно было на ровном месте. Однажды я хотел переставить из порта номер 2 в номер 3, что в итоге привело к отказу целого региона. Но это уже совсем другая история.
Правила стоек и кроссов:
- Всегда использую органайзеры или угловые панели. Понятно, это стоит денег, но потом будет проще разобраться, что к чему.
- Маркирую стойки, панели, кабель, патчи, даже всю активку.
- Использую стяжки и липучки при укладывании и закреплении кабелей для удобного доступа к оборудованию и лучшей вентиляции в стойке. Для оптики использую ТОЛЬКО липучки.
- Стойки выбираю под задачу, но если количество оборудования нельзя спланировать заранее, беру высокий шкаф на 42U.
В идеале стремлюсь вот к этому:
Это далеко не все истории из жизни сетевика. Буду рад, если поделитесь своими. Какие истории помогли вам не повторять популярных ошибок?
===========
Источник:
habr.com
===========
Похожие новости:
- [Сетевые технологии] Базовые принципы полисеров и шейперов
- [Видеотехника, Звук, Сетевые технологии] Музейный комплекс «Зоя»: танк под обстрелом проекторов и другие технические нюансы
- [*nix, IT-инфраструктура, Хранилища данных] Опыт эксплуатации CEPH
- [IT-инфраструктура, Open source, Виртуализация, Разработка под Linux, Сетевые технологии] Интеграция Open vSwitch с Р-виртуализацией
- [Asterisk, IT-инфраструктура, Сетевое оборудование, Сетевые технологии] Обзор IP телефона Snom D725 или когда нужно много физических кнопок
- [Звук, Научно-популярное, Производство и разработка электроники, Физика] Ученые создали Lamphone: используя фотодиод и телескоп исследователи превратили лампочки в “жучки” для прослушки
- [IT-инфраструктура, Высокая производительность, Компьютерное железо, Процессоры] Горшочек, вари: серверный ARM-чип Marvell ThunderX3 с 96 ядрами и SMT4 для 384 потоков
- [DevOps, IT-инфраструктура, Программирование] Путь разработчика в SRE: зачем идти в инфраструктуру и что из этого выйдет
- [Информационная безопасность, Сетевые технологии, Системное администрирование] Check Point SandBlast Agent. Что нового?
- [IT-инфраструктура, Серверное администрирование] Отказоустойчивость между 5 дата-центрами: как мы разгребаем зоопарк
Теги для поиска: #_itinfrastruktura (IT-инфраструктура), #_setevoe_oborudovanie (Сетевое оборудование), #_setevye_tehnologii (Сетевые технологии), #_optika (оптика), #_vols (ВОЛС), #_patchkord (патчкорд), #_patchkord (патч-корд), #_vitaja_para (витая пара), #_shirokoveschatelnyj_shtorm (широковещательный шторм), #_poe, #_setevoe_administrirovanie (сетевое администрирование), #_setevoe_oborudovanie (сетевое оборудование), #_blog_kompanii_dataline (
Блог компании DataLine
), #_itinfrastruktura (
IT-инфраструктура
), #_setevoe_oborudovanie (
Сетевое оборудование
), #_setevye_tehnologii (
Сетевые технологии
)
Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете голосовать в опросах
Вы не можете прикреплять файлы к сообщениям
Вы не можете скачивать файлы
Текущее время: 03-Дек 22:54
Часовой пояс: UTC + 5
Автор | Сообщение |
---|---|
news_bot ®
Стаж: 6 лет 9 месяцев |
|
Привет, Хабр! Меня зовут Антон Клочков, я сетевой архитектор в компании DataLine, а также участник проекта linkmeup. Я занимаюсь сетью более 10 лет и за это время успел поработать в больших и маленьких телеком-операторах, крупных корпорациях и небольших бизнесах. На практике я не раз убеждался, что физика упряма и обязательно отомстит за попытки пренебречь ее законами. За ошибки в физике сети я расплачивался квартальными премиями, исправлением косяков по ночам и «любовью» пользователей. Зато такая школа жизни запоминается раз и навсегда. Сегодня хочу поделиться подборкой историй про физику сетей и сформулировать правила сетевой жизни, которые вывел на практике. Дисклеймер: в статье собраны истории из моего опыта в больших и малых энтерпрайзах и операторах связи. Многие из них случились со мной или коллегами еще на заре карьеры. Большинство персонажей — собирательные образы, любые совпадения случайны. Мое мнение может не совпадать с мнением компании DataLine.
#1. Судьба энтерпрайза висит на патч-корде Обычный день, ничто не предвещает беды, если не считать Очень-Важное-Совещание топ-менеджеров компании. У технической службы последняя заявка на сегодня: нужно подключить нового пользователя. Доблестная техподдержка бежит спокойно идет разбираться с подключением. Необходимо завести патч-корд в кросс и порт свитча, и рабочий день закончен! До важного совещания 15 минут. Как назло, органайзер переполнен. Нужно освободить место и «перекоммутировать» некоторые провода. Расчищаем поляну, вставляем все обратно. Одно неловкое движение — и тот самый очень важный патч-корд к конференц-системе оказался снаружи. Вот незадача, язычок коннектора был надорван или коннектор почему-то был уже сломан. До важного совещания в той самой конференц-системе — 10 минут. Недолго думая, воин техподдержки вставляет сломанный патч-корд обратно в коммутатор. В принципе все держится, все работает. … На Очень-Важном-Совещании решается судьба энтерпрайза: будет ли у сотрудников годовая премия и прочие важные моменты. Во время выступления Самого-Важного-Топ-Менеджера сломанный патч-корд предательски начинает движение и выпадает из разъема коммутатора. Главное событие года остается без связи. Какой была реакция участников, догадаться нетрудно. Правила патч-кордов:
#2. «Обеднёнка» Отдел закупок телеком-компании узнал про ценовые преимущества омеднённой витой пары из алюминия. Дешево и сердито, берем! Проводов уходит много, так что закупщики взяли большую партию, сэкономили бюджет компании и получили за это свой бонус. Прошло 9 месяцев. Сразу пачкой стали прилетать заявки: что-то линка нет, все флапает, растут ошибки CRC на портах. Где мой интернет и за что я плачу? Закупщики не знали, что алюминий и медь образуют гальванопару. За 9 месяцев наша «омеднёнка» испытала немало температурных перепадов, и коннекторы окислились. Но это еще половина боли. Почти все сегменты витой пары были более 40 метров. Мало того, что коннекторы окисляются, так еще линк прыгает из-за большой длины «омеднёнки» . Поэтому два зимних месяца из трех монтажники разъезжали по точкам присутствия оператора связи и перекладывали линии, вместо того чтобы подключать новых клиентов. Переобжим коннекторов продолжался, пока не перешли на чистую медь. Правила витой пары:
#3. Мой друг «коротыш» В любой инструкции по подключению есть пункт: убедиться в отсутствии напряжения в слаботочке. Администратор шел подключать нового пользователя, но услышал над ухом привычное «быстрее-быстрее» и подключился без проверки. Моргнул раз, и POE-панель выключилась. Моргнул второй, и половина офиса осталась без связи — через PoE-панель запитаны телефоны сотрудников. Моргнул третий, и все остались без приложений — по телефону подключались еще и компьютеры пользователей. В это время подключенный сотрудник озадаченно склонился над блоком питания. Стоило включить компьютер, и можно было услышать звук старого-доброго dialup-модема, который издавал блок питания. Устройство сгорело не полностью и дало нам повод поностальгировать. Остальным сотрудникам повезло больше: у панели была защита от короткого замыкания. Достаточно было выключить и включить, и, о чудо, все заработало. ИТ-отдел отделался легким испугом. Правило PoE: Перед подключением проверяю напряжение на патч-корде тестером с поддержкой PoE. Хорошим тоном считается проверять тестером вообще все каналы перед включением. Посмотреть на розетку и на порт коммутатора недостаточно. Пока вы идете к розетке с другой стороны, все может поменяться. #4. Модный* бизнес-центр Как-то раз наш офис переехал в новый бизнес-центр. Время шло, гигабита уже не хватало, LACP не тащил, нужно было переходить на сеть 10G. Начали поднимать. Некоторые каналы поднимались на десятке сразу, некоторые не поднимались совсем. Один поднимался как-то странно: на портах было слишком много ошибок. Проект рисковал не завершиться в срок, и я начал копать. Маркировка на кабеле в БЦ отсутствовала. Пришлось забраться под самый потолок и найти кабели с маркировкой. Выяснилось, что подключение организовано так: с одной стороны идут многомодовые патч-корды, дальше одномодовое волокно, и на другой стороне — снова многомодовые патч-корды. Как мы знаем, одномод и многомод отличаются не только диаметром, но и длиной волны. Получилась такая ситуация: Представителям бизнес-центра пришлось признать ошибку и переварить все кабели. * то ли одномодный, то ли многомодный Правила оптики:
#5. Еще про оптику и патч-корды Чем отличается медь от оптики, всем сетевикам понятно. Одно из практических отличий — в экстренной ситуации медный патч-корд можно сделать самостоятельно. Да, мы против самопала, но для хотфикса или тестирования это делают быстро и непринужденно. Оптический патчкорд либо есть, либо нет, поэтому все держат запас на складе. Сломать оптический патч-корд довольно сложно, но однажды мне повезло: рука просто с мясом вырвала его из коннектора. На мое счастье, архитектура сети была отказоустойчивой, кабели в серверную шли с двух плечей, и сервер продолжил работать. Я отправился на склад и — сюрприз! — не обнаружил ни единого оптического патч-корда. Спокойно сел за компьютер и вбил патч-корд нужной длины. И тут выяснилось, что в огромном Санкт-Петербурге купить его сегодня практически негде. Тем временем я заметил сбой на устройстве, которое обеспечивает отказоустойчивость серверов. Один из портов вывалился, и получился шахматный порядок: один сервер недоступен с первого юнита, второй сервер недоступен со второго. Поиски кабеля продолжились в менее спокойном темпе. Нашлось только одно (Карл!) место, где забрать патч-корд можно СЕГОДНЯ! Пришлось включить режим RUN AS ADMINISTRATOR. Правило запасных принадлежностей: Всегда держу запас оптических патч-кордов. Это не медь, быстро обжать времянку не получится. #6. Бродкастовый шторм и телефоны Запускали в пилоте одну железку. Там, где она крутилась, сеть находилась в одном-единственном первом плане. Не сказать, что система мониторинга отсутствовала как класс, были какие-то зачатки. Но так исторически сложилось, что она не видела, когда сеть заваливает бродкастовым трафиком. Именно это и произошло. Не без помощи помощи кривых рук администратора устройство собрало на себе петлю, и все выходные молотил бродкастовый шторм. После этого в прямом смысле сгорело 18 телефонов Avaya: CPU оплавились. Естественно, это большая дыра в бюджете. Повезло, что не сгорела телефонная станция, — иначе меняй работу. Часть пользователей в это время работали. Они не заметили неудобств, потому что работали на старых телефонах с обычной коммутацией каналов. Ну разве что все выходные «сетка подтормаживала» и отчеты с десятого раза отправлялись. Казалось бы, при чем тут физика? Сгорели аппараты физически, из-за физически подключенного кабеля в прод, где шаловливые ручонки собрали петлю. Правила настройки оборудования:
#7. Поиски утраченного линка Когда я работал в маленьком интернет-провайдере, на чердаке одного дома был ящик. Ящик служил центром агрегации всех оптических соединений. Открывать его было опасно само по себе: можно обломать патч-корды, идущие в кроссы. Но, вдобавок ко всему, эту стойку не оборудовали органайзерами. По воспоминаниям, это было вот так: Попытки разобраться в ящике работали как не до конца оттестированный медикамент: в одном месте лечишь, в другом калечишь. Создать аварию можно было на ровном месте. Однажды я хотел переставить из порта номер 2 в номер 3, что в итоге привело к отказу целого региона. Но это уже совсем другая история. Правила стоек и кроссов:
В идеале стремлюсь вот к этому: Это далеко не все истории из жизни сетевика. Буду рад, если поделитесь своими. Какие истории помогли вам не повторять популярных ошибок? =========== Источник: habr.com =========== Похожие новости:
Блог компании DataLine ), #_itinfrastruktura ( IT-инфраструктура ), #_setevoe_oborudovanie ( Сетевое оборудование ), #_setevye_tehnologii ( Сетевые технологии ) |
|
Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете голосовать в опросах
Вы не можете прикреплять файлы к сообщениям
Вы не можете скачивать файлы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете голосовать в опросах
Вы не можете прикреплять файлы к сообщениям
Вы не можете скачивать файлы
Текущее время: 03-Дек 22:54
Часовой пояс: UTC + 5