Готово!
Скоро материал придет на указанную электронную почту. Также подписывайте на нас в Facebook
Ok
SD-WAN и трудности миграции: успеть за 30 минут
Я работаю в сервисной компании, и в своей работе мы часто используем российские SD-WAN решения. Делаем крупные и нестандартные внедрения, а также предоставляем сеть по «подписочной модели» на основе Kaspersky SD-WAN.
В этой второй статье из цикла я бы хотел поделиться нашим опытом миграции на SD-WAN в рамках услуги «сеть по подписке». Подписочная модель предоставления сети подразумевает нулевые затраты (CAPEX) на оборудование. Сеть предоставляется «под ключ» как сервис (или, другими словами, 100% OPEX), все необходимое оборудование доставляется на площадку заказчика в рабочем и настроенном состоянии в «аренду». Бизнес получает рабочую транспортную сеть на удаленных площадках с заданным SLA без необходимости капитальных затрат, найма персонала и прочего.
В такой парадигме важным параметром для заказчика остается скорость подключения новых удаленных площадок, и мы стремимся к своим личным рекордам. Заказчику важна скорость, так как это минимальная остановка текущих сервисов и быстрое введение в эксплуатацию новых площадок.
В данной статьене будет технических деталей, примеров конфигурации, и сравнения решении разных вендоров, а также рассуждений о том, какое решение является «более настоящим» SD-WANом, а какое – только оптимизацией выхода в интернет. В статье описан опыт ежедневной эксплуатации и проблемы, с которыми сталкивается команда, обслуживающая SD-WAN.
Итак, займемся гонками и скоростным подключением.
Преамбула, или немного о ZTP
Современные SD-WAN решения предлагают набор инструментов для таких соревнований. Прежде всего, это механизм ZTP (Zero Touch Provisioning), позволяющий проводить конфигурацию устройств с минимальными усилиями на стороне удаленного оборудования.
Реализации механизма различаются у разных вендоров. У Kaspersky SD-WAN ZTP выглядит так: для активации механизма достаточно сгенерировать в системе управления URL, содержащую все необходимые параметры, и передать «файл» на удаленную локацию.

Любое устройство SD-WAN при первом включении активирует встроенный DHCP-сервер, который выдает необходимый IP-адрес на компьютер, с которого можно выполнить подключение (вставить URL через браузер) и вся конфигурация будет произведена автоматически.
-
В случае ошибки можно провести сброс к заводским настройкам, зажав специальную кнопку. В случае, если тяжело подключить компьютер непосредственно к СРЕ, ссылку можно вставить и через консоль с помощью того же curl, встроенного в саму ОС на СРЕ.
Ниже – пример ссылки ZTP. Для удобства формируется файл HTML с кнопкой перехода. Сама ссылка помечена красным:

Конечно, такой способ не всегда удобен. Особенно, когда:
-
— на локации нет компьютера/ноутбука с поддержкой DHCP или с проводным Ethernet RJ45,
-
— производится установка виртуального аплаенса и гипервизор не поддерживает вставку текста (ZTP) через консоль.
Хотелось бы видеть вариант, когда ZTP подставляется на флешке и/или как ISO-диск, но у этого варианта SD-WAN от Касперов пока такой опции нет.
Идеальный план
-
1. Распаковали коробку, подключили Wi-Fi и LTE-антенны (актуально для M1 и М2 моделей), «ушки» для крепления (в случае необходимости), поставили СРЕ на место в стойку (10 минут). -
2. Подключили сеть 220вольт (1 минута).
-
3. Подключились кабелем RJ45 к ноутбуку и получили IP адрес с СРЕ, «выполнили» ссылку ZTP в браузере (3 минуты). Произойдет перезагрузка, можно отключать ноутбук.
-
4. Подключили все кабели (провайдеры, локальная сеть) по схеме пока идет перезагрузка, дождались конца перезагрузки СРЕ, дождались финальной регистрации СРЕ на оркестраторе (15 минут). На этом этапе можно отключить старое оборудование, если речь идет о миграции.
Но, конечно, что-то всегда идет не так, и уложиться в 30 минут получается не всегда. И вот здесь обращу внимание, что, пожалуй, данная статья – именно об этом.
Трудности «ДО»
Несмотря на то, что на нашей стороне процедура подключения нового заказчика проработана и, где возможно, автоматизирована, есть шаги, на скорость выполнения которых техническая команда SD-WAN повлиять не в силах.
До запуска секундомера нам нужно сделать следующие бюрократические шаги:
-
1. Подписать NDA, заключить необходимые соглашения и договоры
Тут счет времени идет не на минуты и даже не на дни. В больших забюрократизированных компаниях эти процедуры могут занимать недели и месяцы. В редких случаях получается работать сразу после формального согласования, но так готовы работать не все.
-
2. Согласовать архитектуру сети и/или миграции
Сеть SD-WAN хоть и предоставляет качественно новый уровень сервиса, но требует все тех же «старых» сетевых настроек и где-то интеграции.
Самый простой вариант – это связность на уровне L2, но такой сценарий очень редко подходит на роль основного. На такие обсуждения могут уходить месяцы. Никто не хочет «типового» подключения, обычно требуется учесть много нюансов текущей инфраструктуры, которые копились годами. «Вытащить» эти нюансы – задача опытных архитекторов, которые подключаются на начальном этапе. После составления типовых шаблонов подключение становится уже делом техники.
С миграцией (когда меняется старое оборудование на новое) ситуация может быть еще сложнее. Ведь надо не просто представить новую архитектуру, но и проверить работу всех связанных сетевых компонентов заранее.
-
3. Организовать доставку и приемку оборудования
Здесь это зависит от региона, но вполне может занять несколько дней и недель для удаленных регионов.
Если формальные шаги пройдены, можно готовиться к «забегу», но тут опять много препятствий.
Популярные причины задержек
Они делятся на физические и логические.
Физические:
-
— Нет походящих розеток 220В в стойке/серверной. Чтобы этого не случилось, необходимо в случае возможности провести обследование заранее. Бывают случаи, когда не помещается «вилка» в свободный разъем. Модели М1 имеют внешний адаптер питания, который занимает больше места, чем обычная вилка.
-
— Не хватает длины кабелей до ближайшей розетки.
-
— Нет лестницы, а серверный шкаф под потолком – такие случаи тоже бывали, а поиск лестницы и доступа к шкафу (например, ключа) занимал часы.
-
— Нет компьютера с проводной сетью для первоначальной настройки СРЕ, нет RJ45 разъема.
-
— Компьютер есть, но нет прав, чтобы задать адрес для подключения с СРЕ (настроить DHCP).
-
— Нет пропуска на площадку заказчика, нет пропуска на внос/вынос оборудования.
Эти пункты можно и нужно проверить заранее, тем не менее они так или иначе могут замедлить или затормозить подключение СРЕ на площадке.
Логические:
-
Наверное, самая частая проблема – это отсутствие подключения к интернету на площадке заказчика. Тут подвариантов много:
-
— Нет кабеля или разъем/интерфейс несовместим;
-
— Кабель есть, но не подключен к свичу;
-
— Порт провайдера не включен или не настроен.
Проверить это все заранее часто невозможно или трудно. Провайдер «дотягивает» интернет канал до точки подключения и оставляет кабель как есть, часто без проверки.
-
-
Провайдер делал привязку к MAC адресу, а теперь новый MAC не работает (при миграции и замене старого устройства на SD-WAN).
-
Симку вставили, но не активировали. К сожалению, у операторов связи до использования симки необходимо отправить и принять несколько СМС. С СРЕ это сделать невозможно, поэтому приходится использовать телефон, который есть не всегда под рукой. Бывают телефоны и без возможности установки физической SIM.
-
Провайдер блокирует часть портов или проводит TLS инспекцию трафика. Такое встречается довольно редко, но заранее увидеть невозможно.
-
СРЕ приходят со склада со старыми прошивками. Требуется время на обновление прошивки (дополнительные 10-15 минут) и время подключения увеличивается.
История о том, сколько нужно сетевых инженеров, чтобы «вкрутить лампочку»
Как-то раз у нашего ключевого клиента мы подключали оборудование, размещенное на площадке одного очень известного московского оператора ЦОДов. Необходимо было подключить 2 СРЕ в двух ЦОДах на сервере и юге города Москвы.
Клиент арендовал несколько стоек у этого оператора и перед нашей командой SD-WAN стояла задача подключить новое оборудование к «хорошему» и «независимому» интернет каналу. Выбор очевидно пал на оптику.
Началось все с того, что провайдер кинул оптический кабель без разъемов и «рапортовал» клиенту, что все готово. Выставил счет и стал брать деньги за трафик.
Когда наши инженеры приехали на локацию для подключения СРЕ, они были мягко говоря удивлены. В стойке лежал оптический кабель без разъемов. Ушло две недели, чтобы через менеджеров объяснить (прямые контакты с инженерами ЦОДа запрещены), что мы не можем догадаться, какой тип разъема находится с другой стороны и «опрессовать» оптику самостоятельно.
Прошла еще неделя, и провайдер через менеджеров опять бодро отрапортовал, что все готово и разъем «надет», правда не сказал, какой. Еще неделя ушла на то, чтобы провайдер поставил разъем и трансивер – такой, как он использовал на своем свиче (а они идут парами: А и В).
Так уже прошел месяц, и появилась надежда. Мы подключили кабель к СРЕ и… линка нет. Еще 3 недели прошли в оффлайн взаимодействии с представителями ЦОДа. Нас, уверяли что все проверено, как в монологе Райкина: «К пуговицам претензий нет. Пришиты насмерть, не оторвешь!».
Приходили инженеры и проверяли оптический кабель – разрывов нет. Приходили инженеры свечей доступа – свичи и порты работают. Приходили инженеры маршрутизаторов – роутинг и аксес листы настроены.
Ситуация не двигалась с мертвой точки, все пеняли друг на друга, а мы удаленно проводили траблшутинг, но видели только порт в состоянии DOWN. Мы даже на всякий случай отправили в ЦОД еще одну, заведомо исправную сетевую карту, и подключили ее к СРЕ. Порт не подавал признаков жизни. Заказчик так и не смог добиться рабочего подключения, и через месяц (уже прошло 2 месяца) мы отправили нашего опытного архитектора распутывать этот «клубок» на месте, прямо в ЦОД.
Собрали всех «причастных» в одном шумном помещении ЦОД – заказчик, представители провайдера, инженеры обслуживающие коммутаторы, маршрутизаторы, менеджеры и др.: 6 человек столкнули в одном месте, чтобы решить на первый взгляд простую задачу. Тут стала понятна функция и задача архитектора.
Каждый по отдельности сделал свою работу может и правильно, да вот только вместе все не работало. Трансивер SFP+ был включен в порт SFP коммутатора доступа. Все, кто приходил, проверяли отдельно: кабель, трансивер, порт, роутер, но никто не проверял канал в совокупности. Было ли стыдно оператору ЦОД? Да, было, очень сильно. Но так бывает, когда у команды нет единой цели, каждый отвечает за свою часть и никто не отвечает за целостный результат.
Это было самое долгое подключение площадки заказчика (>2 месяцев). Сделал ли оператор ЦОД выводы? Нет.
Когда нам понадобился второй интернет канал ситуация «попыталась повториться». Второй раз подключение прошло уже за неделю: но не обошлось без новых сюрпризов. В этот раз провайдер выдал адрес сети вместо IP-адреса. Маска была больше 24, и наши инженеры тоже не заметили ошибку. Выяснилось, что форма ввода IP адреса в Kaspersky SD-WAN не проверяет такие ошибки – вместо IP-адреса хоста можно задать адрес сети, и этот адрес даже настраивается на интерфейсе. Траблшутинг в конце концов показал, что дело было в адресе, провайдер исправился и выдал правильный адрес, но время уже ушло и уложиться в 30 минут у нас, конечно, не получилось.
В завершение
Это пример антирекорда наших подключений, который показывает, что мы можем повлиять не на все этапы, и как плохо, когда разные организации отвечают за свой кусочек работ.
Надеюсь, примеры наших сложностей помогут и вам при планировании быстрых подключений. В комментариях предлагаю дополнять список вашими проблемами.
Будьте в курсе новостей
Подпишитесь на рассылку и будьте в курсе наших последних новостей