.. не строить.

GrAnd
11/28/2012, 3:27:27 PM
Топик расчитан в первую очередь на электронщиков и сисадминов не совсем маленьких сетей. Ведь самые крупные (и дурацкие) поломки бывают именно у них.

Но и пользователей домашних систем приветствую. Как тех, кто сумел разбить, сжечь, вывести из строя любым способом, так и тех, кто сумел потом это исправить 00064.gif
GrAnd
11/28/2012, 3:29:41 PM
История приключилась в самом начале февраля почти 2 года назад.

Сижу себе, потихоньку работаю, думаю, что на 2 оставшихся часа осталось одно запланированное дело на 20 минут, после чего можно и расслабиться ...

Вдруг ... Брямс! Интернет кончился, сеть затормозила. Сразу звонки ... Паника ...

Пытаюсь с места локализовать неисправность. Вроде получается, что в соседнем корпусе пара серверов не отвечает. У нас недавно новую серверную сделали. Но в нее еще не все оборудование переехало. Поэтому бегать приходится много.

Иду туда. Смотрю, электрики возятся. Спрашиваю, не отключали ли они питание на серверную? Они отвечают, что буквально на несколько секунд отключили. Им главный энергетик сказал, что там бесперебойники стоят - они вытянут ... Как оказалось - не вытянули.

Захожу. В стойке 2 сервера упавших. Запустил. Говорю электрикам: "Если будете обратно отключать - скажете". Ну они через 5 минут сообщают о готовности. Я зову главного энергетика, мол посмотри - похоже, UPS сдох. Надо аккумуляторы менять.

Точно, только рубильником дернули, бесперебойник потух. А вместе с ним и эти 2 сервера.

Выругался, запустил их обратно. Говорю, главному энергетику: "Вот видишь, UPS дохлый, надо менять". Ну он мужик свойский, простой. Менять, так менять. Открывает крышку UPS (не отключая питания) со словами: "Кажется, здесь аккумуляторы с "горячей" заменой", дергает какой-то разъем. Как оказалось, не с "горячей". Бесперебойник судорожно мигает лампочками и гаснет. Сервера в третий раз подряд падают. Энергетик испуганно вставляет разъем на место. Из бесперебойника начинает валить дым. Мы в панике обесточиваем всю стойку, а заодно, на всякий случай и вторую (разбираться некогда было) ...

Вобщем, еще полтора часа после этого мы поднимали сервера и сеть после такого аварийного отключения. Двадцатиминутное дело я так и не сделал. А когда я уходил (еще через час после окончания работы), главный энергетик во главе своей службы еще пытались реанимировать UPS.

Вывод: Главные - они такие же, как и все, только главные :D
Пивован
11/30/2012, 3:46:16 PM
Ну, за электриков!

Уж лет 10 прошло... На региональном узле достаточно крупной телекоммуникационной компании дежурным работал. И вот в один прекрасный момент валится питание. Ладно, ничего страшного, UPS тут же переключается на батареи, минут 20-30 держать должен, потом на резервную линию питания переключится. Докладываю в Москву - порядок такой. Сидим, ждем.
А через пару минут UPSа начинает визгом исходить - на резервом луче напряжение село до 140, маловато будет.
Бегом по узлу - гашу второстепенное оборудование, свет, компы - хоть пару минут батарей выиграть. Звоню в Москву, там тоже начинает кипяток сами понимаете откуда фыркать. Местное руководство в экстазе. Сижу, таращусь на таймер UPSы, который как в кино, отсчитывает обратное время. На последней минуте попрощался с Москвой. Все..
За 14 секунд "до" поднялся основной луч питания. Как в кино.

Так что да, ружье в руках у них :)
GrAnd
12/1/2012, 4:35:19 AM
Представляю, как это выглядело :D

После описанного мною события с дохлой UPS было вскоре и другое:

Переезжали мы в новую серверную. Для этого даже в выходные на работу вышли.

И пошел я в другой корпус за сервером. Даже, не побоюсь этого слова, за файл-сервером. Такой зел... ой, серый и плоский для монтирования в стойке. 8 дисков в корзинах с фронтальной загрузкой. 2 небольших, но шустрых под систему и 6 полторашек в RAID-5 под файлохранилища. Не шибко навороченный, но 120 с небольшим тысяч рубликов стоил.

Вобщем, осоединил всякие кабели. Снял его с салазок, вынул из шкафа и понес в охапке из корпуса в корпус. Делов-то было, метров 100 пройти, из них 20 по улице ... да вот зима не даром злилась. Прихватила лужи и размолоченный снег морозцем, а сверху снежком присыпала ...

И попадает нога в какую-то скользкую выбоину и подворачивается ... И со всего маху роняю я сервак прямо фронтоном на лед ... Диски в корзинах повылетали из него вместе с обломками замков ... металлические уши погнулись, а один винт двоечку, который их крепил, просто срезало ...

Короче, принес я его в новую серверную, включил - 2 диска не видятся ... Разобрали, смотрим - у них разъемы, на которые корзины насаживались, просто с плат повырывало с мясом и с дорожками, к которым проводники были припаяны.

Пришлось вызывать из дома электронщика и он 2 часа спаивал проволочками порванные дорожки.

Как ни странно, диски оказались на тот момент работоспособные. Все закрутилось, замигало и пошло ... А через год, примерно, стали эти диски выходить из строя один за другим. Только мне кажется, у них просто ресурс выработался. С падением это не связано ...
Алексеев
12/1/2012, 6:16:45 AM
Было дело в одной охранной конторе, где я на тот момент исполнял обязанности начальника технического отдела. Правда сам отдел состоял из меня и ещё двух равшанов-техников, но это не суть... Будят значиццо меня посреди ночи вечера по глобальной поломке - на пульте центрального наблюдения массово отваливаются объекты.
Надо сказать, в дежурство на ПЦН ставятся обычные охранники, то есть люди, мягко скажем, без высшего образования. От их криворукости периодически возникали проблемы, но они решались либо звонками младшему тех.песоналу, либо записями в журнале приемки-сдачи смены, который потом просматривался тем же младшим тех. персоналом. Звонить в нерабочее время начальнику отдела по рядовой фигне не будут, поэтому я таки собрался и поехал в контору.

Надо сказать, что ПЦН там был не сильно сложный, на базе обычного ПК под Виндой, с двумя винтами в аппаратном RAID-1, с прогой WinSamm и парой специфических PCI-модулей. Все это было упаковано в железный ящик и заперто на замок, входящие провода были зашиты под короба из оцинковки.

Приезжаю, врубаю голову, смотрю логи. Оказывается, все 22 объекта отвалились одновременно, тестов нет. Это они возмущаться начали постепенно, по мере закрытия... Вспоминаю, что у них общего, прихожу к выводу, что все они работают не на телефонных линиях, а на GSM-передатчиках. С нехорошим подозрением осматриваю навигардовский GSM-приемник и его сом-соединение с компьютером. Как в воду глядел. Сцаный снайпер-охранник умудрился попасть ногой в двухсантиметровую щель между коробом с проводами и ящиком с сервером, и дать пинка по проводам под ним. Соm-провод из-за достаточно специфических требований к монтажу паялся вручную, поэтому не вынес богатырского звездюля и потерял половину контактов. Пара тычков паяльником, и все встало на место...

Это как раз тот случай, когда один неуклюжий дурак продуктивнее целой бригады воров и грабителей...
Пивован
12/1/2012, 10:19:35 AM
В тот же период десятилетней давности подрабатывал ITшником в нашем представительстве одной буржуинской авиакомпании.
Звонок оттуда: повалилась связь. Для них это как воздух - бронирование билетов и прочее. Звоню провайдеру - канал на Москву есть, дальше не в их ответственности. Но они отслеживают канальный уровень, что на сетевом - не могут. Короче, поехал, вспоминая, где чья ответственность дальше и что могло в офисе случиться.
В офисе все пьют чай, все нервные и все на первый взгляд в порядке. Звоню сетевому провайдеру в Москву - нашел по бумажкам, кто это. Маршрутизатор они видят, аварий нет, но как-то мнуться при этом. Пингуйте забугорье, прошу. "Фиг, не идет" - отвечают, и начинают тут же давить на меня проверять канал. Торможу их - Ciscу они-то видят, пусть выясняют у буржуев лучше, не происходило ли что сегодня, а заодно сами вспоминают, не делал ли кто чего у них. А то как обычно - левая рука не ведает, что творит голова. Через СУТКИ выяснили, что к ним со стоороны буржуев пришел заказ на оптимизацию конфигурации маршрутизации. Ну и оптимизировали!

Умники, ё!
Пивован
12/2/2012, 1:43:52 AM
Вот такая мелочь:
Билайн по витой, включен в свич в квартире, теле и Инет. Работало только теле, я привез и включил комп. Теле повалилось, а комп жудко стал тормзить - как 386я...
Выяснилось, что какой-то умник кабель от старого подключения компа(?) засунул вторым концом снова в свич, ну а я комп в другой свободный порт. После извлечения этого лишнего кабеля все заработало.
Идиотизм, но три часа возился.
Алексеев
12/2/2012, 4:50:21 AM
Нда? Странно. Насколько знаю пчелайн, инет у них строится по ФТТБ, c точками клиентского доступа в виде коммутаторов 2 уровня. Если на таком комке сделать кольцо, то он просто вырубит проблемный порт до выяснения.

Хотя нет, все правильно. ТКД вырубил порт, соответственно теле отвалилось. Свич такие вещи делать не умеет, поэтому продолжил глючить. После устранения косяка ТКД автоматом разблокировал порт и все пошло :)
GrAnd
12/5/2012, 2:32:11 PM
Недавно, недели 2 не прошло еще, удалось уронить пол сетки предприятия ...

Картина такая ... Есть терминальный сервак, подключенный к двум подсетям: в одной исключительно локальные терминалы, в другой обычные дисковые компы, серваки и удаленные терминалы через провайдерский VLAN.

Если в локальной терминальной сети относительный порядок, то во второй - черт ноги сломит и рога в придачу. Там не то что топология "звезда" с каскадами свитчей, а просто "лента Мёбиуса" где-то, наверное ...

Пришла в голову идея сделать всё по фэн-шую. Закупить еще парочку гигабитных свитчей на 48+4 портов каждый, все свитчи в отдельный шкаф, линии протянуть заново и т.д.

Но чтобы не пускать никакие свитчи последовательно, решили поставить в сервер еще 2 сетевухи и попарно их объединить в "мосты". Получатся не 4 сетевухи, а 2 устройства "мост" - каждое с одним IP, но двумя разъемами.

А пока вопрос решается, решил я уточнить, как мост поднимается, какие там параметры нужно назначать при его создании и т.д. Чтобы потом не было сложностей - подключить и быстренько всё настроить.
Но т.к. дополнительные сетевухи не были поставлены, то изучать вопрос стал на одном из серваков с уже установленными двумя. Правильно, на этом самом терминальном :D ...

Выделил эти две сетевухи, подключенные к разным подсетям, и нажал "Создать мост". Я думал, сейчас окошко выскочит с настройкой параметров и кнопкой "ОК". Я на окошко посмотрю, а кнопку жать не буду, дам отмену.
Ага ... ща ... Без всяких окошек оно объединило две сетевухи в один интерфейс мостом. Ненастроенным. Разумеется, сервак мгновенно отвалился от обоих подсетей. Зайти на него по RDP удаленно из своей подсети я не могу. С терминальной сети тоже его не видно. Более того, не могу локально зайти на него админом домена, т.к. от контроллера домена он отвалился и подтвердить мои права некому. А локальным администратором тоже не получается, т.к. его пароль забыл еще 1,5 года назад.

Пляски с бубнами, гадание на потолке и бормотание страшных матерных заклинаний помогли пароль вспомнить ... Отключил мост, перегрузил сервак, настроил сетевухи заново ... А терминальная подсеть не работает. Еще почти час разбирательств привели к выводу, что в результате экспериментов заглючил свитч этой сетки. Но перегруз его по питанию не помог!!!

Как потом оказалось, при виде сзади в шкафу, набитом аппаратурой, перепутал и перегрузил другой свитч!

Я никому не признался, кто виноват в почти полуторачасовом простое :))) Сказал, что свитч подвис. А почему висела и вторая сеть? Да кто ж ее знает 00058.gif Лента Мёбиуса, аднака 00064.gif
Пивован
12/5/2012, 10:04:06 PM
Ночь на узле ранееупомянутьй телекоммуникационной компании. Дежурю - с смысле, хврю давлю с телефоном под ухом. Звонок из Москвы, где центр управления всея сети (а заодно и мониторинг): упал канал на один из райцентров. На крупненький такой райцентр, вполне сравнимый с иним областным.
45 сенкунд подъем - тапки надеть, да свет включить, да комп разбудить. По записям установил, какая плата на магистральном мультиплексоре отвечает за этот поток, побежал (ага, шагов пять или даже шесть от моего стола) смотреть на нее. Зеленая - физически канал есть. Лезу терминалом на мультиплексор, смотрю эту же плату. Нихрена в полученной абракадабре понять не могу (ну не спецы мы, дежурные, по всему составу оборудования. Да и прав у нас как у космонавта-чукчи), кроме того, что интерфейс в UPе. Пытаюсь залезть в районный мультиплексор - облом.
Звоню в Москву - типа, чё? Канал, грю, вроде и есть, а вроде и никак. Вы ух посмотрите подробнее, что на мультиплексоре моем. Нормально, грят,у тебя. А там канал на петлю встал (специальный режим для диагностики, заворачивает все принятое на передачу).
Звоню в райцентр, знаю - там провайдер жирный, дежурный у них есть. И правда, есть. Канал, говорю, рухнул, и прошу ее глянуть на плату мультиплексора, которая в нашу сторону. Зеленая. А тумблер, тумблер на морде в каком положении? Среднее - LOOP. А переключите вниз. Ok. Заработало. Ессно, дежурная ни в какую - тумблер не трогала, типа, зачем он ей?..
А потом история повторилась еще раз. И еще. И еще... Какая-то еб...ческая сила перекидывала его в среднее. Диверсантов не замечали, дистанционного управления этим механическим переключателем нет. На всякий случай меняли им плату 2 раза - типа, пружинка какая в тублере? Хрен. Полный маразм.
Чуть не 2 года история тянулась. Что было? Мультиплексор - стоечное шасси для плат. Сзади разеъмы, с морды индикация и минимум физических элементов управления. И закрывается крышкой. И при попытке поствить крышку каким-то выступом этот тумблер задевало. И ума не хватило связать установку крышки с паденим канала. А скорее, очко срабатывало - ставлю, типа, крышку, вдруг падает. Ой, накосячила... Но не скажу, проклятые фашисты!
Алексеев
12/6/2012, 4:13:09 AM
Делали видеонаблюдение в одной достаточно крупной и богатой конторе. Все по крутому, IP-камеры, свич и персональный 19-дюймовый видеосервер. Свич и сервак было решено ставить в местный сетевой шкаф.

Сетка в этой конторе достойна отдельного упоминания. Связь с внешним миром осуществлялась по оптике, которую эпично засунули в вентиляцию, напрочь игнорируя наличие чердака и шахты с электропроводкой. Из вентиляции оптика выходила... вы думаете, в серверную? Нет, это слишком просто 00043.gif Оптика через какой-то кабинет шла в коридор под лестницу и упиралась в 19" планку для зоновой разводки (ага, всеми своими 1,5 жилами), откуда разбегалась на 2 24-портовых коммутатора. Витуха со всех этажей, снова игнорируя электрическую шахту, выходила на лестницу, брутально пробивала все лестничные пролеты и в пластиковом коробе спускалась к оборудованию.

Все это великолепие собиралось в хтоническом антивандальном ящике (что-то вроде ПК-3, только чуть больше) со сдвигающейся вбок крышкой. Теоретически все влезало, но теория и практика - разные вещи... Наши железки еле встали, мы разве что сверху не прыгали. При открытии крышки провода прям-таки выпирали наружу. Создавалось ощущение, что внутри сидит неведомое беспозвоночное, которое желает нам зла >_<

А теперь вопрос - как одним движением положить инет в этой конторе и vpn-сетку в ней же и ещё в двух филиалах? Элементарно :) Достаточно пинком задвинуть клинящую крышку, так, чтобы тонкие оптические жилы зацепились за направляющие (закрывающему этого не видно) и повылетали нафик :)
GrAnd
12/8/2012, 12:27:18 AM
Весело тут у вас :D Беспозвоночные живут в ящиках. Это Великий Кракен, не иначе :)))

По поводу тумблера в ящике вспомнилась история 8 или 9-летней давности.

Мы тогда только приступили к автоматизации и диспетчеризации удаленных объектов по городу. В основном, это были ЦТП - центральные тепловые пункты. Наверняка, все видели в жилых кварталах небольшие бетонные постройки вроде трансформаторных пунктов. Только в ЦТП трансформируется не электроэнергия, а тепловая энергия. Дорогая очищенная горячая вода с котельной нагревает более дешевую обычную "сырую" воду и уходит по замкнутому контуру обратно в котельную. А подогретая "сырая" вода уже поступает потребителям - в домовые системы отопления, в системы горячего водоснабжения.

Так вот, установили подрядчики на одном ЦТП контроллеры автоматизации и диспетчеризации, сдали работу и уехали. А мы остались эксплуатировать. Только начались какие-то странные вещи твориться. Вдруг связь с этим объектом начала отваливаться ни с того ни с сего.

А надо сказать, это важно, что первыми мы начали автоматизировать ЦТП, на которых был персонал - обходчик, который контролировал работу этой и нескольких ближайших ЦТП в соседних кварталах. Чтобы, если что, было кому в ручной режим автоматику перевести, если дурить начнет.

Так вот ... Пропадает связь. Я подгадываю время, когда обходчик возвращается с обхода на этот свой базовый ЦТП, звоню ему, чтобы удостовериться, что он на месте, и еду туда. Открываю шкаф с коммуникационным оборудованием (медиаконвентор, роутер, еще один медиаконвентор) - все работает. Звоню в диспетчерскую - связь есть. Восстановилась недавно.

И так продолжалось, наверное, месяца 2 ... Пока директор не вставил мне фитиль из 3 литров скипидара с патефонными иголками. Ободренный таким напутствием я подхватился и поехал на ЦТП не дожидаясь возвращения обходчика.

Подъезжаю к ЦТП - а тут как раз и он подходит, ключом дверь открывает. Поздоровался с ним, он дверь открыл, свет включает, а я рысью к оборудованию. Открываю шкафчик и вижу ... По индикации на железяках, они все явно проходят самотестирование, как при включении питания.

И тут меня осеняет. Электрики запитали этот шкаф от автомата, на котором висело всё освещение ЦТП. Обходчик, уходя на обход, вырубал этот автомат. Через некоторое время садилась UPS`а. Оборудование вырубалось. Связь прекращалась. А придя с обхода, он включал автомат, всё запитывалось, через некоторое время связь восстанавливалась.

Вобщем, разобрались, переделали. Но только вот ... накосячили электрики, огреб я, разобрался тоже я, но награду не получил :D

А ведь если бы я на входе чуть дольше задержался или чуть позже подъехал, так и разбирался бы еще невесть сколько в этих странных отключениях.
Алексеев
12/8/2012, 1:55:42 AM
(GrAnd @ 07.12.2012 - время: 20:27)
Вобщем, разобрались, переделали. Но только вот ... накосячили электрики, огреб я, разобрался тоже я, но награду не получил :D
Бывает 00003.gif

В бытность мою студентом эникеил одну конторку. Звонок - у тетеньки-бухгалтера (куда ж без них:)) отвалилась локалко с инетом. По описанию нет сетевого подключения. Приехал. Все работает. Пожал плечами, ушел.
Только вышел из здания, звонок - локалка не работает.
Прихожу - работает. Матюгаюсь, ухожу.
Через три минуты звонок. Не работает. Возвращаюсь, полчаса пьем кофе. Все в норме.
Иду к выходу, опять звонок. Естественно, не работает. Блин.

Пришел. Конечно же, опять все работает. Мысль о маразме бухгалтерши отмел ещё раньше - в состоянии подключения можно посмотреть длительность. Реально рвется.
Начал вспоминать действия, которые делал при выходе. После пары экспериментов нашлась и причина :) Оказалось, криворукий монтажник проложил ей витуху прям под дверью, и её передавливало косяком. Провод сливался по цвету с линолеумом и от двери шел под плинтусом, поэтому сразу я его не заметил. Когда я уходил, дверь закрывалась, провод перекашивало и сетка попадала. Я приходил и открывал дверь - сетка появлялась 00003.gif

GrAnd
12/12/2012, 5:14:43 PM
Где-то весной был случай.

Построили новую проходную, оснастили ее турникетами, бесконтактными считывателями электронных карт и т.д.

Считыватели (т.н. терминалы) включены в сеть по Ethernet. Данные отправляют на сервер, с него приходит ответ в зависимости от того, кто, куда и когда: допустить или отказать.

И вот незадача. 2 терминала работают нормально, а 2 - ни в какую. Просто не реагируют, как бы на карточки. Причем, в БД факт этот отмечен, а обратно им ответ не приходит или приходит через раз.

Мы вдвоем с электронщиком головы сломали. Кабели по несколько раз проверили, прозвонили. Настройки сверили, пинговали эти устройства ...

Вот с пингами сразу какая-то странность обнаружилась. Собственно говоря, со странных пингов всё и началось.

Если подключить эти терминалы прямо к ноуту, то прекрасно они пингуются. Но если их включить в общую сеть, то примерно половина пингов теряется ...

Но это если они оба включены в сеть, а если включен только один из них, то все нормально.

Апофеозом являлась следующая ситуация:

Беру 2 свитча. К каждому подключаю по 2 терминала и ноуту. Свитчи соединяю между собой. На ноутах запускаю пингование всех четырех терминалов. И тупо смотрю, как на каждом ноуте видятся по 2 терминала, подключенных к тому же свитчу, а из терминалов, подключенных к противоположному, виден только один!!!
Т.е. эти терминалы прекрасно видны через один свитч, но не видны через два!

Я тупо смотрю на это, собираю сеть обратно, как было и иду к себе.
Решаю еще раз проверить, нет ли дублирования IP, хоть уже раз надцать проверял. Но в этот раз не тупо отключением терминалов, а через ARP-таблицы. Если есть 2 устройства с одним IP, то может быть удастся засечь смену MAC ...

Пингую оба странных терминала ... Затем сразу арплю. И вижу!!!

Нет, я не вижу 2 разных MAC на одном IP (такое одновременно увидеть и нельзя). Но я вижу 2 разных IP (как раз IP этих терминалов) на одном MAC!

Производитель прошил 2 этих устройства одинаковыми MAC. Более того, у них последние цифры MAC совпадают с S/N. так вот, оказалось, что S/N у них тоже одинаковый налеплен!

Вообще-то, я человек спокойный и на крик срываюсь крайне редко. Тем более, почти никогда не ору матом по телефону. Но это был не тот случай :D Пять часов пляски с бубнами из-за чужого раздолбайства, аднака.

Короче, я им в доходчивой форме объяснил, в чем они не правы и заставил выслать мне прогу и инструкции по перепрошивке терминалов.
Пивован
12/16/2012, 3:06:07 AM
Что я был сделать не в силах, хоть и не ломал...
Начало 90-х, институт исследования авиации:
Ё! Хыыы-чиии-бум!
Мать... , ё... взяли!
Ё! Хыыы-чиии-бум!
Это работает процесс исследования ресурса отстрела внешних баков от изделия. Скока отстрелов оно выдержить? Подвеску осуществляет бригада мужиков, сбрасывается оно само, комутером.
Ё! Хыыы-чиии-бум!
Комп Д3-28, ага. Программирование строго в машкоде. Кнопками с морды. Задача: автоматизировать.
Засыпался на замене полупьяных мужыков, ищущих отстрелы на матах (и в смысле подушек, и словестно).
Ё! Хыыы-чиии-бум!
Думаете, это не разовый был заказ?!
ЗЫ: Кому надо узнать марку изделия - в личку! (Эт для шпиёноф :)