Восстановление IBM Storwize v3700
На днях пришлось восстанавливать контроллер IBM Storwize v3700 v.7.1.0.0. История такова:
Имеется организация с СХД IBM Storwize v3700. В какой-то момент времени отвалились все диски iscsi. На задней панели горит лампочка ошибки. Как зайти туда, какие данные для подключения пояснить никто не может.
Звонок в техподдержку АйБиЭм
- у вас есть какое то соглашение с IBM?
- эммм, трудно сказать, у меня даже логина и пароля нет!
- значит нет. мы безнадежным не помогаем.
- спасибо. хорошо что есть техподдержка.
Ок. Гуглим - практически нет никакой информации. Ок - ищем специалистав области IBM, именно IBM, потому что все остальные знают только ноды, волюмы, группы дисков, FC - соединение. А у IBM есть своя философия, они ей обучают за бешенные деньги,и выдают особенно понравившимся сертификаты. Короче нет таких специалистов поблизости, один появился, нашелся в ЕКБ, попросил скинуть логи, (этыж мать, а как это делается, ладно разберемся), скинули - специалист пропал, на звонки не отвечает, в городе его не видно - не совсем понятно что за реакция на логи. В интеренете удалось вычитать, что есть какой-то редбук от IBM.
Пошел читать. Начитал что можно тыкнуть флэшку в ноду(канистру), она отреагирует и запишет туда информацию. Тыкаю - одна нода пишет, другая нет и не совсем понятно так и должно быть или она не работает. Ладно, одной рукой тыкаю флэшку, другой листаю страницы на порте IBM.
Зайти в ноду мне все таки удалось, удалось сбросить пароль по-умолчанию. Пароль сбрасывается на один сеанс, до перезагрузки. Ладно в этой ноде видно, что нода одна, второй нет. Нет и все. Все мои звонки и переговоры свелись к тому что надо покупать новую ноду(канистру). Все таки у нас умеют убеждать в России. Смотрю цену - 230 000. Ух тыж, дорого. Заказчику тоже дорого, но восстанновить охота - заказчик уходит искать деньги, я ухожу искать, что же делать дальше, после того как приобретут новую.
Попутно на сайте IBM нахожу таблицу в которой перечислены индикаторы и состояния СХД. По индикации ноды1 вижу, что она работает, но у нее ошибка (конечно вам бы половину оторвали), нода2 - не исполняется машинный код. На тот момент фраза "не исполняется машинный код" - мне мало о чем говорила, ну неисполняется и ладно, она и не работает )). В порядке эксперимента разбираю полку(эта такая штука в которой установлены 2 ноды), проверяю что за оборудование - 2 абсолютно одинаковых блока, в которых установлены SSD диск размером 32Gb, плата расширения на 4 Gb LAN, аккумулятор(ого, фигасе, даже аккумулятор), 2 линейки по 4Gb RAM. Очень уж эти ноды похожи на обычный комп.
В это время заказчик нашел деньги на покупку, но там надо подождать, они вот-вот появятся. Ок ждем. А пока ставим эксперимент, вытаскиваю все из ноды1 и переставляю в ноду2 - вставляю в полку - запустилась, также с ошибкой, но запустилась, значит оборудование целое. Значит машинный код - это операционка, которая не запускается, переставляю обратно - не запускается. Иду смотреть жесткий диск - это обычный диск с linux на борту - 3 раздела, 10 дисков, файлы можно поисправлять (fsck пояснила), исправили не работает, не стартует. Ок. Беру с одного диска загрузочную область (dd умеет это делать) и копируем на другой диск. Вставляем - работает. Запускается, индикатор на задней панели моргает, а потом горит - значит машинный код работает, и правда после этих манипуляций нода2 стала видеться в системе и все конфиги работают.
Кстати на оф.сайте нет такой запчасти как ssd диск, есть плата расширения, память, аккумулятор, 10 наименований проводов с разными цветами, а диска нет. По философии IBM (имхо..) не может жесткий диск быть причиной выхода из строя целой системы, не может быть чтобы 192TB информации перестало быть доступно всего лишь из-за неиспавности ssd. На всякий случаю dd`кнул все диски, вдруг такая же фигня.
А еще - заказчик так и не потратил деньги, а я за это получил премию - 3 тр. Класс!