Ошибка контроля четности raid

Обновлено: 24.01.2025

Я ищу для создания небольшого массива RAID для выделенных резервных копий. Я бы хотел иметь около 2-4 Тб свободного места, так как у меня есть эта неприятная привычка оцифровывать все. Таким образом, мне нужно много хранения и много избыточности в случае отказа диска. Я также, по существу, создаю резервные копии 2-3-х компьютеров /home с помощью одного из клонов Time Machine для Linux. Этот массив будет доступен через мою локальную сеть через SSH.

У меня возникают трудности с пониманием того, как RAID-5 достигает четности и сколько дисков действительно требуется. Можно предположить, что ему нужны 5 дисков, но я могу ошибаться. Большинство диаграмм, которые я видел, только меня смутили. Кажется, что так работает RAID-5, пожалуйста, поправьте меня, поскольку я уверен, что не понимаю его правильно:

Кажется, что диски 1-3 появляются и работают как единый массивный диск ( capacity * number_of_drives ) и диск (ы) четности резервное копирование этих дисков. Мне кажется странным, что я обычно вижу 3+ накопителя на диаграмме только с 1 или 2 паритетными дисками. Предположим, что мы используем 4 1TB-накопителя в массиве RAID-5, 3 режима хранения и 1 контрольную четность, у нас есть 3 ТБ реального хранилища, но имеет только 1 Тбайт четности!?

Я знаю, что здесь что-то не хватает, может кто-то мне помочь? Кроме того, для моего варианта использования, что было бы лучше, RAID-5 или RAID-6? Отказоустойчивость является для меня наивысшим приоритетом, поскольку она будет работать только в сети только для домашнего использования, скорость не является hugely критической.

Он просто XOR каждого соответствующего бита с каждого диска. Если вы потеряете какой-либо диск, вы можете повторно собрать отсутствующие данные.

Предположим, что D является XOR других столбцов, тогда, пока вы теряете только один диск, вы можете понять, что вы потеряли.

Несколько раз бит полосы будет распределяться по дискам, но концепция одинаков.

Итак, для RAID-5, независимо от количества дисков, вам нужен только один диск для четности, равный или больший, чем самый маленький диск в массиве, который вы хотите использовать для RAID.

RAID-5 для личного использования, вероятно, лучше всего, поскольку вычислительная сложность намного ниже, чем RAID-6.

RAID-6 более сложный, используя Galois Fields для вычисления четности. И это может делать расчеты по паритету налогов. Тем не менее, вы можете потерять больше дисков, но если вы перестроете свой массив, как только получите один сбой, вы должны отлично придерживаться RAID-5.

Вот что я думаю, это лучшая диаграмма, показывающая, как работает четность в RAID4 и RAID5

RAID4

RAID5

Я бы порекомендовал прочитать эту статью в Википедии о рейдах 5 и рейдах 6

RAID 5 записывает блок четности в каждой полосе, поэтому для Strip A из 4-х дискового массива он записывает проверку четности на 4-й диск, с данными на дисках 1, 2 и 3

Для Strip B блок четности находится на диске 3, с данными на дисках 1,2 и 4 .. и т. д.

Если сбой диска 4, данные могут быть восстановлены для Strip B, поскольку вы знаете данные на дисках 1 и 2 и имеете проверку четности на диске 3.

Если полоса B имела четность «2», а на диске 1 были данные «1» и «диск 2» «0», то на диске 4 должны были быть данные, равные «1», поэтому диск записывается с данными = 1 "

Весь диск можно воссоздать таким образом, RAID 6 расширяет его, имея 2 партийных блока на полосу.

Что касается пространства для Raid 5, вы потеряете только один диск с количеством свободного места на паритет, поскольку он записывает только блок четности на полосу, а с Raid 6 вы потеряете 2 диска, но можете также потерять два диска, а не тот, который вы может потерять в рейде 5;)

Статья в Википедии объясняет это лучше!

RAID 5 использует один диск для контроля четности, независимо от того, сколько дисков данных имеется в массиве. Это означает, что с точки зрения полезного пространства становится более эффективным, чем больше добавляется дисков.

Четность достигается за счет выполнения операции XOR по одному и тому же блоку в каждом диске; содержимое привода четности настраивается таким образом, что все диски XOR равны нулю . Это означает, что RAID 5 ограничен наименьшей емкостью всех дисков в массиве .

RAID 6 аналогичен, за исключением того, что допускаются два одновременных сбоя диска. Это полезно, потому что процесс resilvering "массива после отказа одного диска может быть достаточно стрессовым, чтобы привести к сбою второго диска.

Если отказоустойчивость является вашей целью, RAID-6 обеспечит достаточное количество ресурсов, чтобы освободить два диска. Обычно RAID-5 допускает только потерю одного диска.

Привет, Хабр! В прошлых статьях мы касались ошибок и проблем с серверами Dell и HP, и наш рассказ об ошибках refurbished-серверов был бы неполон без упоминания продукции третьего вендора «большой тройки» — IBM. Хотя эта славная корпорация уже отошла от производства серверов, её продукция ещё активно используется. Поэтому спешим поделиться с вами накопленным опытом «укрощения» серверов IBM. Это не исчерпывающий список проблем, но всё же он может оказаться кому-то полезен.

Оперативная память

Серверы IBM чувствительны по отношению к конфигурации модулей памяти. Зачастую после самостоятельного апгрейда — добавления памяти или её замены — сервер не загружается, либо видит меньше памяти, чем установлено на самом деле. К счастью, в подобных ситуациях не приходится долго гадать о причинах сбоя: на диагностической панели (если таковая имеется) загораются два индикатора Config и Memory.

Поэтому, прежде чем апгрейдить память обязательно изучите спецификацию, память какого типа и объёма поддерживается вашим сервером. Также большое значение имеет количество процессоров в сервере — от этого зависит порядок размещения модулей в слотах. Это тоже необходимо уточнить в спецификации.

Вообще, с памятью ровно такая же ситуация, как описано в статье про HP, например. Вкратце:

Соблюдайте канальность памяти.
Ставьте ECC REG 1(2)Rx4 память в двухпроцессорные системы и UDIMM — в однопроцессорные.
Ставьте одинаковый объём памяти на каждый процессор.

А что делать, если вы вставили память в соответствии с инструкциями, а сервер всё равно не работает и предательски горит индикатор Memory? В этом случае придётся проверять разные варианты:

Этот тип памяти не поддерживается сервером. Внимательно сверьтесь со спецификациями.
Память оказалась «битой». Замените линейку на точно такую же и проверьте, заведётся ли сервер.
Засорился пылью слот на материнской плате. Это довольно популярная причина, если сервер трудится уже несколько лет, а тем более если вы его не первый владелец. Продуйте слоты сжатым воздухом.
Загнутый контакт в сокете. Такое бывает очень редко, но всё же бывает: память отказывается работать из-за загнутого контакта в сокете процессора. Если предыдущие варианты не помогли найти причину сбоя, снимите процессор и внимательно осмотрите сокет. Если вы оказались в числе немногочисленных «счастливчиков», то можете попробовать осторожно выпрямить погнутый контакт, но это исключительно на ваш страх и риск.

Накопители

Мы уже неоднократно упоминали о том, что совсем не обязательно устанавливать в серверах «родные» накопители. Ни IBM, ни другие вендоры их не производят, они лишь приобретают их у всем известных производителей, перепрошивают и клеят свои логотипы. Поэтому вы можете без труда сэкономить на апгрейде или восстановлении дисковых массивов, выбрав аналоги вместо «родных» накопителей. Двух-трёхкратная разница в цене это оправдывает, особенно если речь идёт о refurbished-серверах. В сети можно легко найти таблицы соответствия моделей, например:

Модель IBM	Оригинал
IBM 49Y2003	Seagate ST9600204SS
IBM 90Y8872	Seagate ST9600205SS
IBM 90Y8908	Seagate ST9600105SS
IBM 81Y9650	Seagate ST900MM0006

Тем не менее, ещё возможны ситуации несовместимости «неродных» накопителей с сервером. В этом случае сервер не грузится штатно, либо не видит накопитель. Обычно это решается с помощью установки свежей прошивки RAID-контроллера. К слову, рекомендуется обновить прошивку и бэкплейна/экспандера, в этом вам поможет приложение IBM Bootable Media Creator (BoMC).

При включении сервера и прохождении POST-проверки возможно появление ошибки:

A discovery error has occurred, please powercycle the system and all the enclosures attached to this system.

Это сигнализирует о проблеме с одним из накопителей. Вычислить его просто: индикаторы на его салазках постоянно мигают, даже когда все остальные носители прошли проверку и перестали мигать.

С дисковой подсистемой бывают и более экзотические проблемы. Например, при использовании RAID-1 в фирменном приложении MegaRAID Storage Manager могут появиться ошибки вида:

ID = 63
SEQUENCE NUMBER = 48442
TIME = 24-01-2016 17:03:59
LOCALIZED MESSAGE = Controller ID: 0 Consistency Check found inconsistent parity on VD strip: ( VD = 0, strip = 637679)

Чаще всего это говорит не об умирании диска, а об ошибке контроля чётности — несовпадении данных на основном и вторичном дисках. Возможные причины:

Нередко такие ошибки появляются сразу после конфигурирования нового массива или после замены одного из дисков.
Во время сеанса диагностики поверхности блинов происходит инициализация диска и выполнение операций ввода/вывода. На RAID-1 это может привести к временному несоответствию томов, которое автоматически исправляется при следующей проверке на соответствие. Такое возникает не при любом сеансе диагностики, а когда сходятся звёзды:
- o Используется RAID-контроллер без кэширования, либо активирован режим Write Through.
- o Нехватка оперативной памяти, при которой с диска осуществляется активная подкачка страниц.
- o Просто очень интенсивное использование дисков.
Обновление прошивок и ПО

Любопытная проблема может подстерегать при установке с нуля Windows 2012 или Windows 2012 R2 — свежеустановленная операционка не видит ни одного накопителя. Причём такое бывает не только с серверами IBM. Дело в том, что все накопители в сервере подключены через RAID, а упомянутые версии ОС не имеют вшитых драйверов для работы с RAID. И поэтому они их просто игнорируют. Как быть? Самый надёжный способ: использовать утилиту IBM ServerGuide. При установке ОС она принудительно подсовывает все необходимые драйвера для данной модели и версии операционной системы. Обратите внимание, что образ ОС должен устанавливаться с диска, а не с флэшки: ServerGuide не будет работать с образом на том же USB-носителе, с которого запущен сам.

При покупке серверов бывают ситуации, когда нужно сначала обновить все прошивки, а потом уже накатывать систему. Сделать это можно с помощью вышеупомянутой IBM Bootable Media Creator:
1. Загрузитесь с загрузочной флешки или диска.
2. Запустите BoMC от имени Администратора.
3. Выберите, что вы хотите сделать: обновить и/или провести диагностику.
4. Программа спросит, где ей взять драйверы: скачать самой или вытащить из указанного вами архива.
5. Выберите носитель для записи загрузочного образа: флэшку или диск. Запись может идти несколько часов, не волнуйтесь, программа не зависла.
6. По окончании записи загрузитесь с этого носителя, и далее по инструкции.
Но если не поможет, то воспользуйтесь процедурой обновления через BoMC.

Бывают и более неприятные ситуации, когда по закону подлости в ходе установки более свежей версии BIOS'а происходит сбой питания.

После этого сервер уже не может загрузить основную прошивку, и использует резервную. Если штатная процедура восстановления BIOS'а не помогает, то сделайте… даунгрейд: установите более старую прошивку, чем та, что была до сбоя питания. Обычно это помогает. После этого уже можно попытаться снова поставить свежую версию BIOS'а. Как говорится, шаг назад — два вперёд.

Другие проблемы

Иногда при попытке удалённого управления сервером возникает ошибка “Login failed with an access denied error.”, причём в любых браузерах. Если перезагрузка сервера и клиента не помогает, то рекомендуется сбросить IMM до заводских настроек.

В статье про ошибки серверов HP мы упоминали о проблемах с системой охлаждения: сразу после запуска сервера вентиляторы выходили на высокие обороты и уже не снижали их. Случается такой недуг и в серверах IBM. Сервер воет, как реактивный лайнер на взлёте. Нам не удалось выяснить причину таких сбоев, но посоветовать можно следующее:

Привет, Хабр! В прошлых статьях мы касались ошибок и проблем с серверами Dell и HP, и наш рассказ об ошибках refurbished-серверов был бы неполон без упоминания продукции третьего вендора «большой тройки» — IBM. Хотя эта славная корпорация уже отошла от производства серверов, её продукция ещё активно используется. Поэтому спешим поделиться с вами накопленным опытом «укрощения» серверов IBM. Это не исчерпывающий список проблем, но всё же он может оказаться кому-то полезен.

Оперативная память

Серверы IBM чувствительны по отношению к конфигурации модулей памяти. Зачастую после самостоятельного апгрейда — добавления памяти или её замены — сервер не загружается, либо видит меньше памяти, чем установлено на самом деле. К счастью, в подобных ситуациях не приходится долго гадать о причинах сбоя: на диагностической панели (если таковая имеется) загораются два индикатора Config и Memory.

Поэтому, прежде чем апгрейдить память обязательно изучите спецификацию, память какого типа и объёма поддерживается вашим сервером. Также большое значение имеет количество процессоров в сервере — от этого зависит порядок размещения модулей в слотах. Это тоже необходимо уточнить в спецификации.

Вообще, с памятью ровно такая же ситуация, как описано в статье про HP, например. Вкратце:
- Соблюдайте канальность памяти.
- Ставьте ECC REG 1(2)Rx4 память в двухпроцессорные системы и UDIMM — в однопроцессорные.
- Ставьте одинаковый объём памяти на каждый процессор.
А что делать, если вы вставили память в соответствии с инструкциями, а сервер всё равно не работает и предательски горит индикатор Memory? В этом случае придётся проверять разные варианты:
- Этот тип памяти не поддерживается сервером. Внимательно сверьтесь со спецификациями.
- Память оказалась «битой». Замените линейку на точно такую же и проверьте, заведётся ли сервер.
- Засорился пылью слот на материнской плате. Это довольно популярная причина, если сервер трудится уже несколько лет, а тем более если вы его не первый владелец. Продуйте слоты сжатым воздухом.
- Загнутый контакт в сокете. Такое бывает очень редко, но всё же бывает: память отказывается работать из-за загнутого контакта в сокете процессора. Если предыдущие варианты не помогли найти причину сбоя, снимите процессор и внимательно осмотрите сокет. Если вы оказались в числе немногочисленных «счастливчиков», то можете попробовать осторожно выпрямить погнутый контакт, но это исключительно на ваш страх и риск.
Накопители

Мы уже неоднократно упоминали о том, что совсем не обязательно устанавливать в серверах «родные» накопители. Ни IBM, ни другие вендоры их не производят, они лишь приобретают их у всем известных производителей, перепрошивают и клеят свои логотипы. Поэтому вы можете без труда сэкономить на апгрейде или восстановлении дисковых массивов, выбрав аналоги вместо «родных» накопителей. Двух-трёхкратная разница в цене это оправдывает, особенно если речь идёт о refurbished-серверах. В сети можно легко найти таблицы соответствия моделей, например:

Модель IBM Оригинал

IBM 49Y2003 Seagate ST9600204SS

IBM 90Y8872 Seagate ST9600205SS

IBM 90Y8908 Seagate ST9600105SS

IBM 81Y9650 Seagate ST900MM0006

Тем не менее, ещё возможны ситуации несовместимости «неродных» накопителей с сервером. В этом случае сервер не грузится штатно, либо не видит накопитель. Обычно это решается с помощью установки свежей прошивки RAID-контроллера. К слову, рекомендуется обновить прошивку и бэкплейна/экспандера, в этом вам поможет приложение IBM Bootable Media Creator (BoMC).

При включении сервера и прохождении POST-проверки возможно появление ошибки:

A discovery error has occurred, please powercycle the system and all the enclosures attached to this system.

Это сигнализирует о проблеме с одним из накопителей. Вычислить его просто: индикаторы на его салазках постоянно мигают, даже когда все остальные носители прошли проверку и перестали мигать.

С дисковой подсистемой бывают и более экзотические проблемы. Например, при использовании RAID-1 в фирменном приложении MegaRAID Storage Manager могут появиться ошибки вида:

ID = 63
SEQUENCE NUMBER = 48442
TIME = 24-01-2016 17:03:59
LOCALIZED MESSAGE = Controller ID: 0 Consistency Check found inconsistent parity on VD strip: ( VD = 0, strip = 637679)

Чаще всего это говорит не об умирании диска, а об ошибке контроля чётности — несовпадении данных на основном и вторичном дисках. Возможные причины:
- Нередко такие ошибки появляются сразу после конфигурирования нового массива или после замены одного из дисков.
- Во время сеанса диагностики поверхности блинов происходит инициализация диска и выполнение операций ввода/вывода. На RAID-1 это может привести к временному несоответствию томов, которое автоматически исправляется при следующей проверке на соответствие. Такое возникает не при любом сеансе диагностики, а когда сходятся звёзды:
  - o Используется RAID-контроллер без кэширования, либо активирован режим Write Through.
  - o Нехватка оперативной памяти, при которой с диска осуществляется активная подкачка страниц.
  - o Просто очень интенсивное использование дисков.
  Обновление прошивок и ПО
  
  Любопытная проблема может подстерегать при установке с нуля Windows 2012 или Windows 2012 R2 — свежеустановленная операционка не видит ни одного накопителя. Причём такое бывает не только с серверами IBM. Дело в том, что все накопители в сервере подключены через RAID, а упомянутые версии ОС не имеют вшитых драйверов для работы с RAID. И поэтому они их просто игнорируют. Как быть? Самый надёжный способ: использовать утилиту IBM ServerGuide. При установке ОС она принудительно подсовывает все необходимые драйвера для данной модели и версии операционной системы. Обратите внимание, что образ ОС должен устанавливаться с диска, а не с флэшки: ServerGuide не будет работать с образом на том же USB-носителе, с которого запущен сам.
  
  При покупке серверов бывают ситуации, когда нужно сначала обновить все прошивки, а потом уже накатывать систему. Сделать это можно с помощью вышеупомянутой IBM Bootable Media Creator:
  1. Загрузитесь с загрузочной флешки или диска.
  2. Запустите BoMC от имени Администратора.
  3. Выберите, что вы хотите сделать: обновить и/или провести диагностику.
  4. Программа спросит, где ей взять драйверы: скачать самой или вытащить из указанного вами архива.
  5. Выберите носитель для записи загрузочного образа: флэшку или диск. Запись может идти несколько часов, не волнуйтесь, программа не зависла.
  6. По окончании записи загрузитесь с этого носителя, и далее по инструкции.
  Но если не поможет, то воспользуйтесь процедурой обновления через BoMC.
  
  Бывают и более неприятные ситуации, когда по закону подлости в ходе установки более свежей версии BIOS'а происходит сбой питания.
  
  После этого сервер уже не может загрузить основную прошивку, и использует резервную. Если штатная процедура восстановления BIOS'а не помогает, то сделайте… даунгрейд: установите более старую прошивку, чем та, что была до сбоя питания. Обычно это помогает. После этого уже можно попытаться снова поставить свежую версию BIOS'а. Как говорится, шаг назад — два вперёд.
  
  Другие проблемы
  
  Иногда при попытке удалённого управления сервером возникает ошибка “Login failed with an access denied error.”, причём в любых браузерах. Если перезагрузка сервера и клиента не помогает, то рекомендуется сбросить IMM до заводских настроек.
  
  В статье про ошибки серверов HP мы упоминали о проблемах с системой охлаждения: сразу после запуска сервера вентиляторы выходили на высокие обороты и уже не снижали их. Случается такой недуг и в серверах IBM. Сервер воет, как реактивный лайнер на взлёте. Нам не удалось выяснить причину таких сбоев, но посоветовать можно следующее:
  
  Постараюсь, без ныряния в инженерные и терминологические дебри объяснить, почему до сих пор RAID-5 вроде работал, а теперь вдруг перестал.
  
  Емкость жестких дисков за последние несколько лет растет без особых тенденций к остановке. Однако, хотя емкость дисков чуть ли не удваивается каждый год, прирост их быстродействия, то есть скорости передачи данных, за тот же срок увеличивается всего в проценты. Да, действительно, на дисках появляются интерфейсы SATA, SATA-II, и ждем уже SATA-III, но стали ли диски быстрее работать, а не просто получили новый интерфейс с бубенчиками и новыми круглыми цифрами теоретических показателей вида "цифра максимальной скорости на спидометре «Запорожца»?
  
  Практика говорит нам, что — нет.
  Если мы сравним быстродействие, в особенности на небольших случайных операциях, для массовых дисков SATA за несколько лет, то мы увидим, что заметного, сравнимого с ростами объемов, прироста производительности нет.
  Емкость — растет в разы, а скорость работы — нет.
  
  Когда RAID-5 появился, в 1987 году, типичный жесткий диск был размером 21MB, и имел скорость вращения 3600 RPM. Сегодня типичный диск SATA это 1TB, то есть прирост емкости составил 50 тысяч раз! Но скорость вращения при этом увеличилась всего вдвое.
  Если бы скорость передачи данных за эти годы росла бы такими же темпами что и емкость, то сегодняшние диски имели бы показатели передачи данных в районе 30 гигабайт в секунду.
  
  Теперь вспомним о том, что такое есть RAID, и его реализация — RAID-5.
  RAID, или Redundant Array of Independent Disks, это модель организации группы дисков в отказоустойчивую структуру таким образом, чтобы она сохранял доступность информации даже в случае повреждения или полного выхода из строя части из этих дисков.
  Среди множества описанных «в теории» типов RAID, в живой природе встречаются в основном три. Это RAID-0 (или «группа с чередованием» который «RAID» на самом деле только условно, так как отказоустойчивостью не обладает, о чем и говорит цифра 0), RAID-5, или «группа с чередованием и четностью», и RAID-1, или «зеркало». В чистом виде RAID-1 практически не используется из за ограничений по скорости, поэтому в высокопроизводительных массивах используется его комбинация с RAID-0. В результате этого альянса RAID-0 получает отказоустойчивость, а RAID-1 — быстродействие. Как правило, такая комбинация называется RAID-0+1 или RAID-10, или «чередование с зеркалированием».
  
  RAID-10 хорош многим. Да почти всем. И надежностью, и быстродействием, за исключением того, что на его создание уходит 50% всей емкости дисков, половина. Довольно таки «бандитский процент».
  Именно такой, довольно жестокий, процент часто заставляет пользователей серверов и систем хранения выбирать как альтернативу RAID-5.
  
  Действительно, в RAID-5 мы платим за отказоустойчивость емкостью всего одного диска, то есть емкость RAID-5 равна (n-1)*hddsize, где n — число дисков, а hddsize — их размер.
  Данные «размазаны» по всем входящим в RAID-группу дискам, их блоки дополнены служебной информацией, которая дает возможность восстановить потерю данных в размере любого одного диска, причем сама эта служебная информация не занимает какой-то выделенный диск, а просто часть объема этой группы, равную как раз емкость одного диска. Но она также размазана по всем дискам.
  
  Когда происходит выход из строя (полный или частичный) одного из дисков группы типа RAID-5, то RAID-группа переходит в состояние degraded, но наши данные остаются доступными, так как недостающая часть их может быть восстановлена за счет избыточной информации того самого «дополнительного объема, размером в один диск». Правда обычно быстродействие дисковой группы резко падает, так как при чтении и записи выполняются дополнительные операции вычислений избыточности и восстановления целостности данных. Если мы вставим вместо вышедшего из строя новый диск, то умный RAID-контроллер начнет процедуру rebuild, «перестроения», для чего начнет считывать со всех дисков оставшиеся данные, и, на основании избыточной информации, заполнит новый, ранее пустой диск недостающей, пропавшей вместе со сдохшим диском частью.
  
  Если вы еще не сталкивались с процессом ребилда RAID-5, вы, возможно, будете неприятно поражены тем, насколько длительным этот процесс может быть. Длительность эта зависит от многих факторов, и, кроме количества дисков в RAID-группе, и их заполненностью, что очевидно, в значительной степени зависит от мощности процессора RAID-контроллера и производительности диска на чтение/запись. А также от рабочей нагрузки на дисковый массив во время проведения ребилда, и от приоритета процесса ребилда по сравнению с приоритетом рабочей нагрузки.
  Если вам не посчастливилось потерять диск в разгар рабочего дня или рабочей недели, то процесс ребилда, и так небыстрый, может удлинниться в десятки раз.
  А с выходом все более и более емких дисков, уровни быстродействия которых, как мы помним, почти не растут, в сравнении с емкостью, время ребилда растет угрожающими темпами, ведь, как уже писалось выше, скорость считывания с дисков, от которой напрямую зависит скорость прохождения ребилда, растет гораздо медленнее, чем емкость дисков и объем, который нужно считать.
  
  Так, в интернете легко можно найти истории, когда сравнительно небольшой 4-6 дисковый RAID-5 из 500GB дисков восстанавливал данные на новый диск в течении суток, и более.
  
  Источник: Adaptec
  
  «a RAID 5 array with five 500 GB SATA drives took approximately 24 hours to rebuild»Источник:
  
  «The testing used a 3.5TB array composed of 16 250GB SATA disks configured as RAID 5… 3ware took… over a day to repair a RAID 5 array when under a file server workload.»Источник:
  
  «I'm now at 80% of rebuilding my RAID-5 array with 3x 1TB harddrives, I've calculated that the total time needed to rebuild the array will be 66 hours!»Источник:
  
  «On my filer I run a software raid 5 across eight 500 GB sata drives, which works great… Recovery time is about 20 hours. Athlon X2 4200+ and nvidia chipset.»Источник:
  
  С использованием же терабайтных и двухтерабайтных дисков приведенные цифры можно смело умножать в 2-4 раза!
  
  И вот тут начинаются страсти.
  Дело в том, и это надо себе трезво уяснить, что на время ребилда RAID-5 вы остаетесь не просто с RAID лишенным отказоустойчивости. Вы получаете на все время ребилда RAID-0, надежность и отказоустойчивость которого меньше надежности и отказоустойчивости одного диска в n раз, где n — это количество дисков в группе.
  (решил удалить откровенно спорные положения статьи :) С удовольствием приму помощь от компетентного математика-«вероятниста» в правильном вычислении показателей надежности, впрочем основного посыла в ненадежности RAID-0 это не изменяет)
  В случае любого отказа, даже самого маленького, даже, быть может, не отказа диска целиком, а просто сбоя чтения из за помехи, или проблем с кабелями, вы теряете всю на нем информацию.
  
  Допустим.
  Но нынешние диски выглядят достаточно надежными, не так ли? Уж поди сутки ребилда они протянут без сбоев, не все так плохо, и не настолько же мы неудачники, чтобы у нас на руках дохли два подряд диска. Такое бывает, но может пронесет?
  
  Вот что говорят о надежности дисков материалы самих вендоров.
  (Сводная таблица по основным сериям дисков)
  
  В настоящее время практически все производители выпускают жесткие диски двух основных классов.
  Это так называемые Desktop-диски, для настольных систем, и диски Enterprise, предназначенные для серверов и прочих критичных случаев. Кроме того, диски класса Enterprise также делятся на диски SATA (скорость оборотов 7200RPM) и SAS или FC (со скоростями вращения 10K и 15K RPM).
  
  Надежность процесса передачи данных принято измерять параметром BER — Bit Error Rate(Ratio). Это вероятность сбоя, из расчета некоего объема прочитанных головками диска бит.
  Как правило, диски Desktop-class имеют указанную производителем величину BER равную 10^14 степени, постепенно для все больших дисков, в особенности новых серий, указывают величины надежности в 10^15. Это число означает, что производитель прогнозирует вероятность сбоя при чтении не хуже, чем одного сбойного бита на 10^14 степени прочитанных диском бит. Единица с 14 нулями. Сто тысяч миллиардов бит.
  Цифра огромная, казалось бы. Но так ли велика она на самом деле?
  
  Несложная математика уровня calc.exe говорит нам, что 10^14 бит это всего лишь около 11TB данных. Это означает, что производитель жестких дисков говорит нам таким образом, что считав с диска с параметром BER 10^14, то есть обычного, десктопного класса диска, примерно 11TB, мы, с точки зрения производителя, наверняка получим где-нибудь сбойный бит. По крайней мере он, производитель, на это у себя рассчитывает.
  Сбойный бит чтения означает сбойный блок, размером 512 байт, на который он пришелся. И пошло-поехало.
  11 терабайт это же уже и не так много?
  
  И это не означает, что надо прочитать ровно 11TB, BER это только вероятность, которая стремится к 100% к 11-му терабайту. На меньших объемах она просто пропорционально уменьшается.
  Да, диски с BER равным 10^15 имеют вероятность ошибки в 10 раз лучше (110TB считанного на один сбойный бит), но и это только временное улучшение. Как мы помним, емкость дисков удваивается с каждым новым поколением, то есть примерно каждые полтора-два года, растут и емкости RAID, а BER10^15 для SATA достигнут только в последний год-полтора.
  
  Так, например, для 6-дискового RAID-5 с дисками 1TB величина отказа по причине BER оценивается в 4-5%, а для 4TB дисков она же будет достигать уже 16-20%.
  
  Источник: Hitachi Data Systems: Why growing business need RAID-6.
  Эта холодная цифра означает, что с 16-20-процентной вероятностью вы получите отказ диска во время ребилда (и, следовательно, потеряете все данные на RAID). Ведь для ребилда, как правило, RAID-контроллеру придется прочитать все диски, входящие в RAID-группу, для 6 дисков по 1TB объем прочитанного RAID-контроллером потока данных с дисков достигает 6TB, для 4TB он уже станет равным 24TB.
  24TB это, при BER 10^15, четверть от 110TB.
  
  Но даже и это еще не все.
  Как показывает практика, примерно 70-80% данных, хранимых на дисках, это так называемые cold data. Это файлы, доступ к которым сравнительно редок. С увеличением емкости дисков их объем в абсолютном исчислении также растет. Огромный объем данных лежит, зачастую, нетронутый никем, даже антивирусом (зачем ему проверять гигабайтные рипы и mp3?), месяцами, а возможно и годами.
  Ошибка данных, пришедшаяся на массив cold data обнаружится только лишь в процессе полного чтения содержимого диска, на процесс ребилда.
  Большие и «умные» системы хранения обычно постоянно занимаются в секунды простоя так называемым disk scrubbing-ом, постоянно считывая и контролируя характеристики чтения для всего объема дисков. Но уверен, что ваш недорогой «домашний» RAID-контроллер этого не делает.
  Следовательно, вы узнаете о появившемся неделю назад bad block где-то в пространстве cold data в тот момент, когда скрестив пальцы будете с замиранием следить за прогресс-баром процесса ребилда.
  
  Вот какая неприятная правда скрывается за несколько скандальными статьями о «смерти RAID-5».
  Возможно, что для архива ~~порнухи~~ домашней видеоколлекции потеря ее в считанные секунды и не будет такой уж большой катастрофой, особенно если вы хорошо владеете собой. Но уж точно пришла пора отказаться от RAID-5 на чуть более критичных задачах, чем «домашнее хранилище BD-рипов накачаных из торрента».
  
  Читайте также:

Обновление прошивок и ПО

Другие проблемы