SETKA.RU
 
12/06/2015
Исследование SSD от Facebook: неисправимые ошибки чтения, усталость записи и миллионы часов работы в центре обработки данных
SSD-накопители сделали революцию в хранении данных, хотя мы до сих пор мало знаем о том, насколько хорошо они работают. Теперь исследователи Facebook и Carnegie-Mellon готовы поделиться своим опытом после миллиона часов эксплуатации SSD

Миллионы SSD-накопителей покупаются каждый год. Легко попасть под впечатление, убедившись, как быстро они работают в самом начале их эксплуатации. Но что происходит с ними после длительных нагрузок 24/7 в центрах обработки данных? Каковы общие проблемы, которыми должны быть обеспокоены администраторы серверов?

Крупномасштабное исследование сбоев flash-памяти в полевых условиях Джастина Межа и Онура Мутлу из университета Карнеги-Меллона и Цян Ву и Санджива Кумара из Facebook может помочь ответить на многие вопросы о поведении SSD.

Основные методологии

Facebook был пионером внедрения SSD. Выбор пал на Fusion-IO, первые SSD в форм-факторе PCIe-плат - и Facebook стал крупнейшим их покупателем в течение многих лет, поэтому его опыт в эксплуатации SSD глубже, чем у большинство других фирм: в исследование включены миллионы дней работы устройств.

К сожалению, исследование не делит результаты по вендорам. Вместо этого, SSD-накопители классифицируются по возрасту, т.е. на устройства первого поколения (старые), и второго поколения (новые).

Наиболее важной считается неисправимая ошибка чтения (URE), которая приводит к потере данных. Это не означает, что SSD полностью мёртв, но исследователи считают, что SSD-накопители, которые имели одну ошибку URE, с большой вероятностью, ждёт повторение такой же ошибки в будущем.

Facebook, использовал твердотельные накопители максимальной ёмкости, рассчитанные для сегмента Enterprise, самое последнее поколение которых имеет ёмкость 3.2TB. Это не те диски стоимостью 35¢ за Гб для ноутбуков, которые приобретают частные пользователи и небольшие фирмы, а более продвинутые PCIe-SSD, предназначенные для высоких рабочих нагрузок.

Поскольку SSD никуда не передают информацию о случаях внутренних ошибок чтения, которые может исправить их собственный контроллер, то в исследовании учитываются только те ошибки чтения, о которых было сообщено на сервер. Серверы могут иногда восстановить данные, которые контроллеры самих SSD восстановить не способны, так что уровень отчетности об ошибках нельзя считать полным.

Так, что они нашли?

Хорошая новость: некоторые вопросы, которые волнуют людей, оказались не столь важны.
Плохая новость: есть другие вещи, чтобы волноваться о них.

Температура

SSD-накопители являются чувствительными к температуре - больше, чем жесткие диски. Когда ему жарко, SSD может резко потерять производительность. Необъяснимые замедления на некоторых серверах? Проверьте температуру!

При повышении температуры первые поколения SSD-накопителей давали сбои более часто, возможно, из-за отсутствия троттлинга (снижения частоты ради понижения температуры). Некоторые SSD второго поколения, чтобы уменьшить интенсивность отказов, душили производительность достаточно агрессивно, пока другие продолжали кривую отказов.

Шина питания

SSD-накопители, всё же, прожорливы. PCIe-SSD v2 потреблял от 8 до 14,5 Вт в удивительно широком диапазоне. Исследования показали, что потребляемая мощность росла вместе с интенсивностью отказов.

Усталость записи

Исследователи обнаружили, что уровень активности системы записи коррелирует с количеством отказов SSD, вероятно, потому что флэш-память при записи требует много энергии. Диски могут быть лучшим выбором для тяжелых приложений, таких как запись логов.

Отказы SSD

Такие ошибки SSD, как UERs, являются довольно распространенным явлением: от 4,2 до 34,1 процентов накопителей сообщили о неисправимых ошибках. Всего же, 99,8 процента накопителей сообщали о какой-либо ошибке в течение первой недели и о другой ошибке на следующей неделе.

Жизненный цикл и ошибки

Профиль отказов SSD отличается от такового для обычных дисков, где для последних более характерны случаи младенческой смертности, а пережившие «молодость» могут похвастать за следующие несколько лет хорошей надежностью. SSD-накопители имеют UERs в течении раннего периода, когда «плохие» ячейки проходят идентификацию, и для повышения надежности заменяются резервными.

Сюрприз от схемы размещения данных

Для дисковых накопителей схема размещения данных не сильно важна - если только это не множество случайных данных. Но дисковые и SSD-накопители в этом плане очень различаются.

Довольно редкие логические макеты данных - несмежные данные - приводят к более высокому числу отказов SSD, так как создают очень плотные структуры данных. Исследователи полагают, что проблема кроется в logical-to-physical адресации в контроллерах SSD.

Биты для хранения

Мы все знали, что SSD-накопители должны отличаться от обычных дисков - SSD против механики - но всё оказалось не так предсказуемо.

ПК, вероятно, видит более высокое число ошибок SSD, но обычные пользователи, как мы, замечают их не так часто. И если возникает проблема с данными, то у нас нет ни малейшего представления, где эта проблема возникла. SSD? Файловые системы HFS+? Вредоносные программы? Космические лучи?

Если вы управляете серверами, используя SSD-накопители, вы обязательно должны прочитать эту статью. К услугам гостей - диаграммы на основе фактических данных о поведении SSD, а также эмпирические выводы о твердотельных накопителях, недоступные более нигде.

Ещё новости в рубрике
Электроника, IT, Большие данные, Аналитика