Сравнение подходов к крупномасштабному анализу данных

Модель отказов


Как обсуждалось ранее, при отсутствии поддержки транзакций MR обладает возможностью восстанавливаться после сбоев в середине выполнения запроса с применением метода, не свойственного параллельным системам баз данных. Поскольку параллельные СУБД со временем будут устанавливаться на кластерах более крупного размера, вероятность аппаратного сбоя в середине обработки запроса будет возрастать. Поэтому для долговременно обрабатываемых запросов может оказаться важно реализовать такую модель устойчивости к сбоям. Хотя повышение уровня отказоустойчивости СУБД, очевидно, является правильной идеей, авторы сомневаются в целесообразности выделения для вычислений огромных вычислительных кластеров и применения подходов «грубой силы». Более сложное программное обеспечение могло бы поддерживать ту же самую обработку с применением гораздо меньшего объема аппаратуры, потреблением гораздо меньшей энергии и меньшего времени, позволяя обойтись без сложной модели отказоустойчивости. Кластеры с многотысячными узлами от Google, Microsoft и Yahoo! потребляют громадную энергию, и как показывают результаты авторов, для многих задач обработки данных параллельные СУБД часто могут обеспечить такую же производительность при использовании меньшего числа узлов. По существу, желательный подход состоит в использовании высокопроизводительных алгоритмов с применением умеренного параллелизма, а не подходов грубой силы на гораздо более крупных кластерах.



Содержание раздела