Schism управляемый рабочей нагрузкой подход к репликации и разделению баз данных


D.1 Yahoo! Cloud Serving Benchmark


Yahoo! Cloud Serving Benchmark (YCSB) – это коллекция простых тестовых микронаборов, разработанных с целью представления приложений управления данными, являющихся простыми, но требующими высокого уровня масштабируемости . Этот тестовый набор ориентирован на оценку распределенных систем хранения данных "ключ-значение", подобных тем, которые созданы компаниями Yahoo, Google и в различных проектах категории open source. В нашей работе этот стандартизованный и простой тестовый набор использовался для получения представления о некоторых возможностях нашего инструментального средства, например, о его возможности прибегать к использованию более дешевых стратегий разделения в случае совпадения ожидаемых результатов.

Из пяти основных рабочих нагрузок YCSB мы выбрали рабочие нагрузки A и E. Рабочая нагрузка является смесью 50/50 операций чтения и записи одного кортежа, выбираемого случайным образом по распределению Зипфа. Если игнорировать потенциальные трудности достижения хорошей производильности при работе с данными масштаба Internet, для разделения эта проблема является очень простой. На самом деле, за исключением случая полной репликации, любая стратегия разделения обладает нулевой стоимостью, поскольку транзакции обращаются только к одному кортежу. Поэтому целью пропуска этого теста являлась демонстрация способности нашей системы выбирать более дешевую стратегию разделения (например, хэш-разделения), если она существует.

Рабочая нагрузка E является смесью 95/5 операций чтения и записи, причем при чтении производится короткое сканирование (длина сканирования выбирается равномерным случайным образом в диапазоне от 1 до 100 кортежей), а запись затрагивает один кортеж. Начальная точка сканирования и кортеж для записи выбирались случайным образом по распределению Зипфа. Эта рабочая нагрузка показывает непригодность схемы хэш-разделения для запросов по диапазонам значений, а также то, что наше средство может автоматически выбирать точки расщепления по предикатам диапазонов, что приводит к близкой к оптимальной стратегии разделения.



Содержание раздела