Створений оптимальний метод відновлення розподілених систем

18

Від автора: вітчизняні вчені створили новий метод відновлення інформації в хмарних і розподілених системах. Він базується на використанні для відновлення одного диска декількох множин серверів, на кожному з яких знаходиться необхідна службова інформація.

Вчені з Інституту проблем передачі інформації РАН Олександр Барг і Іцхак Тамо (Ізраїль) в минулому році було нагороджено престижною міжнародною премією в області кодування і теорії інформації (IEEE Information Theory Society Paper Award). Вони провели глобальне дослідження програмного коду з можливістю локального відновлення, а отримані результати опублікували в одному з наукових журналів.

У 2016 вийшов ще один матеріал з даної тематики, авторами якого є названі вище вчені і старший співробітник російського Інституту проблем передачі інформації Олексій Фролов. У новій публікації дослідники поділилися результатами обчислень найбільш ефективних параметрів для кодів з можливістю відновлення локально.

У сучасних розподілених системах (на клієнтських машинах і хмарах), де вся інформація розкидана на декількох джерелах (томах, дисках), використовуються два основних метода відновлення даних:

Створення копій на кількох дисках – такий метод відрізняється високою швидкістю, але займає багато віртуального простору.

Коду Ріда-Соломона – обсяг налагоджувальних (службових) даних мінімальний, але для відновлення потрібно більше часу.

Усіх цих недоліків позбавлений принцип локального відновлення. Найчастіше пошкоджуються дані на одному з дисків, тому найбільш затребуваним є бекап на «місцевому» рівні. При цьому здійснюється мінімальне число звернень до резервних джерел, а розмір службових даних мінімальний.

В опублікованому матеріалі вчені запропонували найбільш оптимальний алгебраїчний метод кодування даних, при якому досягається мінімальний розмір «налагоджувальних» даних. З його допомогою Фролов, Тамо і Барг розрахували мінімально та максимально можливі значення параметрів для кодів при їх відновленні з декількох множин джерел. В тому числі значення таких показників, як мінімальна відстань між джерелами, а також розмір службових даних.

На думку авторів досліджень, таким чином можна досягти найбільш ефективного розподілу навантаження в окремо взятій системі.