Вопрос 14. Что такое большие данные и зачем они нужны?

Часто слышу о больших данных, Big Data.Чем они отличаются от просто данных? Только объемом или есть качественные различия? Может, это модный термин, который кочует по публикациям?

Сразу отметим, что это не модный термин для обозначения обычных вещей. Это реальное явление, которое меняет окружающий мир.

Считается, что первым термин Big Data (большие данные, BD) употребил в 2008 году редактор журнала Nature Клиффорд Линч, описывая взрывной рост объемов мировой информации. В публикации Линч предсказал, что решить проблему помогут новые технологии обработки данных. Поэтому в широком смысле о BD говорят, как о социально-экономическом феномене, связанном с технологическими возможностями обработки огромных информационных массивов. А также о вытекающих из этого трансформационных последствий.

В узком смысле BD — это информационные массивы, к которым можно применить правило VVV. Это правило описывает три свойства, которые отличают такие массивы:

  • Volume — большой объем массива, измеряемый в десятках, сотнях и тысячах терабайт;
  • Velocity — постоянное обновление информации в массиве, что предполагает оперативную обработку;
  • Variety — информация в массиве имеет разную природу и источники происхождения, разные форматы хранения, может быть неструктурированная или структурированная частично.

Рассмотрим два примера.

...

поделиться в: