Цифра за всеми сегодня следит.
Что с моим профилем? — сердце болит.
Считается, что первым термин Big Data (большие данные, BD) употребил в 2008 году редактор журнала Nature Клиффорд Линч, описывая взрывной рост объемов мировой информации. В публикации Линч предсказал, что решить проблему помогут новые технологии обработки данных. Поэтому в широком смысле о BD говорят как о социально- экономическом феномене, связанном с технологическими возможностями обработки огромных информационных массивов. А также о вытекающих из этого трансформационных последствий.
В узком смысле BD — это информационные массивы, к которым можно применить правило VVV. Это правило описывает три свойства, которые отличают такие массивы:
Volume — большой объем массива, измеряемый в десятках, сотнях и тысячах терабайт;
Velocity — постоянное обновление информации в массиве, что предполагает оперативную обработку;
Variety — информация в массиве имеет разную природу и источники происхождения, разные форматы хранения, может быть неструктурированная или структурированная частично.
Рассмотрим два примера.
В обычной базе данных хранятся записи о людях: фамилия, имя, дата рождения, телефон, адрес и т. д. По набору атрибутов можно сортировать записи, отбирать записи с нужными значениями (например, родившихся в один год). В базе могут быть записи о миллионах людей, но это — обычные данные, которые к BD не относятся. Меняются они не так часто, хранятся в структурированном виде. Десятки лет успешно работают инструменты и алгоритмы обработки.
...
