1
УДК 004.67
Технологии Big Data и их применение на современном
промышленном предприятии
© П.Д. Иванов, В.Ж. Вампилова
МГТУ им. Н.Э. Баумана, Москва, 105005, Россия
Проведен обзор технологий Big Data на современном этапе развития, проанализиро-
ваны перспективы их дальнейшего развития. Обоснованы необходимость использова-
ния и перспективность применения технологий Big Data. Осуществлен сравнительный
анализ платформы Hadoop с ее аналогами. Приведены результаты исследований при-
менения технологий Big Data. Исследованы современное состояние и тенденции раз-
вития технологий Big Data в России и за рубежом.
Ключевые слова:
Big Data, большие данные, прогнозирование, программное обес-
печение, платформа Hadoop, конкурентное преимущество.
Технологии Big Data — серия подходов, инструментов и методов
обработки структурированных и неструктурированных данных
огромных объемов и значительного многообразия. Данные техноло-
гии применяются для получения воспринимаемых человеком резуль-
татов, эффективных в условиях непрерывного прироста, распределе-
ния информации по многочисленным узлам вычислительной сети.
Они сформировались в конце 2000-х годов в качестве альтернативы
традиционным системам управления базами данных и решениям
класса Business Intelligence. В настоящее время большинство круп-
нейших поставщиков информационных технологий для организаций
в своих деловых стратегиях используют понятие «большие данные»,
а основные аналитики рынка информационных технологий посвя-
щают концепции выделенные исследования.
Термин Big Data относится к наборам данных, размер которых
превосходит возможности типичных баз данных по хранению, управ-
лению и анализу информации. В настоящее время множество компа-
ний следят за развитием технологий Big Data. Аналитическая компа-
ния IDC представила в декабре 2012 г. отчет «Big Data, Bigger Digital
Shadows, and Biggest Growth in the Far East», в котором предсказыва-
лось, что объемы информации будут удваиваться каждые 2 года в те-
чение следующих 8 лет. За ближайшие 7 лет количество данных в ми-
ре достигнет 40 ЗБ (1 ЗБ = 10
21
байт), а это значит, что на каждого жи-
теля Земли будет приходиться по 5200 ГБ данных (рис. 1).
В современных условиях организации создают большое количе-
ство неструктурированных данных, таких как текстовые документы,
изображения, видеозаписи, машинные коды, таблицы и т. д. Вся эта
информация хранится во множестве репозиториев, порой даже за
пределами организации. Компании могут иметь доступ к огромному