Актуальные факты о Больших данных: цифры и показатели

«Большие данные» — это, несомненно, хайп. В сети можно найти множество определений этому понятию и много различной информации. Гораздо проще и намного интереснее понять, что такое Большие данные и какое место они занимают в сегодняшней жизни, посмотрев на актуальные цифры и статистику по ним.

Мы подготовили небольшой экскурс по миру Больших данных, взяв за основу статью «Big Data Statistics 2019» с авторитетного сайта Techjury.

Понятие Больших данных относят к наборам данных огромного объема, собираемых из многочисленных источников. Эти наборы данных невозможно собирать, хранить и обрабатывать традиционными способами из-за их невероятного объема и сложности. Сейчас существует множество инструментов, используемых для анализа Больших данных — базы данных NoSQL, Hadoop и Spark, и многие другие. С помощью инструментов анализа Больших данных мы можем собирать, хранить и обрабатывать данные различного типа из самых разных источников — цифровых носителей, веб-сервисов, бизнес-приложений и т.д.

Важная статистика о рынке Больших данных:

  • рынок аналитики больших данных к 2023 году достигнет 103 миллиардов долларов
  • ожидается, что в 2019 году рынок Больших данных вырастет на 20%
  • к 2020 году в среднем по каждому человеку будет генерироваться 1,7 мегабайта данных каждую секунду
  • пользователи интернета генерируют около 2,5 квинтиллионов (миллиард миллиардов) байт данных каждый день
  • в 2019 году Facebook насчитывает 2,3 миллиарда активных пользователей (правда, надо учитывать в их числе наличие большого числа фейковых аккаунтов и ботов), которые генерируют Большие данные
  • стриминговая платформа Netflix, медиакорпорация, недавно обогнавшая Disney, экономит 1 миллиард долларов в год на удержании клиентов, используя Большие данные

Так почему же Большие данные играют такую важную роль в различных сферах деятельности? Результаты анализа Больших данных используется множеством способов для решения множества задач: в здравоохранении на основе анализа Больших данных получаемые результаты применяются для лечения различных заболеваний, выявления их на ранних стадиях и даже предотвращения. В банковском секторе Большие данные также используются для различных целей, в частности, для выявления незаконных действий, таких как отмывание денежных средств. И даже в метеорологии Большие данные применяются для изучения факторов глобального потепления.

Предлагаем ознакомиться с такими фактами о Больших данных, которые точно произведут сильное впечатление на каждого.

1. К 2020 году в мире будет около 40 триллионов гигабайтов (40 зетабайтов) данных

Мы будем много говорить о больших цифрах — вот, что они значат!

Измерение существующего количества данных само по себе не может быть точным на 100%, когда речь идет о таких объемах. Можно найти много различных оценок и прогнозов, и мнение их авторов сильно различается. Согласно отчету, который был подготовлен «IDC», ведущей консалтинговой компанией в сфере технологий, тенденций и возможностей отрасли, в следующем году мы накопим 40 триллионов гигабайтов, то есть 40 зетабайтов данных.

Это же исследование показало, что объем Больших данных в 2010 году составлял всего лишь 1,2 зетабайта (миллиарда гигабайтов), и с этого момента цифровая вселенная увеличивается в два раза каждые два года. Данный прогноз действителен до 2020 года, интересно, какие тренды будут в приоритете на следующие годы.  

2. 90% всех данных было создано за последние два года

Интересная статистика была получена в результате исследования «IBM», проведенного в 2017 году. Исследование показало, что на тот момент 90% всех данных в мире было создано за последние два года. Этот факт объясняется невероятным ростом интернета и связанных с ним технологий за относительно короткий промежуток времени: в 2012 году в мире было 2,5 миллиарда интернет-пользователей, в 2014 году эта цифра достигла трехмиллиардной отметки, а в 2019 году пользуется сетью уже 4,1 миллиарда человек.

Объем данных растет экспоненциально с течением времени, так как увеличивается количество пользователей и развиваются технологии, связанные со сбором и хранением данных.  

3. Сегодня человеку потребуется приблизительно 181 миллион лет, чтобы загрузить все данные из Интернета

Интересные расчеты сделаны на портале Physics.org по поводу того, сколько времени потребуется, чтобы загрузить все данные из Интернета. В источнике представлены следующие значения: 0,55 зетабайта для всей информации, находящейся в Интернете, и средняя скорость загрузки 44 Мбит/с. С учетом того, что эти данные на настоящее время поменялись, мы пересчитали расчет, взяв объем данных в 33 зетабайтов и среднюю скоростью загрузки 46 Мбит/с. Полученный результат составляет около 181,3 миллиона лет. Это впечатляет!

4. На 2012 год было проанализировано только 0,5% всех данных

Большая часть Больших данных не может быть использована, если она существует без каких-либо привязок, например, хэштегов. Согласно исследованию «IDC Digital Universe», проведенному в 2012 году, на тот момент анализу подвергалось только 0,5% данных, а процент данных с какими-либо хэштегами был немного выше — 3%. Дальнейшее изучение этой статистики продемонстрировало, что не все данные могут быть использованы с пользой.

В 2017 году журнал «Economist» издал статью, в которой было заявлено, что данные заменили нефть в качестве основной экономической ценности. При этом, при сравнении данных с нефтью был проигнорирован один важный нюанс. В отличие от нефти, данные могут быть извлечены без особых затрат и усилий, а запасы их бесконечны. Кроме этого, в отличие от нефти, мы можем использовать данные многократно для выполнения различных задач. Возможность сравнения нефти и Больших данных приводит нас к выводу, что мы должны собирать и сохранять как можно больше данных, которые обладают ценностью сегодня и сохранят ее в будущем. Однако, если они не будут атрибутированы должным способом, их ценность будет гораздо менее значимой, чем у нефти.

Согласно статистике по Большим данным, подготовленной компанией «IDC», в 2012 году только 22% всех данных могли быть проанализированы. Это Большие данные из разных сфер, таких как финансовая сфера, безопасность, развлечения, социальные сети и т.д. К 2020 году процент Больших данных, которые потенциально могут быть проанализированы, должен увеличиться до 37%.

5. Интернет-пользователи ежедневно генерируют около 2,5 квинтиллионов байтов данных

Учитывая объем данных, который у нас будет к 2020 году (приблизительно 40 зетабайт), хотелось бы понять, какова роль каждого из нас в создании этих Больших данных. Сколько данных генерируется каждый день? Ответ: 2,5 квинтиллиона байтов (2.5 миллиарда миллиардов). Звучит страшновато, но если мы посмотрим на эту цифру в зетабайтах, то она составит всего лишь 0,0025 зетабайта  — смешное значение. С учетом того, что в следующем году мы «накопим «40 зетабайтов, можно предположить, что генерирование данных в ближайшем будущем как минимум не замедлится.

Чтобы сделать эти цифры более ощутимыми, давайте сравним их с чем-то привычным: 2,5 квинтиллиона байтов – это количество всех муравьев на планете, умноженное на 100. Один квинтиллион мелких монеток типа копейки смог бы покрыть всю поверхность Земли в полтора слоя, а 2,5 квинтиллионов, соответственно, в 5 слоев.

6. В 2018 году интернет-пользователи в общей сложности провели 2,8 миллиона лет в Интернете

Только представьте, сколько данных интернет-пользователи могут сгенерировать за миллион лет, не говоря уже о 2,8 миллионе лет? В 2019 году интернетом пользуется 4,1 миллиарда человек. Согласно отчету за 2017 год, подготовленному «Global Web Index», пользователи в среднем проводили в Интернете 6,5 часов, что объясняет быстрый рост объема Больших данных. Нет оснований полагать, что время, которые человек проводит в сети, уменьшилось за последние пару лет. Таким образом, если каждый из 4,1 миллиардов интернет-пользователей ежедневно проводит около 6,5 часов в Интернете, то в 2018 году общее время, проведенное людьми в Интернете, составило 2,8 миллиона лет.

7. 33% от общего времени, проведенного в Интернете, отводится на активности в социальных сетях

В 2016 году «Global Web Index» опубликовал информацию о среднем количестве аккаунтов у одного пользователя в социальных сетях. В 2012 году пользователи социальных сетей имели в среднем три аккаунта, а в 2016 году это значение возросло до 7.

Помимо этой нарастающей тенденции, при которых коммуникация становится мульти-сетевой, также за последние годы значительно увеличилось среднее время, которое пользователи проводят в социальных сетях. В 2012 году пользователи в социальных сетях проводили около полутора часов в день, а в 2017 году среднее время увеличилось и составило уже 2 часа 15 минут.

В этом же источнике представлена информация, что из всего времени, которое пользователи проводят в сети, 33% от этого времени отводится на социальные сети. Без сомнения, это одна из основных причин того, почему так растут объемы Больших данных. Кроме социальных сетей, 16% времени в Интернете у пользователей занимает просмотр потокового и онлайн видео, еще 16% — прослушивание музыки, просмотр новостей — 13%, и оставшиеся 22% — все прочие онлайн-активности.

8. В 2019 году количество пользователей Facebook составляет 2,3 миллиарда, все они генерируют Большие данные

Сколько данных все эти пользователи генерируют за одну минуту? Чтобы ответить на этот вопрос, воспользуется отчетом компании «Domo», публикующей на ежегодной основе отчеты о количестве данных, которые пользователи создают в течение 60 секунд.

Статистика Facebook за 2012 год показывает, что пользователи выкладывали в среднем 684 тысяч постов каждую минуту. В 2014 году эта цифра выросла почти в четыре раза, составив 2,46 млн. постов в минуту. Согласно статистики «Domo» за 2015 год, ежеминутно пользователи Facebook ставят «лайк» 4,1 миллиона раз.

Кроме информации по Facebook, Domo предоставил интересную статистику по Большим данным относительно США. Согласно этому источнику, американцы использовали 2,66 миллиона гигабайтов интернет-данных каждую минуту в течение 2017 года. В 2018 году объем интернет-данных за минуту достиг 3,14 миллиона гигабайтов, и этот скачок говорит о тренде по увеличению трафика, и соответственно, росту объемов собираемых Больших данных.

9. Пользователи Twitter создают почти полмиллиона твитов каждую минуту

Статистика использования интернет-данных Facebook — это только верхушка айсберга. Информация из отчета «Domo» Data Never Sleeps 6.0 позволяет получить некоторое представление и об активности пользователей в Twitter. Согласно источнику, количество твитов в минуту увеличилось с 456 тысяч в 2017 году до 473 тысяч в 2018 году.

Согласно статистике «Internet Live», за полтора месяца 2019 года пользователи Twitter отправили более 30 миллиардов твитов. Учитывая, что в течение первых трех лет своего существования Twitter вышел лишь на миллиард твитов, цифры на сегодняшний день показывают, насколько эта социальная сеть стала более популярной в последнее время.

Следует отметить, что Twitter является одной из крупнейших компаний, которые используют Большие данные и возможности искусственного интеллекта для различных целей, в том числе, и для предотвращения публикаций и блокирования нежелательного контента.

10. 97,2% крупнейших организаций инвестируют в Большие данные и ИИ

В 2018 году «New Vantage» опубликовал результаты опроса руководителей бизнеса, в котором основное внимание уделялось Большим данным и технологиям искусственного интеллекта. В исследовании приняли участие руководители примерно 60 компаний из списка Fortune-1000, таких как Motorola, American Express, NASDAQ и т.д. Одним из вопросов был, какие расходы несут компании на аналитику данных.

62,5% участников заявили, что в их организациях созданы позиции руководителя по данным (CDO), и эта цифра демонстрирует пятикратное увеличение по сравнению с 2012 годом (тогда только в 12% компаниях была такая должность). Кроме того, рекордное количество организаций, участвующих в исследовании — 97,2%, инвестировали в различные проекты, связанные с Большими данными и искусственным интеллектом. В большей части организаций (60,3%) инвестировали до 50 миллионов долларов, почти треть участников (27%) заявила, что совокупные инвестиции их компаний в Большие данные и ИИ составляют от 50 до 550 миллионов долларов. 12,7% участников отметили, что на развитие этих технологий у них было потрачено более 500 миллионов долларов.

Если посмотреть на объемы инвестиций в эти технологии у таких компаний как Goldman Sachs, IBM и Bank of America, можно однозначно утверждать, что будущее за Большими данными.

11. Используя Большие данные, Netflix экономит 1 миллиард долларов в год на удержании клиентов

Сегодня многие компании используют Большие данные для расширения и совершенствования различных аспектов бизнеса, и Netflix является прекрасным примером этой тенденции. На январь 2019 года у самого популярного стриминг-сервиса Netflix было 139 миллионов подписчиков. Компания активно собирает и использует Большие данные для того, чтобы удерживать клиентов и предотвращать их отток. Стратегия Netflix основывается на совершенствования сервиса и взаимодействием с клиентами, и Большие данные являются важной частью этой стратегии.

Информация, которую собирает Netflix, включает в себя данные по поиску, выставленным оценкам, повторным просмотрам, которые осуществляют пользователи. Эти данные помогают Netflix предоставлять подписчикам персональные рекомендации на основе понравившихся фильмов и полюбившихся жанров.

Еще в 2009 году Netflix инвестировала 1 миллион долларов в улучшение алгоритма рекомендаций. В 2015 году бюджет компании на развитие этих технологий составил 651 миллион долларов, а в 2018 году — 1,3 миллиарда долларов.

Что касается экономии в размере 1 миллиарда долларов за счет удержания клиентов, то это приблизительные оценки, относящиеся к 2016 году. На данный момент сумма достигнутой экономии может быть значительно выше, особенно с учетом того, что в 2018 году Netflix потратил более 12 миллиардов долларов на создание контента, и, по прогнозам, эта цифра достигнет 15 миллиардов долларов в текущем году.

12. Каков объем рынка аналитики Больших данных в 2019 году?

Выше мы написали о том, как Netflix извлекает выгоду из Больших данных, и это только начало. Большие данные применяются во многих сферах, поскольку среди прочего они позволяют выявлять различные закономерности, в том числе предсказывать клиентские предпочтения и тем самым делать процесс принятия решений более эффективным. Так каков объем рынка, связанного с индустрией Больших данных, и как он будет развиваться в ближайшие пару лет?

Согласно «Wikibon», в 2019 году рынок аналитики Больших данных достигнет 49 миллиардов долларов при совокупном годовом росте в 11%. Таким образом, каждый год рынок будет увеличиваться на 7 миллиардов долларов. Если данный прогноз сбудется, рынок аналитики Больших данных достигнет объема 103 миллиарда долларов к 2023 году.

13. К 2020 году количество вакансий в сфере Data Science достигнет 2,7 миллиона

Согласно «Forbes», одной из главных проблем в индустрии Больших данных — нехватка профессионалов с глубокими аналитическими навыками. Глядя на статистику роста и объема данных и рынка, связанного с их использованием, становится ясно, что для дальнейшего развития требуются профессионалы в сфере Больших данных. По данным
«RJMetrics» , в 2015 году во всем мире насчитывалось всего лишь от 11 до 19 тысяч Data Scientists (экспертов по аналитическим данным, обладающими техническими навыками для постановки решения сложных задач). «McKinsey» предсказывает, что к 2020 году число рабочих мест в области Data Science достигнет 2,7 млн. Таким образом, на данный момент существует большой разрыв между спросом и предложением на рынке специалистов в данной сфере.

14. К 2020 году каждый человек будет генерировать 1,7 мегабайта всего за секунду

Согласно упомянутому ранее прогнозу роста Больших данных от «Domo», к 2020 году каждый человек на планете будет создавать примерно 147 тысяч гигабайтов данных в день. Принимая во внимание, что к этому времени население планеты достигнет 8 миллиардов, то легко заключить, что объем данных, которые мы будем создавать, резко увеличится. Со своей стороны, «IDC» прогнозирует, что к 2025 году мы будем производить невероятный объем 165 зетабайтов в год.

15. Автоматизация аналитики станет жизненно важной для Больших данных к 2020 году

Одним из многочисленных предсказаний по поводу того, как изменится мир из-за использования Больших данных, является то, что полная автоматизация «Hadoop» и «Spark» будет осуществлена уже через год. «Hadoop», и «Spark» – это фреймворк для работы с Большими Данными, каждый из которых решает собственные задачи: первый индексирует и отслеживает состояние данных для повышения эффективности их обработки и анализа, а «Spark», собственно, является инструментом, для их обработки. Можно только предложить, как изменится мир, когда эти процессы станут полностью автоматизированными.

Еще один прогноз касается прорывного развития Интернета вещей и, в частности, интеллектуальных носимых устройств, которые играют огромную роль в сборе Больших данных уже сегодня. Кроме этого, можно ожидать дальнейшее развитие технологий машинного обучения в ближайшем будущем. Все это позволит создать прогностические модели для прогнозирования будущего с невероятно высоким уровнем точности.

Узучив вышеприведенную статистику по Большим данным, можно прийти к выводам, что рынок Больших данных активно развивается. Однако, факт того, объем информации растет невероятно быстро, сам по себе не является благом. Цель всех этих процессов заключается не в сборе и обработке Больших данных, а в получении от них ценности для каждого человека и человечества в целом.

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *