Big Data – пузырь лопнул?

Мы чувствовали, что в Big Data есть какой-то подвох, что не может быть все так просто и гладко — возьми совковую лопату, нагреби побольше данных и анализируй вдоль и поперек. Авось что-нибудь интересное обнаружится. Чем больше данных, тем лучше. Любые источники. Модели заранее строить не надо.

Когда мы сомневались, нам предъявляли убедительные примеры торжества Big Data. Самым любимым у многих апологетов этой парадигмы был Google Flu Trends — графики убедительно показывали, что всемогущий GFT предсказывает эпидемии гриппа быстрее и надежнее, чем врачи, анализируя сотни миллиардов запросов пользователей. Логика за этим стояла довольно простая — люди начинают болеть, идут в Google, чтобы найти описания лекарств или адрес аптеки.

Этот пример кочевал из презентации в презентации, из статьи в статью (и я грешен, тоже писал про GFT), попал даже в серьезные книжки. А оказалось — пшик! Точность не лучше, чем у нашего Гидрометцентра. Первый звоночек был еще в 2009, вскоре после запуска GFT, когда он совершенно пропустил мировую эпидемию «свиного» гриппа. В 2012 система вновь дала сбой — GFT более чем в два раза переоценил пик очередной эпидемии. (Пишет журнал Nature.)

Разумеется, нельзя сказать, что GFT совсем не работает: корреляция между фактическими данным о заболевании гриппом и поисковыми запросами есть, но она не настолько надежна и однозначна, чтобы принимать серьезные решения.

Не читайте советских газет перед обедом! (Да и всех других тоже)

Google никак не комментировал свой промах 2012 года. Однако, скорее всего он был вызван тем, что в этот год пресса очень много писала о гриппе, который начался раньше чем обычно — что уже новостной повод, люди читали газеты и шли в Интернет, чтобы посмотреть информацию о лекарствах. Получилось вот такое искажение действительности благодаря СМИ.

Вот еще один, наивный на мой взгляд, эпизод из жизни Больших Данных. Аспирант из Оксфорда Sean Gourley решил, что можно построить математическую модель того, как возникают очаги вооруженных конфликтов и даже предсказывать их начало. Построил он свою модель на основе анализа 130 новостных источников и SMS-сообщений журналистов-фрилансеров, находящихся в тех местах. Аспирант случайно встретил в столовой Оксфорда бывшего директора ЦРУ — и, видимо, получил неплохое финансирование.

Перенесемся в наши реалии. Даже страшно представить, какую картину нарисует нам подобная аналитическая система, если принять за чистую монету все, что пишут наши СМИ и говорят по телевизору — покажется, что Третья мировая уже идет полным ходом, не иначе. А анализ постов в социальных сетях даст скорее данные для диссертации по психиатрии, чем позволит строить какие-то прогнозы. Ведь аспирант из Оксфорда не был в курсе про наши «диванные войска» :)

Мусор на входе — мусор на выходе

Любой аналитик знает, что качество и достоверность данных это первейшая вещь. Поэтому просто черпать данные из Интернета и строить на их основе бизнес-стратегии по меньшей мере неосмотрительно.

Поэтому самая большая проблема в Больших данных — это собственно, данные. На мой взгляд, все, что касается людей, не стоит слишком брать на веру. Люди врут — и в обычной жизни и в соцсетях. «Лайки» не всегда говорят об истинных предпочтениях. Поэтому всякие маркетинговые акции, спецпредложения, программы лояльности и прочие «заманухи» для клиентов — не более чем очередная лапша на уши.

Маркетинг и реклама на основе Больших данных такая же не слишком предсказуемая вещь, как и без них. Но с аналитикой — дороже. (Конечно же я утрирую ситуацию, если подойти к Биг Дата умом, то... Но кто же подходит с умом, когда можно быстро впарить и убежать?)

Big Data — прощание с иллюзиями

По мнению компетентных товарищей из Gartner, на кривой hype cycle Big Data сейчас находятся в фазе «прощания с иллюзиями», когда первое романтическое увлечение прошло и пользователи стали больше обращать внимание на проблемы и подходить к вопросу более прагматично. Это трудное время для поставщиков — сливки уже сняты, дальше надо упорно и качественно работать, на что не все способны. К тому же, гиппопотамы рынка уже соориентировались и тоже пошли в этом направлении, сужая поле маневра для стартапов.

Дальше будет, как было уже много раз: сегментация, вертикализация, больше профессионализма, меньше понтов. Биг Дата не минует чаша сия — одними красивыми картинками уже не отделаться, нужны хорошие модели и гипотезы, которые подтверждаются или опровергаются экспериментальными данными. Ибо сколько ни пялься в инфографику, ничего из нее непонятно, если за этим нет какой-то фундаментальной идеи.

Об эпифеноменах: дурак с Big Data опаснее, чем обезьяна с гранатой

Эпифеномен — это иллюзия причинно-следственных связей, когда мы наблюдаем два явления, происходящие совместно, однако никак не связанные между собой. Использование Big Data в отсутствие четких моделей предметной области может породить большое число таких ложных «открытий». Если об этом напишут ученые статьи и забудут — не страшно. Но если эти теории проникнут в менеджмент и в госуправление — нам хана.

Подробно об эпифеноменах говорит Н. Талеб в «Антихрупкости». Если птицам читать лекции об теории полета, то они станут летать — вы в это не верите, это же глупо, не так ли? А вот следующий пример: В богатых странах проводится больше научных исследований, поэтому можно предположить, что наука порождает богатство. Это уже более правдоподобно, да? И вполне коррелирует с житейской мудростью — «если ты такой умный, то почему такой бедный?» На самом деле в мире все было наоборот — сначала некоторые страны заполучили богатство, а уж потом стали развивать науки. В бедной стране наука невозможна.

Так вот, Big Data в руках не слишком грамотных энтузиастов — это идеальный инструмент для открытия и продвижения эпифеноменов. Для обоснования решений властям нужны какие-то цифры, с помощью новой технологии можно найти любые, которые подтвердят де-факто принятое решение.

Таргетированная реклама при помощи Big Dat — это по прежнему стрельба в темноту, пишет Forbes. Пока нет доказательств, что все эти методики, построенные на анализе cookies, социальных медиа и прочего хитроумного «таргетинга» устойчиво работают. Да и вы сами сто раз с этим сталкивались — когда контекстная реклама бьет мимо, нисколько не отвечая вашим интересам.

Не забывайте: все данные — это о прошлом

Предсказательная способность Big Data сильно преувеличена. Например, во время праймериз по выборам в Конгресс в Вирджинии, согласно аналитикам должен был победить Эрик Кантор из Республиканской партии, он шел с отрывом в 34% от соперников. Однако, сокрушительно проиграл — минус 10%. Ошибка была в том, что модель ориентировалась на «типичных избирателей», учитывала их историю голосований, поведение и предпочтения. Но в этот раз явка оказалась сильно выше, чем обычно, в игру включились избиратели, которые не вписывались в модель.

Здесь фундаментальная проблема, а не ошибка одной команды аналитиков. Везде, где есть человеческий фактор, есть очень большой риски, что паттерн, который вы обнаружили, больше не повторится. Люди — они, знаете ли, такие переменчивые в своих привычках и убеждениях... Поэтому никакой анализ прошлого не может дать надежных выводов относительно будущего.

Так что все эксперименты с Big Data в маркетинге, продажах, экономике, политике, социальных процессах, романтических отношениях — пустая трата сил. В любой момент может появиться новый фактор влияния, который сломает все ваши умозаключения. Как, например, озабоченность правительства здоровьем нации запустила волну публикаций, которые запутали Google Flu Trends.

Нам трудно свыкнуться с мыслью, что будущее в принципе непредсказуемо. Раньше за прогнозом обращались к шаманам или жрецам, сейчас — к аналитикам. Big Data призвана внушать доверие, точно так же, как хрустальный шар и прочие атрибуты профессии предсказателя.

Big Data в естественных науках — да!

Однозначно, технология Big Data может быть полезна в естественных науках, там, где сначала у нас есть строгая математическая модель и понимание физики процесса. На ее основе можно строить гипотезы и проверять их экспериментальными данными — здесь Big Data самое место.

Как жить дальше

Я далек от мысли считать всю Big Data надувательством. Просто вокруг этой темы подняли столько нездоровой шумихи, что уже и правды не видно. Сейчас похоже, что маркетинговый пузырь все-таки лопнул — появилось большое число критических публикаций, развенчивающих мифы о всемогуществе технологии. (Я собираю подобные истории у себя на странице в Facebook — Anti Big Data, если захотите чем-то поделиться — милости прошу!)

Как обычно, есть временной лаг между Западом и Россией, поэтому нам еще предстоит послушать изрядное количество презентаций, как Big Data творят чудеса, но это тоже пройдет.

Дальше, я считаю, произойдет вот что: Big Data спрячется внутри разнообразных отраслевых решений, где во главе угла будет все-таки знание предметной области и опыт, а в подкрепление ему — аналитика, в разумной дозировке и по понятным моделям.