Большие данные и инструменты для них.

Кроме он-лайн активностей, таких как конкурс «Проект года», портал GlobalCIO проводит и офф-лайн мероприятия: встречи ИТ-директоров. Это камерное, на двадцать с небольшим участников, вечернее мероприятие, где звучат и обсуждаются доклады ИТ-руководителей и подрядчиков. Встречи бывают отраслевыми или тематическими. Одна из декабрьских встреч была посвящена большим данным, она была организована при участии компаний РДТЕХ и Oracle. Разговор был посвящен не столько продвижению каких-либо продуктов или услуг, сколько обсуждению, весьма бурному, некоторых концепций и подходов. Тем было две: теория эволюции аналитических систем предприятия и собственно большие данные, проблемы и инструменты их обработки.

Руководитель группы отдела аналитических систем РДТЕХ Михаил Козырь напомнил о ступенях эволюции аналитических систем от информационных систем руководителя (EIS), через системы поддержки принятия решений (DSS) к хранилищам данных (DW) и бизнес-анализу (BI), а затем и к связке «традиционного» Business Intelligence и Big Data.

Ранние системы управленческой отчетности или MIS (Management’s Information Systems) строились на основе данных промышленных систем. Отчёты разрабатывались по запросу бизнес- пользователя и имели, как правило, фиксированную форму. Стоимость разработки новых отчётных форм была достаточно высока, поскольку требовалось непосредственное участие программиста: ТЗ, разработка, отладка. Пользователь не имел возможности изменить или преобразовать отчётную форму. Кроме того, существенным недостатком такого подхода было то, что при анализе нагружались транзакционные системы, что неблагоприятно сказывалось на общей производительности.

Постепенно созревала идея обеспечить пользователя удобным инструментарием, чтобы он мог самостоятельно формировать требуемые отчётные формы. Однако транзакционные системы имели довольно сложную структуру данных и проектировались для обеспечения пропускной способности, а не для построения отчётных форм. Если предприятие эксплуатирует несколько транзакционных систем, то данные в них, как правило, не согласованы друг с другом. Становилось понятным, что существующие транзакционные системы слабо подходят для задач аналитической отчётности.

Был сделан вывод: почему OLTP (Online Transaction Processing) не подходит для аналитической отчётности.

Все вышесказанное, подчеркнул Козырь, обусловило появление экстрактов данных. Экстракт – это данные, по определённым условиям перенесённые из промышленных систем. Экстракты данных становятся очень популярными по двум причинам:

- снимается нагрузка с транзакционных систем и нет конфликтов на почве производительности;

- экстракты являются собственностью бизнес-пользователей и могут быть настроены под задачи аналитической отчётности.

Однако повсеместное широкое использование экстрактов привело к появлению так называемых «Spider Web» экстрактов. Сначала делается экстракт, затем экстракт из экстракта, затем экстракт из экстракта экстракта и так далее. Было в порядке вещей для большой компании обновлять 45 000 экстрактов ежедневно. Экстракты становились крайне сложными в сопровождении, терялось качество данных и доверие к данным. Экстракты отличались между собой по времени извлечения данных, по алгоритму формирования, у них мог быть разный источник и т.п. Назревала необходимости перехода от данных к информации.

В этот момент слово перешло к Андрею Пивоварову, руководителю группы перспективных технологий Oracle, а дискуссия сместилась к обсуждению проблем больших данных.

Big Data – это новые возможности, ставшие доступными, благодаря новым технологиям или подходам к обработке больших объемов данных, считают в Oracle, отмечая недостаточность и неполноту многих других определений.

Почему о больших данных стали говорить? Пивоваров отметил следующие причины: технологии, раньше используемые только в веб-проектах (Hadoop, NoSQL), стали достаточно зрелыми, и уже не обязательно держать штат программистов, чтобы ими пользоваться. Появились новые возможности для получения конкурентных преимуществ: глубокий анализ поведения клиентов, высокоточная реклама, объединение и анализ данных из многих источников, в том числе неструктурированных, анализ мошенничеств и т.д. При всем этом Big Data технологии позволяют существенно удешевить хранение и обработку данных.

Почему удешевление так важно? Пивоваров напомнил, что, подешевев, самолеты совершили революцию в транспорте, удешевление сотовой связи сделало ее доступной для всех, увеличение объемов жестких дисков дало возможность хранения и воспроизведения видео на ПК, а удешевление доступа в интернет создало интернет революцию. "Значительное удешевление часто помогает сделать качественный скачок к принципиально новым возможностям" - подчеркнул он.

Пивоваров подробно рассказал о некоторых ключевых для работы с большими данными инструментах, в том числе о Apache Hadoop, Oracle NoSQL Database, Event Processing, Apache Hive. По мнению многих участников встречи, именно эта часть была самой информативной. Не имея возможности полностью здесь ее воспроизвести, отметим только следующие выводы.

Если задачу можно распараллелить, Hadoop может подойти для ее решения. Hadoop позволяет программистам очень просто писать параллельные программы. Многие задачи из области анализа данных параллелятся. Но не все задачи можно распараллелить, поэтому все же Hadoop – не панацея.

Для каких задач может использоваться Oracle NoSQL Database? Для построения быстрых многопетабайтных распределенных масштабируемых файловых хранилищ с возможностью обработки данных в кластере. Она нужна для построения систем, которые очень быстро накапливают огромное количество данных из многих источников: десятки миллионов записей в секунду. Это могут быть датчики, результаты испытаний, эксперименты, интеграция с системами обработки событий и накопление и обработка информации о событиях. Такие данные могут генерировать интернет-проекты с многими тысячами пользователей. Тогда NoSQL Database нужна для обеспечения мгновенного доступа к профилям пользователя, продукта, информации о рекламной компании и т.д.

Для того, чтобы начать работать с Большими данными, Пивоваров порекомендовал Oracle Big Data Lite Virtual Machine, которая содержит основные компоненты Big Data платформы Oracle, включая Hadoop и NoSQL DB. ПО бесплатно скачивается с OTN, постоянно обновляется, по нему есть много обучающих материалов .

В целом дискуссия показала, что ИТ-руководителей в первую очередь интересуют практические аспекты применения технологий, связанных с большими данными, и прежде всего потенциальные экономические эффекты. Сотрудниками РДТЕХ и Oracle был приведен ряд кейсов, в основном зарубежного происхождения, но весьма впечатляющих, однако присутствующих и они полностью не убедили, так как речь шла преимущественно о компаниях очень большого масштаба или проектах с высоким числом источников информации. К своей повседневной реальности присутствующие это «привязать» могли с трудом. Тем не менее новые технологические подходы, которые продвигает Oracle и ее партнер РДТЕХ, были очень интересны, хотя бы как близкое будущее.