Большие данные: от теории к практике

07 Октября 2013 07:04

Вынесенную в заголовок фразу можно переформулировать как вопрос: Big Data в России - наступившая реальность или неопределенное будущее? Готов ли российский рынок к таким концепциям не в теории, а на практике?

Для начала давайте определимся с терминологией. Big Data, которая, как и многие другие технологии и концепции, вышла из научной среды, провоцирует академично думать о данных большого объема, которые по своей сути разнородны и демонстрируют динамичный рост. Приземляя теоретические изыскания в области «больших данных» на реалии жизни и проблемы обычных компаний, мы видим большой перечень иногда близких, а иногда совсем не похожих друг на друга задач.

Чаще всего о «больших данных» в контексте Big Data говорят после определенного порога в десятки терабайт. Такие данные можно разделить на несколько сегментов. Первый сегмент - реляционные структуры, которые увеличивают объемы хранилищ, требуют все больше времени на обработку и зачастую даже приводят к обновлению оборудования. Также они заставляют искать новые возможности оптимизации информационных и аналитических систем, баз данных и запросов к ним. Примером таких данных является накапливающаяся день изо дня информация о транзакциях клиентов, кредитных историях, поведении работников с точки зрения информационной безопасности, маркетинговых кампаниях, транзакций в системах электронных платежей.

Другой сегмент данных - полуструктурированные или совсем неструктурированные файлы документов, например, отсканированные изображения (копии паспортов клиентов, кредитных договоров и т.п.), логи посещений сайтов. На наш взгляд, вышеперечисленное говорит о концепции Big Data довольно однобоко, как о проблеме, с которой компания хоть и не сталкивается в одночасье, но которая предполагает, что есть неотвратимая реальность постоянного роста объемов данных. И с этим надо что-то делать. Например, выйти за пределы окружающих задач и увидеть потенциальную выгоду от обработки существующей информации, которая не охвачена текущими системами компании. То есть можно оценить, какие возможности для бизнеса может дать огромный массив информации, находящийся еще вовне организации (третий тип данных).

В этом случае о концепции Big Data можно и нужно говорить как о входящих потоках данных, их скорости передачи, сигнальной системе на основании этого потока и, как следствие, методах хранения данных, в том числе с учетом потенциального роста их объемов, методах анализа. На практике это может выглядеть как изучение потенциальной клиентской базы, подбор маркетинговых активностей, превентивные, а не реактивные меры по пресечению мошеннических операций, изучение потенциальных связей заемщиков между собой на основании социальных связей, изучение поведения клиентов на интернет-сайтах до сделанных заявок (например, на основе тех расчетов, которые делают посетители сайта с помощью калькулятора).

Также имеет смысл упомянуть прогнозирование спроса на продукты и изменений в продуктовом портфеле, пересчет инвестиционных вложений на основании колебаний котировок. В общем, здесь открывается огромный простор для творчества. Для многих финансовых организаций такие задачи являются сегодня привычными и насущными. Особенно это актуально для крупных компаний с миллионным количеством клиентов - физических лиц, каждое из которых может иметь различные кредитные истории. Для них использование концепции «больших данных» в каком-то смысле является эволюционным развитием.

Однако с точки зрения инфраструктуры это может стать революцией, так как «большие данные» требуют новых подходов к организации хранения, управления и извлечения новых знаний. Впрочем, и здесь можно обойтись без революций. Например, начать использовать реляционное аналитическое хранилище, допускающее горизонтальное масштабирование при данных порядка сотен терабайт, а то и петабайт. Примером такого решения является Microsoft Parallel Data Warehouse (PDW) - программно-аппаратный комплекс, созданный совместно с всемирно известными производителями серверов для обеспечения массивно-параллельной обработки данных.

Использование систем такого класса позволяет не только увеличить объемы обрабатываемой информации, но и ускорить выполнение запросов в десятки и сотни раз, обеспечивая в то же время необходимый уровень отказоустойчивости. Если компания уже имеет уже достаточное количество неструктурированной информации, то эволюционным путем может стать использование технологий, с которыми изначально ассоциировались «большие данные» - архитектура Hadoop с технологией извлечения данных Map Reduce. Примером такой технологии от Microsoft является HD Insight.

Рассматривая возможности Big Data применительно к своей компании, необходимо помнить о целостном подходе к решению конечной бизнес-задачи - извлечь новые полезные знания, которые помогут развитию бизнеса. И здесь также совершенно не обязательно совершать революцию. Так, классический подход к сбору данных можно дополнить технологиями стриминга и потоковой обработки «на лету» по разным сценариям.

В качестве примера приведем технологию StreamInsight, которая является частью Microsoft SQL Server, когда данные перед тем, как быть записанными в хранилище, проходят проверку по заданным правилам и разделяются на два потока - одобренный и сомнительный. При этом может выдаваться сигнальная информация о том, что какие-то данные вызывают сомнение (такую функцию можно запрограммировать). Следующим шагом может стать объединение двух разных подходов, чтобы облегчить управляемость и анализ: Hadoop и реляционного.

Примером этому является новая технология Polybase, внедренная в последнюю версию Microsoft PDW. Она позволяет через один источник обращаться к самым разным типам данных - реляционным и нереляционным. То есть эта технология позволяет посылать запрос в реляционную структуру, которая не только быстро (в параллели) его обработает, но и сама транслирует его в подсоединенный Hadoop, получит отклик и выдаст объединенный результат.

Таким образом, можно, например, реализовать такие сценарии, как разделение данных на «холодные» и «горячие», связать статистику логов Call-центра и транзакции по кредитным картам и т. д. Следующий шаг - предоставление доступа к Big Data на пользовательском уровне. Не все знают, что сегодня аналитики уже могут сами с помощью обычного Excel подключаться напрямую в Hadoop и получать ответы на свои вопросы. И это делается без привлечения программистов.

Для нас Big Data - это не столько новые инструменты для работы с данными, сколько новые подходы, расширение и изменение угла обзора бизнеса. И уж точно это не универсальное решение любой задачи - именно так зачастую новые технологии рассматриваются в самом начале их развития. Как понять, что пора работать с «большими данными»? Если сегодня становится очевидно, что при текущих темпах роста бизнеса и объема его данных уже через короткий промежуток времени станет «тесно», не стоит дожидаться того времени, когда придется действовать революционными методами. Или, если сейчас вместо использования полезной информации приходится ее удалять, чтобы найти свободное место для записи новых данных, логично немедленно начать изучать новые технологии и переходить к их использованию на благодатной почве, где эти инструменты максимально полезны.

Если же в финансовой организации генерируемый объем информации укладывается в средние масштабы, то логичнее применять лучшие практики построения хранилищ и систем и оптимизировать их. Это, кстати, не отменяет возможность организации пилотных зон Big Data, например, в облачных структурах, где их легче развернуть, протестировать и оценить актуальность для собственного бизнеса.

Анна Свиридова, технический специалист по решениям Microsoft в России
Алена Дробышевская, ведущий специалист Microsoft в России по платформенным решениям для финансовой индустрии
вернуться назад

События

Новости

Корпоративные новости