Машинное обучение в финансовой сфере. С чего начать и где «грааль»

05 Июня 17:06

Иван Комаров,

руководитель группы «Машинное отделение», ГК ЦФТ

Вот уже более полутора лет в ЦФТ активно развивается новое направление - машинное обучение. Все слышали этот модный сегодня термин, однако главный вопрос для практиков в финансовой сфере очевиден: как «новую нефть из данных» превратить в добрые старые деньги? Ну и далее: как начать и какие темы развивать?

Узнать неизвестное

Попробуем разобраться. Сначала определимся с терминами - что мы понимаем под «машинным обучением»? К сожалению, из-за «хайпа» - т.е. неоправданно высокого внимания СМИ и маркетологов к этой теме, можно легко потеряться, т.к. каждый хочет «быть в тренде» и очень многие предлагают свое понимание машинного обучения.

Мы в ЦФТ понимаем машинное обучение как конкретный инструмент, который помогает решить следующую задачу.

В общем виде задачу можно сформулировать так: создание набора правил, которые помогут узнать неизвестное, которое нам очень важно знать для решения бизнес-задач. Инструмент машинного обучения работает, когда есть исторические и постоянно поступающие данные, на основе которых и создается набор правил. Неизвестное, о котором идет речь, должно быть известно для исторических данных. Более конкретно - оно должно содержаться в данных.

Давайте от такого определения перейдем к разбору нескольких практических кейсов, которые мы решаем в ЦФТ. Это нам поможет лучше понять - что же такое машинное обучение?

Кейс: Заслон для «экстрасенсов»

Первая задача, ставшая уже классической, - антифрод. Для платежной системы «Золотая Корона» «фродом» называются действия третьих лиц и пользователей, которые наносят ущерб компании и другим клиентам. Один из особых видов фрода - использование платежной системы так называемыми «экстрасенсами», которые выманивают крупные денежные средства у пожилых людей.

Чтобы создать систему для противодействия такому фроду, в ЦФТ была создана рабочая группа. В нее вошли специалисты по противодействию фроду и специалисты по машинному обучению. Результатом их совместной работы стала система, позволяющая по входящей транзакции давать ей оценку (скор). На основании этой оценки принимается решение о том, что транзакция - фрод.

Набор правил, на основании которых работает созданная система, и есть то, что было создано группой машинного обучения совместно со специалистами фрод-мониторинга. Участие специалистов фрод-мониторинга необходимо для процесса, поскольку они, используя свой опыт, могут подсказать значимые признаки для выявления фрода. Таким признаком, например, может быть возраст отправителя.

Обязательным условием успешности проекта является то, что отдел фрод-мониторинга ведет базу «фродстеров», т.е. мошенников, поведение которых позволяет машине создать правила поиска схожих операций среди миллионов ежедневных транзакций.

Кейс: Умная верификация

Еще один проект ЦФТ, в котором важную роль играет машинное обучение, наверняка знаком многим банкам. Речь идет об автоматической системе верификации и исправления данных. Когда данные поступают из разнородных систем, на разных языках, когда в данных совершают опечатки, многие задачи анализа усложняются, т.к. непонятно, анализируем ли мы одного человека, насколько можно доверять имени «ХУДОЙДОД» или году рождения «1917». Когда данных - миллионы записей, только машина в состоянии просмотреть каждую. Причем не просто просмотреть их, но и найти опечатки, выявить странности и предложить коррекции.

Для этой задачи используется поиск аномалий, которые выделяются на фоне остальных данных. Задачей для дата-сайентиста (Data Scientist) становится статистическое определение: какая транзакция нормальная, а какая - аномалия.

Кейс: Что-то идет не так

Бизнес, как и любую сложную систему, подобную промышленному предприятию, интересуют также аномалии в работе. Ведь часто аномалии - это не просто полная остановка процесса, а «аномальное» снижение активности, например, из-за ошибки («бага») в IТ-системе. Отловить такую ошибку зачастую невозможно. Только машина, которая «заучила» весь предыдущий опыт и которая без устали смотрит на графики, может дать сигнал о том, что «что-то идет не так». Эту задачу мы также решаем, осуществляя мониторинг жизненно важных систем. Например, отслеживая количество транзакций за период времени.

На первый взгляд, решение представляется простым - выставить пороги, например, «+/- 5%», и при выходе за рамки подавать предупреждающий сигнал. Однако бизнес развивается, растет нелинейно, вместе с ним начинает себя вести своеобразно временной ряд. Необходимо придумывать «умную» систему, которая заучит все нюансы, чтобы всегда извещать о проблеме и при этом давать минимум ложных срабатываний. Для решения этой задачи часто не хватает записей об инцидентах, поэтому приходится прибегать к методам обучения с использованием не только доступных данных, но и данных, синтетически сгенерированных принятой моделью развития аномалий.

Глубокое обучение: обработки звука, распознавание изображений

Машинное обучение постоянно развивается, особенно в части методов глубокого обучения, основанных на использовании различных архитектур нейронных сетей. Так называемое глубокое обучение позволяет обрабатывать голос и изображения, приводя их, соответственно, к тексту или к типу объекта на картинке.

Каково практическое применение моделей обработки звука? Для ЦФТ это в основном задачи автоматизации работы колл-центра. Выделяются три основные задачи. Первая - выделение тематик разговоров операторов колл-центра. Как правило, записи разговоров сложно использовать из-за больших затрат времени. Автоматический разбор позволяет бизнесу быстро получить обратную связь непосредственно от клиентов. Вторая задача - автоматическая оценка работы оператора (например, соответствие сценарию). Кроме этого, можно выявлять лучшие практики, которые потом можно тиражировать, добавляя в сценарий. Третья задача - создание автоматической системы ведения диалога с клиентом. Работы в данном направлении ведутся, однако пока можно автоматизировать только достаточно жесткие сценарии.

Распознавание изображений для ЦФТ важно в плане автоматической работы с документами, удостоверяющими личность. Здесь имеется в виду как автоматическое заполнение форм, так и проверка документа на подлинность или наличие. Например, известна проблема подмены копий договоров или непроставления подписей. Такую работу можно с уверенностью отдать машине.

Следует отметить, что существует еще большое количество других оптимизационных задач, где машинное обучение приносит реальную пользу. Это - системы подсказок оператору данных, проверка корректности ввода, упрощение авторизаций для известных пользователей, поиск аномалий в авторизациях, коррекция адресов, нечеткий поиск по ФИО, предсказание оттока клиентов и т.д.

С чего начать?

Давайте вернемся к вопросам, поставленным вначале. С чего начать использование машинного обучения? Мой ответ будет такой: с простого. Как правило, корректно поставленная задача позволяет подыскать быстрое решение, которое наполовину решает задачу. Не мешкая, следует доводить такую задачу до внедрения и уже потом заниматься итеративным улучшением модели.

Сколько нужно ресурсов и инвестиций? Опять же, сейчас порог вхождения в тему не такой высокий: есть много обучающих ресурсов и готовых инструментов для интересующихся темой. Как быстро окупаются вложения? По сути, мы говорим о новых инструментах автоматизации и следует считать эффективность так, как мы это делаем для таких инструментов.

Помимо таких традиционных метрик, в машинном обучении разработан великолепный универсальный аппарат оценки качества модели. Для бинарной классификации (прогнозной системы «да/нет») это может быть матрица ошибок, меры точности и полноты, F-мера, ROC-AUC, коэффициент Джини (насколько прогноз модели отличается от случайного ответа) и др. Используемый для таких метрик подход легко может быть переиспользован для расчета бизнес-показателей, связанных с моделью.

 «Умные» машины или человек?..

Подводя итоги, резюмирую все сказанное. Несомненно, что подход, основанный на данных - это лучший подход к принятию решений, при условии наличия данных и предсказуемости процесса. В этом смысле необходимо максимально использовать возможности машинного обучения: считать и предсказывать метрики, прогнозировать вероятности наступления событий, детектировать аномалии и т.д. К счастью, эти же задачи решаются и без машинного обучения, однако они или требуют больших затрат и времени (например, ручная проверка транзакций) или при решении возникает непозволительно большая ошибка (например, при отслеживании транзакций, попадающих под законодательство ПОД/ФТ).

Ни одна машина не заменит интеллект человека. Но вот работать вместе с технологией машинного обучения - значит непрерывно повышать эффективность. Машинное обучение - интересная перспектива. 

Журнал «Банковские технологии», №5, 2018.

вернуться назад

События

Новости

Корпоративные новости