В HR-отдел крупной австрийской химической компании поступало около 100 электронных писем в день, из которых только 10 были релевантны для рекрутинга. Остальные письма составляли спам-рассылки, которые оставались после первичной фильтрации почтового сервиса.
Сотрудники компании ежедневно сортировали и удаляли непрофильные письма, что занимало достаточно много рабочего времени. Заказчик хотел сократить время на отсеивание спама и автоматизировать часть других рутинных операций.Задачи
Снизить количество спама в почтовом сервисе
Сократить время сотрудников на его обработку с помощью бота для классификации писем
- Автоматизировать рутинные задачи
Поскольку стандартные фильтры почтового сервиса не справлялись с классификацией, и людям приходилось тратить слишком много времени на разбор почты самостоятельно, специалисты ICL Services предложили заказчику использовать сервисы на базе машинного обучения для снижения объемов рутинной и непрофильной работы по фильтрации писем.
Перед началом работы было проведено исследование. Команда ICL Services зафиксировала текущие проблемы, собрала вводные данные и проанализировала инфраструктуру заказчика. Благодаря аудиту было подобранно оптимальное архитектурное решение.
Так как вся почтовая инфраструктура заказчика размещена в MS Azure, использование нативной среды позволяло развернуть решение за несколько дней и совершенно бесшовно для заказчика.
Определили параметры для классификации писем и собрали модель
Поскольку модель машинного обучения учится на исторических данных, то первоначальной задачей было собрать и разметить доступную историю переписки. С одной стороны, задача была простой, так как HR-служба и так разбирает почту на полезные письма (с резюме и релевантной для HR информацией) и спам. Проблема была в другом – объем доступной для обучения почты ограничивался буквально одной неделей.
Проект начался с набора данных – их преобразовали в нужный формат, разметили и подали для обучения на встроенный в MS Azure движок по обучению ML-моделей. К сожалению, точность первой модели из-за малого набора данных составила около 70%.
Повысили точность
Было очевидно, что для улучшения точности нужно больше данных. Идеальным сценарием было бы попросить заказчика накопить побольше спама в размеченных данных и потом доучить модель на нем, но на это требовалось больше времени. Поэтому был предпринят альтернативный вариант – буквально за несколько дней разработчики собрали датасеты спама из открытых источников, перевели их на немецкий язык и загрузили в модель. Это повысило точность фильтрации с 70% до 92% и позволило решить изначальные задачи – отфильтровать то, что модель считала уверенным спамом, автоматизировать автоответы в тех случаях, когда модель уверенно понимает какого типа письмо пришло, а для людей оставить только небольшую долю «серой зоны», в которой модель может ошибиться. Но благодаря накоплению данных и периодическому переобучению модели, точность продолжает увеличиваться и уже составляет 94%.
Продукты и технологии
Microsoft Outlook;
- Решения Microsoft Azure PowerApps: Microsoft Dataverse, AI Builder и другие
Результаты
- ICL Services разработала и внедрила модель машинного обучения для фильтрации спама;
- Заказчик за несколько дней получил готовый автоматический процесс обработки писем, интегрированный c Microsoft Azure;
- Благодаря точности определения спама в 92% и автоответам, сотрудники HR-отдела сократили время на ручную работу с письмами;
- Компания снизила репутационные риски — соискатели больше не ждали ответа несколько дней, а получали ответ мгновенно.