Шар судьбы: как спрогнозировать увольнение ключевого работника
Предсказание увольнений: шаманство или наука?
Представьте, что вам говорят: поведение человека, который принял решение уволиться или близок к нему, можно предсказать. В голове тут же начинают крутиться шестерёнки: да это же круто – экономия на найме и обучении замещающих работников, целые нервы HR, руководителей и стабильная непрерывная работа команды! Следующая мысль: это невозможно. Слишком много факторов, которые сложно учесть. Нееет, не пойдёт. Давайте попробуем понять, за счёт чего такой прогноз стал реальностью по крайней мере для тех сотрудников, которые работают на ПК.
Офисный работник участвует в онлайн-встречах, отвечает на письма, использует определённые приложения. День за днём выполняя свои обязанности, он формирует свой цифровой портрет. В этой статье мы разберемся, что происходит, когда человек решает сменить работу, и как мы уже сейчас прогнозируем распространённую причину увольнений – эмоциональное выгорание. На нашей стороне работает техномагия – математическая статистика и data science.
Когда увольнение можно спрогнозировать? Пара примеров
В компанию, где я работала, пришла молодая девушка-технолог. Хорошее резюме, небольшой, но релевантный опыт работы. Проработав несколько месяцев, она со скандалом была уволена. Причиной стало то, что она начала рассылать письма коллегам с предложением организовать свой стартап, используя ноу-хау отдела и клиентскую базу компании. Адекватные коллеги рассказали всё директору. А если бы ей удалось их убедить? Прощай, бизнес!
Аномальную активность в почте можно отследить по нескольким критериям: меняется количество писем в почте сотрудника, появляются определенные маркеры – «стоп-слова». «Диверсантку» можно было вычислить только по изменению характера переписки.
Новички – это повышенный риск для организации, но они зачастую не могут причинить ей большой ущерб.
Рассмотрим еще один пример. Мой знакомый, технический директор достаточно крупной производственной компании, решил сменить сферу деятельности. Причиной называл отсутствие перспектив развития, «зарубание» инициатив руководством. Человек записался на популярные ИТ-курсы, полгода на них отучился и начал ходить на собеседования. Ещё пара месяцев – и он уволился, найдя «работу своей мечты». Для руководства это была существенная потеря – внезапный уход квалифицированного специалиста. Но таким ли внезапным он был?
За полгода до того, как он положил заявление на стол, в его рабочем графике появились изменения. Например, стали наблюдаться длительные перерывы. Их можно отследить по активности на рабочем компьютере. В это время он проходил задания на курсе. Снизилась его продуктивность – ведь он больше не был замотивирован на долгосрочный результат. За несколько месяцев эта картина стала еще более явной – он начал брать дни за свой счёт и в счёт отпуска, чтобы ходить на собеседования.
На графике реальные данные – динамика рабочего времени и перерывов в работе уволившегося специалиста
Имеет ли смысл прогнозировать увольнения? Спойлер: имеет
Есть мнение, что прогнозировать увольнения работников – неблагодарное дело. Интерпретация результатов анализа цифрового профиля в ряде случаев может быть неверной, а действия человека не ограничиваются действиями на его рабочем компьютере. Да и поводом для увольнения может стать внешняя причина – например, хорошая работа хедхантера конкурента. С одной стороны, это так.
Но с другой, бывают ситуации, когда анализ данных с рабочих компьютеров сотрудников позволяет определить, например, выгорание ключевых специалистов. Уже сейчас на российском рынке есть разработки, в которых используются алгоритмы, позволяющие выявлять признаки профессионального выгорания у сотрудников. Прогнозированием увольнений занимается наша исследовательская группа.
Ниже я приведу еще примеры, в каких случаях увольнения реально предсказать, и постараюсь на пальцах объяснить механизм такого прогноза.
Люди меняют работу: три основные причины
Эмоциональное выгорание. Увольняется юрист. Вздыхая, говорит о прекрасном коллективе и удобном рабочем месте. Но на другой чаше весов оказались пудовые 14 документов на параллельном согласовании и 2 суток на полный цикл согласования. Постоянные переработки, напряжённый темп работы – выгорание за несколько месяцев было обеспечено.
Синдром эмоционального выгорания (или синдром супермена) представляет собой процесс постепенной утраты эмоциональной и физической энергии, проявляющийся в симптомах эмоционального, умственного истощения, физического утомления, личностной отстраненности и снижения удовлетворения от исполненной работы.
На иллюстрации – скриншоты одной из систем мониторинга эффективности труда сотрудников. Слева – нормальные показатели динамики цифрового профиля. Справа – показатели, на которые стоит обратить внимание руководителю или HR
Невозможность развития / недостаточный доход. Мы пока не собираем данные об уровне и динамике заработной платы, грейде. Казалось бы, как можно предугадать увольнение по этой причине, имея в распоряжении только цифровой профиль работника? Однако варианты есть. Например, отслеживание динамики рабочего времени и длительных перерывов в работе. Или оценка его продуктивности: непродуктивным считается время, которое работник проводит в непрофильных для его должности приложениях (условный Youtube или соцсети для бухгалтера).
На графике – реальные данные: динамика рабочего времени и непродуктивной активности уволившегося работника. Он ушел через 2 месяца после того, как была зафиксирована тенденция к снижению продуктивности
Лучшее предложение извне. Из компании ушёл руководитель проекта. Через некоторое время начали увольняться люди из его команды. Подписывая заявление об уходе, они честно рассказывали, что идут работать к своему бывшему руководителю. Это называется «схантили» команду, и хорошо, когда это получилось у тебя, а не у конкурента – в противном случае это называется совсем по-другому, зачастую нецензурно. По изменению характера работы отследить случай, когда человек меняет работу по приглашению извне, очень сложно. Здесь больше имеют значения такие факторы, как должность, стаж работы в компании, пол, возраст, удобство расположения офиса и т.п.
Например, данные, накопленные в нашей компании, говорят о том, что есть статистически значимая связь между стажем работы в компании и вероятностью увольнения:
Наиболее «рискованный» стаж ожидаемо меньше 3 лет. Если рассматривать его вкупе с остальными факторами, можно получить портрет человека, который может на определённом этапе развития покинуть команду
Именно статистика раньше служила основным инструментом при ручном анализе узких мест в работе специалиста по кадрам. Именно статистика помогает делать то же самое сейчас – но уже не человеку, а искусственному интеллекту. Давайте посмотрим, какие подходы к аналитике увольнений используются ведущими компаниями сейчас.
Предсказание увольнений: распространенные подходы
Все методы предиктивной аналитики, которые используются сейчас, базируются на больших данных и на машинном обучении. Основные различия кроются в наборах данных, способах их сбора и выборе алгоритма обучения. Вот как это делают сейчас крупные компании, заинтересованные в сбережении своих кадров:
2018 год: опыт компании EY (подробнее на их сайте). EY (бывшая Ernst&Young) – крупная британская аудиторско-консалтинговая компания. Для прогноза увольнений в компании использовали данные о рабочем времени из СКУД, данные по заработной плате и развитии работника в компании. Модель оказалась рабочей, но при её построении пришлось решать этический вопрос об использовании личных данных работника, напрямую не относящихся к его рабочим обязанностям. Еще одна сложность, с которой столкнулись исследователи – разрозненность и мозаичность исходных данных. Информация приходит по разным каналам, в разном формате. Некоторые данные собираются фрагментарно.
2019 год: опыт компании SAS (подробнее в этой презентации). SAS – американская компания-разработчик программ для статистического анализа и систем класса Business Intelligence. Используя персональные данные своих работников за несколько лет, они научились с высокой точностью предсказывать увольнение работников ряда должностей. В этом подходе хорошо всё, кроме одного: работники должны знать, что их личные данные, включая уровень зарплаты, активность в соцсетях и т.д., используются для анализа. И снова встаёт вопрос об этичности использования таких данных.
2021 год: опыт компании «Ростелеком» (подробнее в этой статье). В прошлом году команда HR Ростелекома рассказала о том, как они сэкономили миллиарды рублей, вовремя предупредив выгорание 70% ключевых сотрудников, попавших в зону риска. Для прогнозирования использовалось несколько методов машинного обучения, статистика по каждому сотруднику и статистика по отрасли от Росстата.
Во всех перечисленных выше примерах работают похожие алгоритмы. Посмотрим, что у них под капотом.
Работает или увольняется? Как это определяет машина?
Работу алгоритмов машинного обучения часто считают магией или таинственным чёрным ящиком. Однако в них используются те же подходы, что и в обычной «человеческой» жизни.
Приведу пример. Казалось бы, можно точно спрогнозировать, какую оценку ты получишь на экзамене. Выучил все билеты – получил «отл», не готовился – «неуд». Но в реальной жизни есть огромное количество факторов, которые могут этот прогноз скорректировать. Скажем, по дороге на экзамен ты неудачно упал. Нога так сильно болит, что тебе уже не до чего, и ты допускаешь нелепую ошибку. Или так сильно волнуешься, что преподаватель ставит четвёрку только потому, что видит твою неуверенность. И наоборот: ты вытянул единственный билет, ответ на который знал, и в итоге выплыл на «хор» там, где уже смирился с необходимостью пересдачи.
Как бы мы предсказывали вероятность получения хорошей/плохой оценки на экзамене с помощью алгоритмов машинного обучения? Мы бы загрузили в модель данные по нескольким сотням (или тысячам) студентов, уже прошедших экзамен. Мы знаем, кто из них сдал, кто провалился. Рассматриваем признаки: их пол, предыдущие оценки по разным предметам, время года, темперамент, их оценку знания предмета и т.д. Все эти признаки модель проанализирует и определит наиболее важные, которые дают наибольший вклад в правильный ответ. На этом этапе она обучается.
Следующим шагом мы проверяем, как работает модель: берём данные, которые она еще не видела, и смотрим, как корректно она определяет наш целевой признак (факт сдачи экзамена). Если метрики качества на тестовой выборке достигают 80-90% и выше, модель считаем рабочей и начинаем применять для предсказания будущих событий.
В случае с предсказанием увольнений работает та же схема. На вход модели подаются разносторонние признаки цифрового профиля, а она выбирает наиболее важные, влияющие на вероятность увольнения. На выходе получаем предсказание: «на данный момент с такой-то вероятностью этот сотрудник может уволиться». Было бы здорово также добавить, когда он уйдёт. Например, через 2,5 месяца. Но на время ухода влияет большое количество внешних факторов, в первую очередь – состояние рынка труда. Поэтому такой машинный прогноз будет крайне неточным.
Так выглядит общий принцип машинного обучения. А теперь расскажу, как это делали мы.
Машинное обучение у нас: алгоритмы Yandex
Итак, целевой признак нашей модели – увольняется человек (это 1) или нет (это 0). Целевой признак один, а вот параметров, по которым происходит его определение, может быть очень много. В нашей компании используется около 50 характеристик цифрового профиля: данные по продуктивности, данные по встречам и по работе с почтой. Из этических соображений не исследуются активность в соцсетях и прочая персональная информация.
Существует несколько видов алгоритмов машинного обучения. Для случая, когда исследуется несколько десятков параметров, идеально подходят древовидные алгоритмы. Один из наиболее современных – Catboost от компании Yandex. Её особенности идеально подходят для нашего случая.
Алгоритмы машинного обучения принимают на вход не только числовые признаки, но и категориальные. Например, стаж работы, пол, должность. В отличие от алгоритмов-конкурентов Catboost работает и с категориями, и с числами «из коробки», без дополнительной обработки.
Так выглядят шаги построения модели. Причём первый шаг – сбор информации – обычно самый трудоёмкий, и его автоматизация – наша отдельная гордость, за которой стоит огромный труд команды.
Важные замечания:
- Качество модели напрямую зависит от объёма подаваемых ей на вход данных.
- Модель, дающую высокие метрики (на уровне не ниже 80, можно использовать для прогнозирования увольнений в будущем.
- HR-специалист или руководитель, используя данные прогноза, может предотвратить нежелательное увольнение, предложив работнику варианты развития внутри компании. Иногда достаточно просто уделить время обсуждению его насущных проблем – может оказаться, что они решаются с минимальными затратами.
Что же дальше?
Мы можем предсказать увольнение работника в двух из трёх самых распространённых ситуаций. Для этого используются современные способы машинного обучения. В нашем случае – классификатор с пушистым названием CatBoost.
Результат работы модели – вероятность увольнения конкретного работника:
Идентификатор работника в системе | Пол | Должность | Опыт работы в компании | Вероятность увольнения | |
1 | b801a5df | Male | Старший разработчик | 1-3 года | 97% |
2 | f534a4e2 | Male | Старший разработчик | Меньше 1 года | 88% |
3 | 27933a9b | Female | Аналитик контентной фильтрации | 3-5 лет | 79% |
4 | b0c14323 | Female | Ведущий аналитик | 1-3 года | 72% |
5 | f30fc215 | Male | Тест-инженер | Меньше 1 года | 66% |
В таблице – полученные с помощью нашей модели данные о вероятности увольнения работников одного из подразделений нашей компании. Они действительно уволились в рассматриваемый период.