Как у нас получилось использовать машинное зрение для улучшения аналитики

Время чтения 2 минуты

515

Привет, я Сергей Жучков, основатель школы программирования и искусственного интеллекта для детей ProgKids. Я расскажу, как мы использовали нейросети для того, чтобы отследить и улучшить качество нашего продукта.

С помощью машинного зрения мы стали считывать и анализировать эмоции учеников во время обучения. Раньше мы тоже этим занимались, но привлекали для этого методистов школы. Они отсматривали записи уроков и проводили анализ образовательного процесса «вручную». Естественно, такой способ занимал большое количество времени и энергии.

Именно поэтому возникла идея автоматизировать процесс и привлечь к решению задачи искусственный интеллект. Это позволило бы сделать оценку образования еще качественнее и освободить методистов от дополнительной нагрузки.

Как у нас получилось использовать машинное зрение для улучшения аналитики

Использование ИИ для разработки собственной платформы

Наша команда из 17 человек создала платформу MeetProgKids. Кроме программистов в разработке участвовали лингвист, менеджер по развитию и методист. Вместе они научили искусственный интеллект анализировать эмоциональное состояние ребенка во время урока по записи видео- и аудиопотока.

В модуле анализа аудиозапись конвертируется в нужный формат при помощи FFmpeg, а за распознавание речи отвечает модифицированная версия SOVA ASR.

К выбору подходящего решения для распознавания речи мы подходили с особой тщательностью, потому что в дальнейшем проводился анализ распознанного текста. Выбор сделали в пользу SOVA ASR, потому что:

эту систему можно использовать в коммерческой разработке;
к ней можно подобрать языковые модели и, соответственно, улучшить качество распознавания;
распознавание запускается локально, что позволяет защитить данные.

Тем не менее мы столкнулись с некоторыми проблемами. Так, SOVA ASR не позволяет обрабатывать файлы параллельно и с высокой скоростью, что особенно важно при анализе большого объема данных.

Как считываются эмоции с помощью детекции аудио и видео

Искусственный интеллект обрабатывает эмоции ученика с помощью видео. А по аудио, в свою очередь, распознает голоса, преобразовывает в текст информацию, которую рассказывает педагог, и ответы ученика. Это позволяет сделать вывод об эффективности проводимого урока. Для анализа эмоций мы использовали готовые предобученные модели SpeechBrain.

Так, модуль анализа эмоций по полученному аудио и временным меткам произнесенных слов от модуля распознавания речи генерирует фрагменты спектрограмм, по которым производит предсказание. В результате модель выдает наиболее вероятную эмоцию из списка для фразы, а также вероятность этой эмоции. Точность модели составляет порядка 75%. Кстати, это сложная задача и для людей. По данным различных исследований, люди могут распознавать эмоции с точностью от 10 до 95% (в среднем около 65–70%). Можно сказать, что наша модель понимает эмоции не хуже, чем реальный человек.

Модуль анализа видео ищет на записи лицо и определяет направление взгляда. Подобную задачу можно решить при помощи специальных библиотек, например PyGaze, либо обучить собственную модель, что мы и сделали. В этом модуле с помощью сверточных нейронных сетей на видео ищутся наборы лендмарок, то есть основных точек лица. Затем определяются углы отклонения взгляда и поворота лица. На основе полученных значений, определяется, отвернулся человек или нет, отвлекается ли он.

В результате анализа система указывает, например, что в видео нет лица человека в течение такого-то времени, то есть ученик по какой-то причине вышел из кадра. Также в выходных данных система может заметить, если ученик отворачивался.

Результаты

Собранные данные помогают определить тенденции в эмоциональном фоне ученика и учителя; проанализировать вовлеченность учителя и ученика в процесс обучения; выявить паттерны поведения учителя; помогают модерировать работу учителя. Также выходные данные можно использовать в дальнейшем для прогнозирования интереса ученика к обучению.

Время на оценку качества сократилось в разы. ИИ присылает уведомления об уроках, которые, по мнению нейросети, прошли плохо. Методисты, в свою очередь, просматривают запись занятия и решают недочеты локально.

Успешный опыт взаимодействия с нейросетью вдохновил нас продолжать работу в этом направлении. В частности, мы смотрим в сторону LLM (больших языковых моделей). И мы планируем поставить эту модель на службу образования. Учитель в его современном виде — это больше про навыки общения, чем образование. А образование дают цифровые технологии.

Лучший способ чему-то научиться, помимо использования учебников, — это работать как раз с такими большими лингвистическими моделями. Их недостаток на данный момент заключается в том, что они сразу дают прямой ответ, не позволяя ученику самостоятельно мыслить. Мы планируем дорабатывать существующие или делать свою модель для того, чтобы она работала как настоящий учитель, задавая наводящие вопросы.