Использование ИИ для разработки собственной платформы
Наша команда из 17 человек создала платформу MeetProgKids. Кроме программистов в разработке участвовали лингвист, менеджер по развитию и методист. Вместе они научили искусственный интеллект анализировать эмоциональное состояние ребенка во время урока по записи видео- и аудиопотока.
В модуле анализа аудиозапись конвертируется в нужный формат при помощи FFmpeg, а за распознавание речи отвечает модифицированная версия SOVA ASR.
К выбору подходящего решения для распознавания речи мы подходили с особой тщательностью, потому что в дальнейшем проводился анализ распознанного текста. Выбор сделали в пользу SOVA ASR, потому что:
- эту систему можно использовать в коммерческой разработке;
- к ней можно подобрать языковые модели и, соответственно, улучшить качество распознавания;
- распознавание запускается локально, что позволяет защитить данные.
Тем не менее мы столкнулись с некоторыми проблемами. Так, SOVA ASR не позволяет обрабатывать файлы параллельно и с высокой скоростью, что особенно важно при анализе большого объема данных.
Как считываются эмоции с помощью детекции аудио и видео
Искусственный интеллект обрабатывает эмоции ученика с помощью видео. А по аудио, в свою очередь, распознает голоса, преобразовывает в текст информацию, которую рассказывает педагог, и ответы ученика. Это позволяет сделать вывод об эффективности проводимого урока. Для анализа эмоций мы использовали готовые предобученные модели SpeechBrain.
Так, модуль анализа эмоций по полученному аудио и временным меткам произнесенных слов от модуля распознавания речи генерирует фрагменты спектрограмм, по которым производит предсказание. В результате модель выдает наиболее вероятную эмоцию из списка для фразы, а также вероятность этой эмоции. Точность модели составляет порядка 75%. Кстати, это сложная задача и для людей. По данным различных исследований, люди могут распознавать эмоции с точностью от 10 до 95% (в среднем около 65–70%). Можно сказать, что наша модель понимает эмоции не хуже, чем реальный человек.
Модуль анализа видео ищет на записи лицо и определяет направление взгляда. Подобную задачу можно решить при помощи специальных библиотек, например PyGaze, либо обучить собственную модель, что мы и сделали. В этом модуле с помощью сверточных нейронных сетей на видео ищутся наборы лендмарок, то есть основных точек лица. Затем определяются углы отклонения взгляда и поворота лица. На основе полученных значений, определяется, отвернулся человек или нет, отвлекается ли он.
В результате анализа система указывает, например, что в видео нет лица человека в течение такого-то времени, то есть ученик по какой-то причине вышел из кадра. Также в выходных данных система может заметить, если ученик отворачивался.
Результаты
Собранные данные помогают определить тенденции в эмоциональном фоне ученика и учителя; проанализировать вовлеченность учителя и ученика в процесс обучения; выявить паттерны поведения учителя; помогают модерировать работу учителя. Также выходные данные можно использовать в дальнейшем для прогнозирования интереса ученика к обучению.
Время на оценку качества сократилось в разы. ИИ присылает уведомления об уроках, которые, по мнению нейросети, прошли плохо. Методисты, в свою очередь, просматривают запись занятия и решают недочеты локально.
Успешный опыт взаимодействия с нейросетью вдохновил нас продолжать работу в этом направлении. В частности, мы смотрим в сторону LLM (больших языковых моделей). И мы планируем поставить эту модель на службу образования. Учитель в его современном виде — это больше про навыки общения, чем образование. А образование дают цифровые технологии.
Лучший способ чему-то научиться, помимо использования учебников, — это работать как раз с такими большими лингвистическими моделями. Их недостаток на данный момент заключается в том, что они сразу дают прямой ответ, не позволяя ученику самостоятельно мыслить. Мы планируем дорабатывать существующие или делать свою модель для того, чтобы она работала как настоящий учитель, задавая наводящие вопросы.