202
0
0
Скопировать ссылку
Telegram
WhatsApp
Vkontakte
Одноклассники
Назад

Как у нас получилось использовать машинное зрение для улучшения аналитики

Время чтения 1 минута
Нет времени читать?
Скопировать ссылку
Telegram
WhatsApp
Vkontakte
Одноклассники
202
0
0
Нет времени читать?
Скопировать ссылку
Telegram
WhatsApp
Vkontakte
Одноклассники

Привет, я Сергей Жучков, основатель школы программирования и искусственного интеллекта для детей ProgKids. Я расскажу, как мы использовали нейросети для того, чтобы отследить и улучшить качество нашего продукта.

С помощью машинного зрения мы стали считывать и анализировать эмоции учеников во время обучения. Раньше мы тоже этим занимались, но привлекали для этого методистов школы. Они отсматривали записи уроков и проводили анализ образовательного процесса «вручную». Естественно, такой способ занимал большое количество времени и энергии. 

Именно поэтому возникла идея автоматизировать процесс и привлечь к решению задачи искусственный интеллект. Это позволило бы сделать оценку образования еще качественнее и освободить методистов от дополнительной нагрузки.

Как у нас получилось использовать машинное зрение для улучшения аналитики

Использование ИИ для разработки собственной платформы

Наша команда из 17 человек создала платформу MeetProgKids. Кроме программистов в разработке участвовали лингвист, менеджер по развитию и методист. Вместе они научили искусственный интеллект анализировать эмоциональное состояние ребенка во время урока по записи видео- и аудиопотока.

В модуле анализа аудиозапись конвертируется в нужный формат при помощи FFmpeg, а за распознавание речи отвечает модифицированная версия SOVA ASR. 

К выбору подходящего решения для распознавания речи мы подходили с особой тщательностью, потому что в дальнейшем проводился анализ распознанного текста. Выбор сделали в пользу SOVA ASR, потому что:

  • эту систему можно использовать в коммерческой разработке; 
  • к ней можно подобрать языковые модели и, соответственно, улучшить качество распознавания;
  • распознавание запускается локально, что позволяет защитить данные. 

Тем не менее мы столкнулись с некоторыми проблемами. Так, SOVA ASR не позволяет обрабатывать файлы параллельно и с высокой скоростью, что особенно важно при анализе большого объема данных.

Как считываются эмоции с помощью детекции аудио и видео

Искусственный интеллект обрабатывает эмоции ученика с помощью видео. А по аудио, в свою очередь, распознает голоса, преобразовывает в текст информацию, которую рассказывает педагог, и ответы ученика. Это позволяет сделать вывод об эффективности проводимого урока. Для анализа эмоций мы использовали готовые предобученные модели SpeechBrain. 

Так, модуль анализа эмоций по полученному аудио и временным меткам произнесенных слов от модуля распознавания речи генерирует фрагменты спектрограмм, по которым производит предсказание. В результате модель выдает наиболее вероятную эмоцию из списка для фразы, а также вероятность этой эмоции. Точность модели составляет порядка 75%. Кстати, это сложная задача и для людей. По данным различных исследований, люди могут распознавать эмоции с точностью от 10 до 95% (в среднем около 65–70%). Можно сказать, что наша модель понимает эмоции не хуже, чем реальный человек.

Модуль анализа видео ищет на записи лицо и определяет направление взгляда. Подобную задачу можно решить при помощи специальных библиотек, например PyGaze, либо обучить собственную модель, что мы и сделали. В этом модуле с помощью сверточных нейронных сетей на видео ищутся наборы лендмарок, то есть основных точек лица. Затем определяются углы отклонения взгляда и поворота лица. На основе полученных значений, определяется, отвернулся человек или нет, отвлекается ли он.

В результате анализа система указывает, например, что в видео нет лица человека в течение такого-то времени, то есть ученик по какой-то причине вышел из кадра. Также в выходных данных система может заметить, если ученик отворачивался.

Результаты

Собранные данные помогают определить тенденции в эмоциональном фоне ученика и учителя; проанализировать вовлеченность учителя и ученика в процесс обучения; выявить паттерны поведения учителя; помогают модерировать работу учителя. Также выходные данные можно использовать в дальнейшем для прогнозирования интереса ученика к обучению.

Время на оценку качества сократилось в разы. ИИ присылает уведомления об уроках, которые, по мнению нейросети, прошли плохо. Методисты, в свою очередь, просматривают запись занятия и решают недочеты локально.

Успешный опыт взаимодействия с нейросетью вдохновил нас продолжать работу в этом направлении. В частности, мы смотрим в сторону LLM (больших языковых моделей). И мы планируем поставить эту модель на службу образования. Учитель в его современном виде — это больше про навыки общения, чем образование. А образование дают цифровые технологии. 

Лучший способ чему-то научиться, помимо использования учебников, — это работать как раз с такими большими лингвистическими моделями. Их недостаток на данный момент заключается в том, что они сразу дают прямой ответ, не позволяя ученику самостоятельно мыслить. Мы планируем дорабатывать существующие или делать свою модель для того, чтобы она работала как настоящий учитель, задавая наводящие вопросы.

Комментарии0
Тоже интересно
Комментировать
Поделиться
Скопировать ссылку
Telegram
WhatsApp
Vkontakte
Одноклассники