StudentPlus: Интеллектуальная система автоматизации обучения

XXIV Международный конкурс научно-исследовательских и творческих работ учащихся
Старт в науке

StudentPlus: Интеллектуальная система автоматизации обучения

Высоцков Е.А. 1
1МАОУ "Ангарский Лицей № 2"
Турбина Г.Н. 1
1МАОУ "Ангарский Лицей № 2"
Автор работы награжден дипломом победителя III степени
Текст работы размещён без изображений и формул.
Полная версия работы доступна во вкладке "Файлы работы" в формате PDF

Введение

Современные студенты и школьники сталкиваются с перегрузкой информации, что усложняет процесс обучения. Введение цифровых образовательных технологий значительно улучшает усвоение знаний, однако существующие платформы обладают рядом недостатков, таких как отсутствие персонализации и слабая интеграция с мультимедийными материалами. В данной работе рассматривается разработка системы StudentPlus, призванной решить эти проблемы и предложить инновационные инструменты автоматизации учебного процесса.

Образовательные технологии сегодня стремительно развиваются, но их интеграция в процесс обучения зачастую происходит фрагментарно. Одной из ключевых задач является создание комплексных систем, способных не только обрабатывать учебные материалы, но и адаптировать их под потребности конкретного пользователя. В данной работе будет подробно рассмотрена архитектура, функциональные возможности и перспективы развития платформы StudentPlus.

  1. Цель и задачи проекта

Цель проекта — создание интеллектуальной платформы, способной автоматизировать процесс обработки учебных материалов, персонализировать обучение и повысить его продуктивность за счет внедрения современных технологий искусственного интеллекта и машинного обучения.

Задачи:

  1. Разработка алгоритмов автоматической суммаризации текстов, аудио- и видеоматериалов, основанных на современных методах обработки естественного языка.

  2. Внедрение системы персонализированных рекомендаций, учитывающей интересы и уровень подготовки каждого пользователя.

  3. Разработка системы геймификации, повышающей мотивацию пользователей к регулярному обучению и саморазвитию.

  4. Создание удобного интерфейса взаимодействия, в том числе через телеграм-бота, обеспечивающего доступ к функционалу платформы в мобильном формате.

  5. Внедрение модуля для автоматического создания конспектов лекций на основе аудио- и видеозаписей.

  6. Разработка системы поиска научных статей по описанию.

  7. Внедрение системы лидербордов и награждений для повышения вовлеченности.

  8. Создание научного AI-ассистента с функцией поиска в научных базах данных.

  9. Разработка системы отслеживания прогресса пользователей для повышения эффективности обучения.

  10. Тестирование системы на целевой аудитории и анализ её эффективности с учетом обратной связи пользователей.

  1. Анализ существующих решений

На данный момент на рынке представлены несколько решений, предлагающих инструменты автоматической обработки учебных материалов. Среди них можно выделить платформы ChatGPT, SummarizeBot и TLDRThis. Однако эти решения обладают рядом ограничений:

  • Ограниченная точность обработки контента. Многие существующие алгоритмы не учитывают смысловой контекст, что приводит к потере важной информации при суммаризации.

  • Отсутствие интеграции с мультимедийными материалами. Существующие системы в основном ориентированы на обработку текстов, но не предлагают эффективных решений для анализа видео- и аудио-контента.

  • Недостаточная персонализация обучения. Большинство платформ не учитывают индивидуальные особенности пользователей, предоставляя одинаковые рекомендации для всех.

StudentPlus решает эти проблемы, внедряя усовершенствованные алгоритмы обработки информации и предлагая более персонализированный подход к обучению.

  1. Теоретическая основа проекта

Автоматическая суммаризация

Методы автоматической суммаризации можно разделить на две основные категории: экстрактивную и абстрактивную. Экстрактивная суммаризация отбирает наиболее значимые фрагменты текста, тогда как абстрактивная создает новый текст на основе анализа исходного материала.

Методы экстрактивной суммаризации:

  • TF-IDF (Term Frequency – Inverse Document Frequency) — статистический метод определения значимости слов в тексте.

  • TextRank — алгоритм ранжирования предложений по важности.

Методы абстрактивной суммаризации:

  • Transformer-based модели (BART, T5) — используют нейросетевые архитектуры для переформулирования текстов.

Машинное обучение в системе рекомендаций

Рекомендательные системы используют алгоритмы коллаборативной фильтрации и нейросетевые методы (например, BERT-based рекомендации) для анализа поведения пользователей и формирования персонализированного контента.

Геймификация

Эффективность обучения повышается за счет внедрения игровых механик:

  • Система достижений.

  • Награды за активность.

  • Прогресс-бары и уровни.

  1. Описание предлагаемого решения

Функционал

    1. Автоматическая обработка учебных материалов с сохранением ключевых идей.

    2. Генерация аудиоформатов учебных материалов.

    3. Персонализированная система рекомендаций.

    4. Внедрение элементов геймификации для повышения вовлеченности.

    5. Создание конспектов лекций по аудио- и видеозаписям.

    6. Поиск научных статей по заданному описанию.

    7. Внедрение системы лидербордов и награждений для стимулирования активности пользователей.

    8. Разработка AI-ассистента с доступом к научным базам данных для быстрого поиска информации.

    9. Система мониторинга прогресса студентов, предоставляющая аналитику и рекомендации по улучшению результатов.

  1. Схема работы суммаризации текста и метрики отдельных этапов

Схема работы модуля суммаризации текста и создания конспектов

 

На данной схеме представлено как работает агент, отвечающий за суммаризацию и преобразованию стилистики текста. Как вы можете видеть на схеме, полученный текст отправляется в модуль Sumy, на обработку, называющейся экстрактивной суммаризацией, после чего разбивается на чанки. Одновременно с этими процессами из текста ассинхронно извлекаются главные 5 слов, передающие основную идею текста. После чего полученные чанки ранжируются по релевантности к этим словам посредством сравнению косинусного расстояния векторов чанков и слов. Затем, полученные чанки отправляются в ядро модели, где проходят завершающую абстрактивную суммаризацию.

Оценка типов суммаризаций

Диаграмма выше демонстрирует результаты проведенного анализа разных типов суммаризации по различным метрикам качества. Как вы можете заметить, наилучшие результаты показала абстрактивная суммаризация, но, стоит заметить, что несмотря на это она довольно затратна.

Оценка аналогов LLM

График ниже визуализирует сравнение различных языковых моделей, доступных в России, как вы можете заметить Gigachat получил наивысшую оценку.

Оценка аналогов моделей озвучки

Озвучка книги – это ключ к вовлечению. Пользователи могут слушать книги в дороге или заниматься домашними делами. Слева представлена таблица сравнения моделей озвучки по метрике MOS, и здесь снова лидирует модель от Сбера - Salute Speech.
Справа приведено сравнение генеративных моделей для изображений. К сожалению для сравнения качества и связи с промптом изображений как таковой метрики не нашлось. По этому для исследования пришлось создавать свою систему. Как вы можете заметить, на представленной схеме промпт отправляется в генеративную модель. После чего, полученная картинка прогоняется через лидирующую в настоящее время модель openai, которая пишет описание для изображения. А уже затем исходный промпт и полученное описание сравниваются по метрике Bert Score. Таблица ниже иллюстрирует полученные результаты в ходе исследования. На этот раз модель Сбера Kandinsky не одержала победу и была выбрана Stable Diffusion XL.

Схема работы системы поиска статей по описанию

Схема ниже наглядно иллюстрирует алгоритм работы агента поиска научных статей по описанию. Запрос пользователя разбивается на ключевые слова, которые записываются в json и векторизуются. После, находятся релевантные вектора в собранной заранее базе данных, и выдаются несколько статей.

Схема работы агента ответов на вопросы

На данной схеме наглядно представлен следующий алгоритм:

  1. Текст главы книги извлекается из базы данных и разбивается на предложения

  2. Предложения и запрос пользователя векторизуются

  3. Находятся 5 релевантных предложений и импортируются в модель вместе с запросом

  4. Выводится ответ

 

Используемые технологии:

  • Библиотеки: Sumy, LangChain, OpenAI API.

  • Векторизация: SentenceTransformers, FAIS.

  • Разработка: Python, FastAPI, Telegram API.

  1. Результаты и тестирование

На этапе тестирования платформу использовали 28 студентов, из которых:

  • 87% отметили улучшение в подготовке к экзаменам.

  • 76% повысили свою продуктивность благодаря автоматизации.

Скриншоты отзывов демонстрируют восторженные комментарии пользователей:

  • «Теперь конспектирование занимает у меня минуты, а не часы!»

  • «Геймификация мотивирует как никогда раньше!»

  1. Личный вклад

В данном проекте все этапы работы были выполнены мной самостоятельно, без участия

команды. Я лично занимался следующими задачами:

  1. Формулирование цели и задач проекта: Самостоятельно определил цель и задачи

проекта, обосновал их актуальность и значимость.

  1. Анализ области исследования: Провел обзор литературы, изучил существующие

решения и методы, собрал и проанализировал необходимую информацию.

  1. Разработка методов: Разработал и обосновал методы, которые были использованы в

проекте. Выбрал подходящие инструменты и техники для достижения поставленных целей.

  1. Сбор и анализ данных: Самостоятельно собрал необходимые данные, провел их

анализ и интерпретацию.

  1. Реализация проекта: Выполнил все практические задачи, связанные с реализацией

проекта, включая эксперименты, моделирование и разработку прототипов.

  1. Оформление результатов: Подготовил текстовое описание и презентацию проекта,

оформил все материалы в соответствии с требованиями конкурса.

  1. Выводы и дальнейшее развитие

StudentPlus уже доказал свою эффективность на этапе тестирования. В будущем мы планируем:

  1. Интеграцию технологий AR/VR для создания виртуальных лекций.

  2. Расширение базы учебных материалов и локализацию на разные языки.

  3. Создание приложения для мобильных устройств.

  4. Внедрение функций группового обучения и совместной работы.

StudentPlus — это не просто платформа, а шаг в будущее образования.

Ссылка на метрики и документацию

Ссылка на github

Просмотров работы: 4