Цифровой аватар в помощь людям с речевыми проблемами

XXVI Международный конкурс научно-исследовательских и творческих работ учащихся
Старт в науке

Цифровой аватар в помощь людям с речевыми проблемами

Гамзаев П.Р. 1
1МБОУ "СШ № 43" г. Норильска
Михно Л.Б. 1
1МБОУ "СШ № 43" г. Норильска
Автор работы награжден дипломом победителя I степени
Текст работы размещён без изображений и формул.
Полная версия работы доступна во вкладке "Файлы работы" в формате PDF

Введение

Речевые нарушения представляют собой одну из наиболее актуальных проблем современной логопедии и нейропсихологии. Они могут возникать как следствие различных факторов, таких как органические поражения головного мозга, травмы, врожденные аномалии развития, а также психоэмоциональные расстройства. Нарушения речи оказывают значительное влияние не только на коммуникативные способности человека, но и на его социальную адаптацию, профессиональную деятельность и качество жизни в целом.

Проблема коммуникации является одной из ключевых для людей с речевыми нарушениями. И хотя современные технологии предлагают множество решений, таких как голосовые помощники и системы распознавания речи, но они не всегда удовлетворяют потребности этой категории людей.

Гипотеза: мы предполагаем, что созданный с помощью искусственного интеллекта аватар способен помочь людям с речевыми нарушениями.

Цель работы: изучить проблемы людей с речевыми нарушениями и создать прототип такого аватара, которого можно адаптировать под индивидуальные нужды каждого пользователя и обеспечить человеку комфортное взаимодействие с окружающим миром.

Задачи:

  1. Выяснить, какие типы нарушения речи существуют, какие проблемы при этом возникают у людей;

  2. Изучить уже имеющиеся технические возможности для людей с речевыми нарушениями (голосовые помощники, текстовые интерфейсы, системы распознавания речи и т.д.), выяснить их плюсы и минусы;

  3. Создать аватар с помощью ИИ, наделив его определенными задачами;

  4. Проанализировать результаты, сделать вывод.

Актуальность. Данная работа актуальна, так как описывает новые возможности, которые позволяют помочь людям. Цифровые помощники могут существенно повысить качество жизни людей с ограниченными возможностями, способствуют устранению барьеров между людьми с различными особенностями здоровья и обществом. Цифровой аватар может быть настроен под индивидуальные потребности каждого пользователя, учитывая особенности его речи, восприятия и предпочтений. Это делает помощь максимально эффективной и удобной для конкретного человека. Цифровой помощник может стать дополнительным инструментом обучения для детей и подростков с речевыми нарушениями. Цифровой аватар позволяет таким людям более эффективно взаимодействовать с окружающими, участвуя в повседневной жизни, работе и учебе.

В работе использованы такие методы, как метод сравнения, анализ данных, обобщение, опрос.

  1. Основная часть

    1. Что такое дефекты речи? Типы дефектов речи

Дефект речи — неспособность верно произносить звуки во время разговора. Происходит это из-за неправильного функционирования речевого аппарата.Виды дефектов речи:

1. Фонетические дефекты

Это нарушения произношения отдельных звуков речи (например, шипящих, свистящих, сонорных). Они могут быть вызваны различными причинами, такими как анатомические особенности артикуляционного аппарата, неврологические проблемы или недостаточное развитие фонематического слуха.

Примеры фонетических нарушений:

  • Дислалия – неправильное произношение одного или нескольких звуков без органических поражений органов артикуляции.

  • Ринолалия – нарушение тембра голоса и искажение звуков при наличии расщелины нёба или других аномалий строения носоглотки.

2. Фонематические дефекты

Нарушения восприятия и различения звуков речи. Многие дети часто путают звуки, близкие по звучанию (например, «с» и «ш», «б» и «п»). Эти дефекты могут привести к трудностям в обучении чтению и письму.

3. Дизартрия

Это расстройство произносительной стороны речи, вызванное органическими поражениями центральной нервной системы. Проявляется в виде нарушения иннервации мышц, участвующих в артикуляции, что приводит к смазанности, нечеткости речи, проблемам с голосом и дыханием.

4. Алалия

Отсутствие или недоразвитие речи вследствие поражения корковых зон мозга, ответственных за речь. Может проявляться как моторная алалия (трудности с формированием слов), так и сенсорная алалия (проблемы с пониманием речи).

5. Заикание

Нарушение ритма и плавности речи, характеризующееся повторением или пролонгацией звуков, слогов, слов, а также частыми остановками в речи. Заикание может сопровождаться мышечным напряжением и страхом перед речью.

6. Ринофония

Искажение тембра голоса, которое проявляется в его гнусавости. Может возникать из-за различных причин, таких как аденоиды, искривление перегородки носа, травмы лица и т.д.

Также у людей, перенёсших инсульт, часто наблюдаются нарушения речи, такие как афазия (потеря способности понимать или воспроизводить речь), дизартрия (расстройство произносительной стороны речи) и другие проблемы.

Для коррекции всех вышеперечисленных дефектов используются различные логопедические упражнения, направленные на восстановление речи и коммуникативных способностей. Вот несколько примеров таких упражнений.

1. Произношение звуков и слогов

Начинают с простых звуков и постепенно переходят к более сложным сочетаниям.

Примеры:

  • Произнесение гласных звуков (а, о, у, э, ы).

  • Произнесение согласных звуков (б, п, м, н, т, д).

  • Слоговое проговаривание (ба-па-ма-на-та-да).

  1. Чтение вслух

Чтение помогает тренировать артикуляцию и улучшает понимание текста.

Примеры:

  • Чтение коротких предложений или стихов.

  • Проговаривание каждого слова медленно и четко.

3. Запоминание и повторение слов

Упражнение направлено на восстановление словарного запаса и улучшение памяти.

Примеры:

  • Называние предметов на картинках.

  • Запоминание списка слов и их повторение.

    1. Обзор существующих решений и технологий

Такие технологии, как виртуальные ассистенты и цифровые аватары, сегодня активно развиваются и могут существенно улучшить жизнь людей с речевыми проблемами.Вот лишь несколько интересных трендов и технологий:

  • Голосовые помощники

Голосовые помощники стали неотъемлемой частью нашей жизни. Они помогают нам управлять устройствами, искать информацию, устанавливать напоминания и многое другое. Самые популярные голосовые помощники – это Siri от Apple, Google Assistant, Алиса от Яндекса и Маруся от Mail.Group

Преимущества:

  • Удобство использования – можно просто говорить команды, не нужно ничего печатать.

  • Доступность – большинство современных смартфонов уже имеют встроенные голосовые ассистенты.

  • Интеграция с другими сервисами – например, можно попросить включить музыку или заказать еду.

Недостатки:

  • Ограниченная функциональность – пока что голосовые помощники могут выполнять только базовые задачи.

  • Проблемы с пониманием сложных команд или акцентов.

  • Необходимость чётко произносить команды, что вызывает проблемы у людей с речевыми нарушениями.

  • Текстовые интерфейсы

Текстовые интерфейсы – это программы, которые позволяют взаимодействовать с компьютером посредством текста. Самый известный пример – это чат-боты, которые могут отвечать на вопросы пользователей, помогать с покупкой товаров или предоставлением услуг.

Преимущества:

  • Простота использования – достаточно написать сообщение, чтобы получить ответ.

  • Возможность автоматизации многих задач, например, создание расписания встреч или заказ билетов.

  • Высокая доступность – можно использовать практически на любом устройстве с доступом к интернету.

Недостатки:

  • Ограниченность функционала – многие задачи требуют более сложного взаимодействия, чем просто обмен сообщениями.

  • Необходимость постоянного подключения к интернету для работы большинства чат-ботов.

  • Системы распознавания речи

Системы распознавания речи позволяют компьютерам понимать человеческую речь и преобразовывать её в текст. Это технология используется во многих приложениях, включая голосовых помощников, диктофоны и переводчики.

Преимущества:

  • Повышение удобства использования устройств – можно диктовать тексты вместо того, чтобы их печатать.

  • Улучшение доступности для людей с ограниченными возможностями – например, для тех, кто не может пользоваться клавиатурой.

  • Широкие возможности применения – от создания документов до управления умным домом.

Недостатки:

  • Ошибки при распознавании речи – особенно если речь быстрая или с акцентом.

  • Зависимость от качества микрофона и окружающей среды – шум может мешать корректному распознаванию.

Таким образом, перечисленные выше технологии имеют свои сильные и слабые стороны. Важно понимать эти аспекты, чтобы максимально эффективно использовать данные технологии и минимизировать возможные риски.

    1. Анализ потребностей целевой аудитории

У каждой из перечисленных технологий есть определенные недостатки, но возможности искусственного интеллекта позволяют нам создать аватара под конкретные потребности. Цифровой помощник, созданный специально для людей с речевыми дефектами, способен удовлетворять множество потребностей, облегчая жизнь и повышая качество их взаимодействия с окружающим миром. Вот несколько ключевых аспектов, в которых такой аватар может оказать значительную помощь:

1. Коммуникация

Преобразование текста в речь: Люди с речевыми дефектами могут использовать цифровой помощник для того, чтобы озвучить написанный ими текст. Это помогает общаться с окружающими, когда произношение затруднено или невозможно.

Ответы на телефонные звонки и сообщения: Помощник может ответить на звонок или сообщение, воспроизводя текст, написанный ему пользователем.

2. Доступ к информации

Поиск информации: Помощник может находить нужную информацию в интернете, книгах, документах и других источниках, читая ее вслух или показывая на экране.

Чтение книг и статей: Помощник может воспроизводить голосом загруженные в него текстовые материалы, а человек – слушать или повторять за ним.

3. Образование и саморазвитие

Помощь в обучении: Цифровой помощник может читать учебники, объяснять сложные термины, помогать с выполнением домашних заданий и тестов.

Языковая практика: Для людей, изучающих иностранные языки, помощник может служить тренажером для произношения и понимания речи.

4. Управление бытовой техникой и «умным домом»

Голосовое управление устройствами: Управление освещением, температурой, бытовой техникой и другими элементами умного дома становится проще благодаря голосовому управлению.

Напоминания и будильники: Помощник может напоминать о важных событиях, встречах, приеме лекарств и других ежедневных делах.

5. Социальная интеграция и профессиональная деятельность

Участие в общественных мероприятиях: Голосовой помощник может сопровождать человека на конференциях, семинарах, выставках, помогая ему участвовать в обсуждениях и презентациях

6. Психоэмоциональная поддержка

Мотивация и поддержка: Помощник может подбадривать, мотивировать, давать советы и рекомендации, помогая справляться с трудностями.

Разговорный партнер: В моменты одиночества или стресса цифровой помощник может выступать в роли собеседника, поддерживая разговор и отвлекая от негативных мыслей.

В целом, цифровой аватар является мощным инструментом, который помогает людям с речевыми проблемами жить полноценной жизнью, улучшать качество общения и интегрироваться в общество.

  1. Практическая часть

    1. Цифровой аватар. Алгоритм создания

Что такое цифровой аватар?

Цифровой аватар – это виртуальный образ человека, который создается с помощью компьютерных программ и технологий. Он может быть использован для различных целей, включая общение, обучение и даже медицинскую помощь. Аватар может имитировать речь, мимику и жесты реального человека, что делает его идеальным инструментом для взаимодействия с людьми, которые имеют проблемы с речью.

Современные технологии создания цифрового аватара

Современные технологии позволяют создавать очень реалистичные цифровые аватары. Одним из ключевых компонентов является технология распознавания речи (Speech Recognition), которая позволяет аватару понимать, что говорит человек, и реагировать соответствующим образом. Также используются технологии компьютерного зрения (Computer Vision) для анализа мимики и жестов пользователя, чтобы сделать взаимодействие более естественным.Кроме того, важным аспектом является использование нейронных сетей (Neural Networks) для обучения аватара на больших объемах данных. Это позволяет ему лучше понимать контекст разговора и адаптироваться к индивидуальным особенностям каждого пользователя. Для создания цифрового аватара мы сначала использовали платформу Visper, поскольку она очень проста и доступна в использовании.

Алгоритм создания аватара с помощью платформы Visper

1. Для начала необходимо осуществить вход на платформу, так как доступ к функционалу нейросети получают только авторизованные пользователи. После авторизации вы сможете создавать ролики с нуля или на основе готовой презентации в формате pptx или pdf.

2. Чтобы создать видео с нуля, необходимо нажать на кнопку «Новый ролик», выбрать формат видео (горизонтальный или вертикальный), пол (мужской, женский) и тип персонажа (реалистичный, анимационный или фото), загрузить аудио или ввести текст для озвучки в специальное поле.

3. Для создания видео на основе презентации нужно кликнуть по соответствующей кнопке. В разделе «Общее» откроется доступ к основным настройкам. Для более детальной настройки ролика служат три дополнительных раздела, расположенных ниже. Перейдем к разделу «Аватар» и рассмотрим доступные параметры.

4. Во встроенной библиотеке находятся 18 женских и 11 мужских реалистичных персонажей. Диктор может быть виден до пояса или в полный рост, для некоторых из них доступны жесты (кнопки в правом верхнем углу). Ниже располагаются настройки для выбора языка и интонации голоса персонажа. Для женских голосов заложено 4 интонации (жизнерадостный, добрый, новостной и бодрый), для мужских – 3 (уверенный, бодрый, нейтральный). Далее идет настройка внешнего вида слайда – можно менять размер и положение диктора, а также добавлять на задний план фотографии и видео. Изображение может заполнять слайд полностью либо частично (второй шаблон слева) – по умолчанию помещается в правый верхний угол, при необходимости может перемещаться вручную. Для добавления изображения нажмите на кнопку «Загрузите фото или видео». По желанию вы можете добавить фоновую музыку – выбрать трек из предложенных вариантов или добавить собственный, в формате mp3. Речь диктора можно загружать в текстовом или аудио формате (раздел «Текст»). При желании можно расставлять ударения и паузы, замедлять или ускорять произношение. После того как все настройки выполнены, вводим название ролика и нажимаем на кнопку «Сгенерировать». Аватар готов.

Созданный аватар оказался достаточно примитивным, поэтому мы использовали еще одну платформу – HeyGen. Здесь возможностей гораздо больше. Можно загрузить видеозапись с собственным изображением и голосом, и программа создаст твоего аватара по образу и подобию. Данная технология позволяет создавать собственных аватаров учителю или родителям. Ребенок, выполняя речевые упражнения, будет видеть не чужое лицо, а знакомое.

Упражнения, которые предлагает выполнить аватар, нам подсказала педагог-дефектолог школы С. В. Прокофьева. Мы провели эксперимент и под руководством педагога попробовали применить цифровой аватар на занятиях с детьми. Школьникам очень понравилось выполнять упражнения вместе с цифровым помощником.

Недостатки и ограничения

Несмотря на все преимущества, использование цифровых аватаров имеет и некоторые недостатки:

1. Зависимость от технологий: Для работы аватара необходимо стабильное подключение к интернету и современные устройства, что может быть недоступно некоторым пользователям. Сервис находится на стадии тестирования, периодически вводятся новые функции и совершенствуются старые, поэтому иногда случаются сбои в работе.

2. Ограниченные возможности: Бесплатный тариф ограничивает создание видеороликов по времени.

Тем не менее, мы надеемся, что в скором времени усовершенствование данных программ сделает их доступными каждому.

Заключение

Вывод. Цифровой помощник для людей с речевыми проблемами способен значительно облегчить их жизнь, сделав её более комфортной, независимой и наполненной. Он помогает в коммуникации, образовании, управлении бытовыми задачами и социальной интеграции, становясь незаменимым помощником в повседневной жизни. Доступность и простота создания и применения цифровых аватаров открывает большие возможности их использования для широкого круга людей.

Список источников

  1. Бачурин М.В., Велиуллаев В.М., Солодовник Д.П. Применение методов искусственного интеллекта в решении проблем коммуникации людей с дефектами речи/ - ФГАОУ ВО «УрФУ имени первого Президента России Б.Н. Ельцина», Екатеринбург, 2023. -УДК 616.89-008.434.3

  2. Саманта Андерер, Юлин Схвен. Цифровые аватары и персонализированные голоса - Как искусственный интеллект помогает восстановить речь пациентам/ - Институт неврологии Вейля в Сан-Франциско, США, 2024.

  3. Черепанова Ю.Е., Плакса В.О., Вафина Ю.Б. Инновационные технологии в восстановлении речевых функций при афазии. –Научно-исследовательская статья. - Москва, «Вестник МГПУ», 2023. – УДК 376-056.264

  4. Дефекты речи. Задержка речевого развития [Электронный ресурс]. URL: https://mcmost.com/defekty-rechi/

  5. Инструмент для создания виртуального персонажа [Электронный ресурс]. URL: https://visper.tech/main

  6. Инструмент для создания виртуального персонажа [Электронный ресурс]. URL:https://www.heygen.com/?sid=rewardful&via=amul

  7. Онлайн мастер-класс «Виртуальный преподаватель в цифровой образовательной среде», авторский канал Дмитрия Иванченко [Электронный ресурс]. URL: https://t.me/digital_librarian

Просмотров работы: 45