Голосовые помощники

XXII Международный конкурс научно-исследовательских и творческих работ учащихся
Старт в науке

Голосовые помощники

Голубовская Е.Р. 1
1МБОУ ОЦ "ФЛАГМАН"
Лашина Т.С. 1
1МБОУ ОЦ "ФЛАГМАН"
Автор работы награжден дипломом победителя III степени
Текст работы размещён без изображений и формул.
Полная версия работы доступна во вкладке "Файлы работы" в формате PDF

ВВЕДЕНИЕ

Цель: Исследование работы голосовых помощников и нахождение их проблем.

Задачи:

  1. Изучение голосовых помощников

  2. Выявление проблем и поиски их решения

  3. Улучшение внедрения голосовых помощников в жизни людей

Актуальность: Голосовые помощники активно развиваются, распространяясь во все сферы жизни людей, особенно популярны голосовые помощники такие как Siri, Google Assistant, Яндекс Алиса, Viv, Ozlo.

Проблема: Присутствие распространённых проблем, которые мешают использованию голосовых помощников.

Методы: Эксперимент, сравнение, анализ.

Разработанность проблемы: Многие web-сайты, видео рассказывают нам о голосовых помощниках, их пользе, плюсах и минусах, принципах работы: https://club.dns-shop.ru/blog/t-78-smartfonyi/47887-zachem-nujnyi-golosovyie-pomoschniki-kakie-byivaut-i-chto-umeut/, https://academy.yandex.ru/journal/kak-ustroena-rabota-golosovykh-pomoschnikov, https://yandex.ru/video/preview/17744846984384779511?from=tabbar&parent-reqid=1698422532062856-10382454840562072590-balancer-l7leveler-kubr-yp-sas-54-BAL-8758&text=голосовые+помощники, https://www.youtube.com/watch?v=orxOk365bFk&t=28s.

Этапы работы:

  1. Теоретическая часть – ноябрь 2023

Анализ проблем голосовых помощников, поиск информации:

  1. Проблемы восприятия голосовых команд

  2. Частое отсутствие систематизации выключения голосового помощника

Итог этапа – информация о проблемах голосовых помощников.

  1. Аналитическая часть – ноябрь 2023 - январь 2024

  2. Заключение – январь 2024

1.Теоретическая часть

Что такое голосовые помощники?

Голосовые помощники – это искусственный интеллект, который выполняет поставленную задачу, распознавая речь человека и обрабатывая огромное количество информации. Для правильного выполнения поставленной задачи голосовой помощник проходит пять этапов работы:

  1. Избавляется от посторонних шумов

  2. Преобразует звук в цифровой код

  3. Распознаёт отдельные слова и ищет смысловую связку между ними

  4. Сверяет полученные данные с шаблонами и при нахождении ошибки, просит повторить запрос

  5. Выдаёт ответ, связанный с интересами пользователя

Более подробно о работе ГП:

Активность подсистемы происходит от ввода голосовой команды. Полученный сигнал преобразуется в цифровую форму и подвергается фильтрации внешнего шума. Кроме всего прочего, преобразованный сигнал отправляется в подсистему идентификации. В этой подсистеме сначала делается запрос к базе данных сигналов, чтобы распознать команду. Если введенные и сохраненные сигналы совпадают, обнаружение считается успешным, и команда передается на исполняющее устройство, которое выполняет определенное действие. Если голосовая команда не распознается, система возвращается к началу — вводу голосовой команды, и алгоритм действий повторяется снова до получения положительного результата, то есть до тех пор, пока голосовая команда не будет распознана.

Многие считают, что голосовые помощники используются только в поисковых системах, но это не так, ведь они также используются для помощи в управлении данными на телефоне, планшете, ноутбуке, компьютере. Голосовые помощники используются для управления «Умным домом».

История

1950 и 1960

Первые системы распознавания речи могли понимать только цифры (учитывая сложность языка, это правильно, что инженеры сначала сфокусировались на цифрах). Bell Laboratories разработали систему «Audrey», которая распознавала цифры, сказанные одним голосом.

Через 10 лет, в 1962 году, IBM продемонстрировала их детище — систему "Shoebox", которая понимала 16 слов на английском.Лаборатории в США, Японии, Англии и СССР разработали еще несколько аппаратов, которые распознавали отдельные произнесенные звуки, расширив технологию распознавания речи поддержкой четырех гласных и девяти согласных звуков. Звучали они не очень хорошо, но эти первые попытки дали впечатляющий старт, особенно если учитывать, насколько примитивными были компьютеры того времени.

1970-е

Системы распознавания речи сделали большие шаги в семидесятых благодаря интересу и спонсированию от министерства обороны США. Их программа DARPA Speech Understanding Research (SUR) с 1971 по 1976 год была одной из самой большой в истории распознавания речи, и помимо всего остального она отвечала за систему «Harpy» Университета Карнеги Меллона. «Harpy» понимала 1011 слов, что является средним словарным запасом трехлетнего ребенка.

«Harpy» была значительной вехой, так как она представила более эффективный подход к поиску, называемый Beam search, «демонстрируя сеть возможных предложений с конечным числом состояний» ( Readings in Speech Recognition).

70-е годы также отмечены еще несколькими вехами в данной технологии, например основанием первой коммерческой компании Threshold Technology, которая представила систему, которая могла интерпретировать различные голоса.

1980-е

В следующей декаде благодаря новым подходам и технологиям словарный запас подобных систем вырос с нескольких сотен до нескольких тысяч слов и имел потенциал распознавания неограниченного количества слов. Одной из причин был новый статистический метод, больше известный как скрытая марковская модель.

Используя шаблоны для слов и звуковые паттерны, она рассматривала вероятность того, что неизвестные звуки могли быть словами. Эта база использовалась другими системами еще на протяжении двадцати лет (Automatic Speech RecognitionA Brief History of the Technology Development).

С расширенным словарным запасом распознавание речи начало протаптывать себе дорожку в коммерческие приложения для бизнеса и специализированных отраслей, таких как медицина. Она даже вошла в дома обычных людей в 1987 году в виде куклы Worlds of Wonder's Julie doll, которые дети могли натренировать, чтобы она распознавала их голос («Наконец-то кукла, которая тебя понимает»).

Хоть ПО по распознаванию могло распознавать до 5000 слов, как, например, программа Kurzweil text-to-speech, в них был огромный недостаток — эти программы поддерживали дискретную надиктовку, то есть вы должны были останавливаться после каждого слова, чтобы программа его обработала

1990-е

В девяностых компьютеры наконец-то получили быстрые процессоры, и программы по распознаванию речи стали жизнеспособными. в 1990 году появилась первая общедоступная программа Dragon Dictate c ошеломляющей ценой 9000 долларов. Спустя семь лет вышла улучшенная версия — Dragon NaturallySpeaking. Приложение распознавало нормальную речь, поэтому вы могли говорить в обычном темпе около 100 слов в минуту. Но все равно, вы должны были тренировать программу в течении 45 минут перед использованием, и она имела все еще высокую цену в 695 долларов.

Появление первого голосового портала VAL от BellSouth было в 1996 году. Это была первая интерактивная система распознавания речи, которая давала информацию, основываясь на том, что вы сказали в трубку телефона. VAL вымостила дорогу для всех неточных на то время голосовых меню, которые надоедали звонящим в следующие 15 лет.

2000-е

К 2001 году распознавание речи поднялось до 80-процентной точности, и прогресс технологии остановился. Системы распознавали работали отлично, когда языковая вселенная была ограниченной, но они до сих пор «догадывались» при помощи статистических моделей среди похожих слов, языковая вселенная росла вместе с ростом Интернета.

Технология распознавания речи получила второе дыхание после одного важного события: появления приложения Google Voice Search для iPhone. Влияние этого приложения было значительным по двум причинам. Во-первых, телефоны и другие мобильные девайсы — это идеальные объекты для распознавания речи, и желание заменить крошечные экранные клавиатуры альтернативными методами ввода было очень велико. Во-вторых, у Google была возможность разгрузить этот процесс, используя свои облачные дата-центры, направив всю их мощь для крупномасштабного анализа данных для поиска совпадений между словами пользователей и огромного числа образцов голосовых запросов, которые они получали.

Вкратце, узким местом распознавания речи всегда было доступность данных и возможность эффективной их обработки. Приложение же добавило к анализу данные миллиардов поисковых запросов, чтобы лучше предугадывать, что же вы сказали.

В 2010 году Google добавил персональное распознавание в голосовой поиск телефонов под управлением Android. Программное обеспечение могло записывать голосовые запросы пользователей для построения более точной голосовой модели. Также компания добавила распознавание голоса в свой браузер Chrome в середине 2011 года. Так вот система Google теперь позволяет распознать 230 миллиардов слов. Потом появилась Siri. Так же, как и система Goggle Voice Search, она полагается на облачные вычисления. Она использует те данные, которые ей известны о тебе, чтобы сгенерировать вытекающий из контекста ответ и отвечает на твой запрос, как некая личность. Распознавание речи превратилось из инструмента в развлечение.

Плюсы и минусы голосовых помощников.

Так как голосовые помощники воспринимают речь человека, а она в четыре раза быстрее печатания запроса, можем выделить плюсы:

  1. Удобность для применения в любых ситуациях.

  2. Быстрота выполнения запросов.

  3. Озвучивание результатов поиска.

Мы также можем выделить минусы голосовых помощников:

  1. Неудовлетворительное исполнение запросов, связанное с неправильным определением интересов пользователя.

  2. Частое неправильное распознавание слов и смысловых связей между ними.

Отношение людей к голосовым помощникам.

Люди в большинстве используют голосовые помощники из-за быстроты нахождения информации. Также озвучивание результатов поиска является одним из главных плюсов для людей. Хоть люди и видят проблемы голосовых помощников, но продолжают их использовать, ведь голосовые помощники являются быстро развивающимся проектом, в котором с течением времени исправляют ошибки и недоработки.

2.Аналитическая часть

Чтобы более подробно понять принцип работы голосовых помощников, а также рассмотреть их плюсы и минусы, нужно сравнить несколько голосовых помощников и просмотреть статистику покупок голосовых помощников.

Рассмотрим два голосовых помощника: Яндекс Алиса и Google Assistant. Оба ГП входят в топ 3 лучших ГП по рейтингу сайта blog.eldorado.ru, который представлен в статье «Топ-6 лучших голосовых помощников». Статистика покупок показывает, что ГП очень популярны, например, blog.skillfactory.ru заявляет, что в 2021 было продано 2,9 миллиона умных колонок и других устройств с ГП, этот же сайт предоставляет информацию о лидере продаваемых ГП – Яндекс Алиса составил 70% продаж.

Рассматривая ГП более подробно, я считаю нужным рассмотреть именно станции, потому что станции более сложные устройства, это поможет нам выявить большее количество проблем, которые мы могли не заметить при использовании голосовых помощников с телефона, компьютера или другого устройства.

2023

Яндекс Алиса

Google Assistant

Понятность и лёгкость подключения станции

Лёгкая и понятная инструкция подключения через приложение или сайт

Лёгкая и понятная инструкция подключения через приложение

Чёткость распознавания голосовых команд

Хорошо распознаёт голосовые команды

Распознаёт голосовые команды с небольшими погрешностями

Быстрота выполнения запросов

Быстрое выполнение запросов

Быстрое выполнение запросов

Выдача нужного пользователю ответ

Хорошо выполняет поставленные задачи, лишь в редких случаях ошибается

Хорошо выполняет поставленные задачи, редко ошибается

Необходимость покупки дополнений для комфортного использования

В дополнениях нет необходимости

Может отлично работать без дополнений

Приятность использования

10/10

9/10

Чтобы понять насколько голосовые помощники развились за 4 года, сравним старые и новые станции от тех же Яндекс и Google.

2019

Яндекс Алиса

Google Assistant

Понятность и лёгкость подключения станции

Лёгкая и понятная инструкция подключения через приложение или сайт

Лёгкая и понятная инструкция подключения через приложение

Чёткость распознавания голосовых команд

Распознаёт голосовые команды с некоторыми погрешностями

Распознаёт голосовые команды с некоторыми погрешностями

Быстрота выполнения запросов

Быстрое выполнение запросов

Быстрое выполнение запросов

Выдача нужного пользователю ответ

Выдаёт правильный ответ, бывают осечки

Выдаёт правильный ответ, бывают осечки

Необходимость покупки дополнений для комфортного использования

Даже если дополнения и нужны устройств реализующие не хватающие элементы отсутствуют

Приятность использования

5/10

6/10

Не только пользовательское мнение важно в оценке голосовых помощников, но и специалистов, которые разбираются в этой теме, или люди, которые непосредственно связаны с разработкой голосовых помощников. В отличии от простых пользователей специалисты обращают внимание на качество выполнения внутренних процессов голосовых помощников, самыми важными критериями для оценки ГП являются: операционная система, поддержка языка, взаимодействие с «Умным домом», особенности, проблемы. Оценим по этим критериям несколько голосовых помощников.

ГП _________Критерии

Яндекс Алиса

Google Assistant

Apple Siri

Viv

Ozlo

Операционная система

Windows, Android

Windows, Android, iOS

iOS

Windows

iOS

Поддержка языка

Русский

Английский, датский, испанский, итальянский, корейский, немецкий, нидерландский, норвежский, португальский , французский, хинди, шведский, японский

Английский, французский, немецкий, японский

Английский

Английский

Взаимодействие с «Умным домом»

Есть

Нет

Есть

Нет

Нет

Особенности

Понимает нечеткую речь

Быстро воспринимает информацию

Понимает естественную речь

Понимает сложные вопросы

Находит и объединяет данные с нескольких источников

Проблемы

Несовместимость с многими приложениями

Излишняя инициативность

Не взаимодействует с другими приложениями

Подробное описание не учитывается при выполнении задач

Ограниченные возможности поиска информации

Безусловно, на первый взгляд преимущества голосовых помощников вполне очевидны. В настоящее время люди хотят немедленно получать информацию в Интернет-пространстве. Ритм и особая динамика жизни не позволяют тратить много времени на текстовые интерфейсы, а справочные службы финансовых учреждений, государственных структур, а также самых востребованных телефонных сервисов в современных реалиях переполнены пользовательскими обращениями. В этом контексте голосовые помощники способны в некотором роде спасти положение и решить определенные проблемы.

3.Заключение

Голосовые помощники стали тесно связаны с нашими ежедневными делами. Люди настолько привыкли к ним, что уже не могут обойтись без них. Новые технологии настолько быстро вникают в нашу повседневную жизнь, что уже и самим людям приходится обучаться правилам использования гаджетов. Среди компаний, производящих и создающих голосовых ассистентов, с каждым днем возрастает конкуренция. Несомненно, эта борьба позволит победителям получить потрясающий набор информации, который в последствие сможет стать бесконечным источником для обеспечения не только конкурентного преимущества, но и очень солидного дохода.

4.Информационные источники

  1. https://moluch.ru/archive/360/80416/

  2. http://school2-obl.ru/wp-content/uploads/2020/09/Голосовые-помощники-в-повседневной-жизни-человека.pdf

  3. https://cyberleninka.ru/article/n/golosovye-pomoschniki/viewer

  4. https://habr.com/ru/articles/510986/

  5. https://journal.tinkoff.ru/best-smart-assistants/

Просмотров работы: 23