Автореферат на тему «Алгоритмические и программные средства распознавания речи на основе скрытых марковских моделей для телефонных служб поддержки клиентов»

Общая характеристика работы. Актуальность темы исследований. В связи с развитием вычислительной техники и информационных технологий особый интерес стали вызывать вопросы взаимодействия человека с компьютерами и компьютеризированными устройствами.

Скачать пример Заказать работу Скачать пример Заказать работу

Сегодня применение речевых технологий в прикладных программах в качестве дополнительного или отдельного средства взаимодействия человека с вычислительным устройством становится всё более частым.

Системы автоматического распознавания речи используются и продолжат быть востребованными в самых разнообразных областях: при стенографии медицинских операций, при управлении голосом различными процессами, машинами, в ряде компьютерных игр, для установления прямой речевой связи с поисково-информационными системами.

Автоматическое распознавание речи может быть использовано как для идентификации и верификации личности по голосу в телефонных службах поддерж- ки клиентов (англ. call-center), так и для последующего анализа работы таких служб. Поэтому разработка новых систем распознавания речи, позволяющих повысить эффективность процессов обработки данных в вычислительных машинах с использованием современных методов, является большой, актуальной и перспективной научно-технической задачей, решению которой посвящена данная работа.

Кроме того, актуальность исследований подтверждают:

Научно-исследовательские центры, в том числе: Массачусетский технологический университет, Стэнфордский университет, Исследовательский центр речевых технологий IBM, Центр речевых технологий, Лаборатория проблем теоретической кибернетики (университет МГУ имени М. В. Ломоносова), Лаборатория речевых и многомодальных интерфейсов (СанктПетербургский институт информатики и автоматизации РАН).
Публикации в международных журналах («Speech and Audio Processing»).
Международные научно-технические конференции (Interspeech — крупнейшая ежегодная конференция (1993–2015 гг.)).
Различные программно-технические разработки: Dragon Naturally Speaking компании Nuance, встроенное речевое управление в ОС Windows, речевой поиск

Решению различных теоретических и практических проблем распознавания речи посвятили свои работы ведущие зарубежные учёные и специалисты Lea W. A., Pierce J. R., Baum L. E., Viterbi A. J., Bakis R., Juang B. H., Gold B., Jelinek F., Welch P. D., Vaseghi S. V., Flanagan J. L., Tebelskis J., Oppenheim A. V., Rabiner L., Winters-Hilt S., а также отечественные специалисты Гольденберг Л. М., Поляк М. Н., Матюшкин Б. Д., Мясников Л. Л., Винтцюк Т. К., Сапожков М. А., Сорокин В. Н., Галунов В. И., Леднов В. А., Мазуренко И. Л., Ронжин А. Л., Аграновский А. В., Хитров М. В., Чучупал В. Я. и другие.

Цель диссертационной работы — повышение точности распознавания речи за счёт создания модифицированного алгоритма распознавания речи на основе скрытых марковских моделей и его программной реализации для применения в работе телефонных служб поддержки клиентов.

Для достижения цели были поставлены и решены следующие задачи:

1. Анализ современных алгоритмов и программных средств автоматического распознавания речи, выявление существующих научных проблем.

2. Совершенствование алгоритмов распознавания речи, основанных на скрытых марковских моделях, за счет:

а) использования дополнительной информации о длительности состояний;

б) применения различных критериев поиска оптимальной последовательности состояний.

3. Определение необходимого размера словаря для конкретной предметной области телефонной службы поддержки клиентов.

4. Разработка системы распознавания речи, использующей:

а) модифицированный алгоритм Витерби;

б) ограниченный речевой словарь с возможностью модификации; в) перплексию из трёх слов с возможностью модификации.

5. Исследование разработанного алгоритма и системы распознавания речи с целью определения их эффективности и особенностей внедрения. Научная новизна работы заключается в том, что в ходе выполнения работы получены следующие новые научные результаты:

1. Разработана модификация алгоритма Витерби, обеспечивающая повышение точности распознавания за счёт введения дополнительной информации о длительности состояний модели.

2. Экспериментально получена оценка нижней границы достаточного размера словаря четырёх предметных областей, не связанных между собой, значение которой составляет 2500 слов для конкретной предметной области телефонной службы поддержки при эффективном распознавании речи.

Нужна помощь в написании автореферата?

Мы - биржа профессиональных авторов (преподавателей и доцентов вузов). Наша система гарантирует сдачу работы к сроку без плагиата. Правки вносим бесплатно.

Заказать автореферат

3. Разработана система, учитывающая частоту использования слов в конкретной предметной области и обеспечивающая при этом увеличение скорости распознавания.

Практическая значимость результатов работы заключается в следующем:

1. Разработана система, реализующая более точное соответствие речевому сигналу, в которой для наиболее редких слов значение метрики OOV (англ. Out-of-Vocabulary — количество внесловарных слов) не превышает 6%.

2. Данная система программно реализована в виде отдельного модуля, связывающего набор библиотек HTK (Hidden Markov Toolkit) и систему анализа и учёта звонков телефонной службы поддержки клиентов.

3. В результате использования данной системы распознавания речи в телефонной службе поддержки клиентов ООО «Системные решения» значение важнейшей для данной области метрики FCR (англ. First Call Resolution — разрешение проблемы за первый звонок) повышено со значения 65–75% до значения 72–79% (для различных причин звонка).

4. Результаты диссертации используются в компании ООО «Энката Технолоджис СПб» при построении системы автоматического распознавания речи. Методы исследований основаны на теории вероятностей, теории информации, законе Парето, статистическом анализе данных, а также включают методы автоматного и объектно-ориентированного программирования, математические методы аппроксимации.

На защиту выносятся следующие положения:

Модификация алгоритма Витерби, повышающая точность распознавания речи на 2–5%.
Система, обеспечивающая более точное соответствие речевому сигналу даже в случае «кэш-промаха».
Программная реализация предложенной системы, способной работать в квазиреальном масштабе времени при использовании её в качестве средства визуализации речи в телефонных службах поддержки клиентов.
Результаты численных экспериментов по оценке эффективности использования разработанной системы в телефонной службе поддержки клиентов. Достоверность научных положений, выводов и практических рекомендаций, полученных в диссертации, подтверждается корректным обоснованием постановок задач, точной формулировкой критериев, сравнением с аналогами, обсуждением материалов на 13 конференциях, а также актами внедрения на практике.

Апробация результатов работы. Основные положения диссертационной работы представлены и обсуждены на IV-й межвузовской конференции молодых ученых (СПб., 2007), V-й, VI-й, VII-й, VIII-й всероссийских межвузовских конференциях молодых ученых (СПб., 2008–2011), XXXVII-й, XXXVIII-й, XXXIX-й, XL-й, XLIV-й научных и учебно-методических конференциях Университета ИТМО (СПб., 2008–2011, 2015), всероссийской научно-технической конференции «Интеллектуальные и информационные системы» (Тула, 2009); IX-й международной научно-практической конференции «Исследование, разработка и применение высоких технологий в промышленности» (СПб., 2010); II-й международной конференции «Informatics and Management Science» (Словакия, 2013).

Реализация и внедрение результатов работы. Основные результаты работы внедрены в учебном процессе на кафедре вычислительной техники Университета ИТМО, при выполнении НИР № 610481 «Разработка методов и средств системотехнического проектирования информационных и управляющих вычислительных систем с распределенной архитектурой», НИР № 340725 «Исследование и разработка методов повышения робастности алгоритмов автоматического распознавания русской слитной речи в условиях сложной акустической обстановки в режиме реального времени» (ID RFMEFI57514X0033), а также в компаниях ООО «Энката Технолождис СПб» и ООО «Системные решения» (Москва), что отражено в актах о внедрении.

Награды. В 2010 году автор стал победителем конкурса грантов Правительства Санкт-Петербурга для аспирантов и был утверждён на стипендию Президента Российской Федерации на 2010–2011 учебный год.

Публикации. По теме диссертации опубликовано 10 научных работ, в том числе семь статей, из которых две опубликованы в научных журналах из перечня ВАК.

Личный вклад. Основные результаты работы, вывод и рекомендации по повышению эффективности телефонных служб поддержки, изложенные в диссертации, получены автором самостоятельно. В работах, опубликованных в соавторстве, личный вклад автора заключается в выполнении аналитических расчётов, практических экспериментов, реализации программных решений и статистическом анализе полученных результатов.

Структура и объём диссертации. Диссертационная работа состоит из введения, четырёх глав, заключения, списка литературы и приложения, содержащего материалы, подтверждающие внедрение результатов диссертации. Объём диссертационной работы составляет 127 страниц машинописного текста. Работа содержит 28 рисунков и 16 таблиц, список литературы содержит 127 источников, включая работы отечественных и зарубежных авторов.

Содержание работы

Во введении обосновывается актуальность темы диссертации, формулируется цель, задачи и методы исследования, научная новизна и практическая значимость работы, а также положения, выносимые на защиту.

В первой главе диссертационной работы рассматриваются области применения распознавания речи, общая терминология и основные понятия. Приводится хронология развития методов и алгоритмов автоматического распознавания речи, числовые характеристики эффективности существующих решений. Более подробно рассматриваются современные методы построения систем распознавания и причины использования скрытых марковских моделей (СММ).

Скрытая марковская модель представляет собой конечный автомат, изменяющий свое состояние в дискретные моменты времени. Модель описывает вложенные стохастические процессы, когда реально наблюдаются только события внешнего процесса, а события некоторого скрытого процесса не наблюдаются непосредственно — они могут быть определены только из наблюдений внешнего процесса.

В работе основное внимание уделяется распознаванию последовательности фонем, преобразованию данной последовательности к отдельным словам и анализу слова с точки зрения фразы целиком. Это обусловлено тем, что существующие методы шумоочистки и преобразования сигнала обеспечивают желаемые результаты, но распознавание и синтаксический анализ применительно к конкретным предметным областям по-прежнему нуждаются в оптимизации.

Составлен обзор рынка программных средств распознавания речи в нескольких временных срезах: 1976, 1998, 2007, 2009 и 2011 годы. Проведён анализ рынка программных средств разработки распознавания речи с начала 1990-х годов. Установлено, что для дальнейшего исследования и разработки предпочтительным средством является продукт Кембриджского университета HTK Toolkit, представляющий собой портативное инструментальное средство для построения и использования скрытых марковских моделей применительно к распознаванию речи.

Определены главные научные проблемы современных систем распознавания речи:

Недостаточная точность распознавания речи.
Недостаточная скорость распознавания.
Малая робастность существующих систем, которая определяется отношением времени работы без задержек («зависания») с заявленной производителем точностью ко всему времени работы системы.

Во второй главе диссертации описаны три основные задачи при использовании СММ в распознавании речи. Подробно рассмотрены алгоритмы для решения следующих задач: алгоритмы прямого вычисления вероятности появления последовательности наблюдений, алгоритмы поиска оптимальной последовательности состояний и алгоритмы подстройки параметров модели.

Одним из критериев для выбора алгоритма является его трудоёмкость, определяемая вычислительной сложностью в числе базовых операций (напри- мер, умножения, сложения). В рамках диссертационного исследования составлена сравнительная характеристика рассмотренных алгоритмов.

Проведённые эксперименты по сравнению существующих алгоритмов показали, что при использовании многокритериальной оптимизации (точность распознавания и скорость распознавания) алгоритм Витерби является предпочтительным. Кроме того, именно алгоритм Витерби является наиболее распространённой процедурой оптимизации СММ. Это дает право утверждать, что алгоритм Витерби является оптимальным для исследований в области максимизации точности модели и, тем самым, повышения точности распознавания речи.

В настоящей работе предложено использовать несколько иной критерий, основанный на моделировании длительности состояний. Схожие подходы рассматривались Л. Рабинером (1979), T. Yoshimura (2000), С. Икониным и Д. Сараной (2003), S. Winter-Hilt (2006, 2010) и M. Dewar (2012). Отличием предложенной модификации является введение нижнего порога длительности состояний. При этом максимизируется не предыдущее состояние, а длительность текущего.

Модифицированный алгоритм Витерби обеспечивает увеличение точности распознавания за счёт следующих положений:

Нахождение максимальной вероятности соответствия модели исходному речевому сигналу на основе использования информации о длительности состояния и плотности вероятности этой длительности.
Автоматическое разрешение проблемы равновероятных переходов, поскольку в этом случае выбирается направление перехода на основе информации о длительности текущего состояния.

В работе произведена оценка вычислительной сложности стандартного и модифицированного алгоритмов. Модифицированный алгоритм уступает по объёму памяти, но в 8–12 раз быстрее осуществляет восстановление модели (получает информацию о времени нахождения модели в каждом из состояний) с учётом уже имеющейся информации о длительности каждого состояния.

В третьей главе работы исследуются размеры речевых словарей и особенности их использования при распознавании речи.

С одной стороны, меньший словарь обеспечивает более высокую скорость распознавания. С другой стороны, существует высокая вероятность неправильного распознавания редкого слова. Для определения необходимого размера словаря используется метрика OOV.

В ходе эксперимента к объёму исходных данных итерационно добавлялись 250 слов. В каждой итерации наблюдалось уменьшение числа новых уникальных слов (от 190 во второй итерации до 50 в последней). В результате сокращался и рост общего размера словаря для каждой предметной области. Все четыре исследованные предметные области, не связанные между собой, показали схожие результаты и динамику изменения. Дополнительная проверка на других шести предметных областях подтвердила результаты первоначальных экспериментов. Следовательно, при наличии исходных данных по конкретной предметной области в виде 10000 слов можно создать речевой словарь данной области размером около 2500 слов (рисунок 2). Однако учитывая, что русский язык является флегтивным языком, данный размер может быть увеличена в пять-семь раз для покрытия всего существующего в языке числа словоформ. Сформированный словарь позволит получить точность выше 90% при использовании его в системе автоматического распознавания речи.

В результате определён размер словаря русской речи, который может быть признан словарём для конкретной (усреднённой) предметной области телефонной службы поддержки клиентов. Под усреднённой предметной областью в работе понимается малая область знаний, в которой затрагивается лишь несколько конкретных вопросов. В качестве примеров можно привести: использование лучевой терапии при лечении онкологических заболеваний, операции с банковскими картами, логистические маршруты, бронирование билетов в турфирме.

В работе показывается, что каждая из исследуемых предметных областей имеет большую долю уникальных слов (71…74%), что свидетельствует о правильности рассуждений об уникальной усреднённой предметной области. Также около 20% слов технического и инновационного текста являются общими. Это свидетельствует о том, что небольшое расширение предметной области не окажет существенного влияния на размер словаря.

Нужна помощь в написании автореферата?

Заказать автореферат

Дополнительным подтверждением экспериментально полученного значения является графическое решение задачи оптимизации точности и скорости распознавания по отношению к размеру словаря. В результате проведённых исследований с использованием комбинации пяти вероятных словарей телефонных служб поддержки получено значение в размере около 2600 слов (рисунок 3). Значение в пять секунд выбрано как пороговое для задержки распознавания, поскольку превышение данного порога будет оказывать влияние на работу оператора.

В результате предлагается система автоматического распознавания речи, использующая модифицированный алгоритм Витерби и возможность модификации размера речевого словаря (рисунок 4). В данной системе кроме поиска последовательности состояний СММ, соответствующих речевому сигналу, итеративно накапливается и используется информация о частоте использования слова, о сроке его нахождения в речевом словаре и т. д.

Предлагается учитывать в системе связность слов или так называемую перплексию (ряд исследователей называют перплексией N-граммные модели). Связность учитывает число слов, которые логически могут встретиться после данного слова, и может повысить точность распознавания речи, поскольку многие вопросы, задаваемые клиентами, имеют достаточно четкий синтаксис.

Отличительной особенностью предложенной системы является дополнительная возможность модификации перплексии как самой системой, так и оператором, что увеличит «кэш-попадание».

Речевой словарь для экспериментов содержал 1867 слов и составлен по результатам прослушивания звонков телефонной службы поддержки системного интегратора «Системные решения» (таблица 1).

Таблица 1 – Соотношение связанных слов и перплексии в языковой модели

Число связанных слов

в языковой модели

Перплексия

1867

243

180

491

702

Следовательно, преимуществами предложенной системы являются:

Возможность более тщательного контроля работы телефонной службы поддержки.
Возможность точнее записывать, лучше обрабатывать и анализировать запросы клиентов.
Возможность сокращения числа дополнительных и повторных звонков. Проведённый эксперимент показал, что в большинстве случаев (74% исследуемых звонков) последовательность вопросов является прогнозируемой. Таким образом, зная последовательность вопросов, оператор сможет не только отвечать на вопросы, но и задавать уточняющие вопросы, что поможет избежать повторных звонков.

В четвёртой главе представлены результаты экспериментальных исследований и технические характеристики реализованных программных модулей.

Для оценки эффективности работы обновлённой системы были взяты звонки 13 операторов ООО «Системные решения».

Для исключения взаимовлияния случайным образом были выбраны данные за две непоследовательные недели работы этих операторов. Результаты приведены в таблице 2.

Таблица 2 – Точность распознавания

Длитель- ность состояния в отсчётах, d	Точность распознавания при общем числе слов G = 1800, %		Коэффициент Стьюдента
			минимально допустимый табличный	эксперимен- тальный при сравнении средних
	без учёта перплексии	с учётом перплексии	минимально допустимый табличный	эксперимен- тальный при сравнении средних
—	82.51±0.39	85.02±0.31	2.0086	41.3473
10	84.69±0.51	87.96±0.50	2.0086	26.2725
15	87.86±0.57	91.33±0.30	2.0086	33.8332
20	86.07±0.40	90.13±0.31	2.0086	65.5705
25	83.88±0.45	84.97±0.49	2.0086	9.8735

В HTK Toolkit были введены ранее описанные дополнительные переменные, и был программно реализован модуль связи HTK Toolkit и системы обработки звонков телефонной службы поддержки.

Проведённые исследования показали, что предложенная система может с успехом использоваться для опредления причины звонка и снижения числа повторных звонков. Это приводит к снижению общего числа звонков, снижению операционных расходов телефонной службы поддержки и к улучшению (увеличению) основной метрики FCR, определяющей работу всей телефонной службы поддержки.

В системе анализа и учёта звонков ООО «Системные решения» число звонков с конкретной причиной увеличилось, а за счет дальнейшего анализа повысилось и значение метрики FCR с 65–75% до 72–79%, что снижает расходы на работу телефонной службы поддержки. Исследованные звонки были распознаны со скоростью около 95 слов в минуту.

Кроме того, введение в систему распознавания речи блока семантического анализа (рисунок 4) позволяет повысить именно семантическую точность распознавания и ещё улучшить значение метрики FCR. Для этого составлен словарь ключевых синонимичных терминов и произведено ранжирование ключевых слов на основе экспертной оценки, так как в одном звонке клиента может быть несколько причин. Также в разработанной системе имеется возможность модификации семантического анализа менеджером. Благодаря использованию семантического анализа, метрика FCR увеличилась до 78–86%.

Метрика NCA (англ. Next Call Avoidance — избегание последующих звонков) была улучшена (повышена) c 85–90% на 7–9%. Данная метрика оценивает процент звонков, после которых в течение определённого периода не появляется звонок от того же клиента со связанной проблемой (вопросом).

В заключении приведены основные результаты исследования и сформулированы выводы.

Основные результаты работы

В диссертации получены следующие результаты:

1. Составлена классификация систем распознавания речи по ряду признаков в нескольких временных срезах.

Нужна помощь в написании автореферата?

Заказать автореферат

2. Проведён анализ рынка программных средств разработки распознавания речи с начала 1990-х годов. На основании данного анализа установлено, что набор библиотек Кембриджского университета HTK Toolkit является предпочтительным средством для дальнейшего исследования и разработки.

3. Рассчитана трудоёмкость алгоритмов на основе скрытых марковских моделей.

4. Разработана модификация алгоритма Витерби, обеспечивающая увеличение точности распознавания.

5. Экспериментально получены размеры словаря ряда предметных областей, не связанных между собой. Результаты всех областей оказались схожими, что позволило сделать вывод о нижней границе размера речевого словаря, равной 2500 слов, для эффективного распознавания речи. Для флегтивных языков данный размер может увеличиться в пять-семь раз для покрытия всех словоформ.

6. В систему анализа и учёта звонков компании ООО «Системные решения» добавлена реализованная система автоматического распознавания речи.

7. Проведены численные эксперименты для определения изменения точности распознавания речи при различных значениях речевого словаря, перплексии и дополнительных переменных модифицированного алгоритма Витерби.

8. Представлены экспериментальные оценки времени работы системы, загрузки процессора и точности распознаваемой информации. Точность распознавания речи повышена на 2–5%. Значение метрики OOV не превышает 6%, что является сопоставимым с аналогами (Google Voice и Dragon Naturally Speaking).

9. Получены значения основных метрик оценки эффективности телефонных служб поддержки клиентов: FCR и NCA. Они заметно улучшены в работе телефонной службы поддержки клиентов ООО «Системные решения» на 11–13% и 7–9% соответственно, немного превысив значения аналогичных систем (NICE, Крок).

Список публикаций по теме диссертации

1. Балакшин П.В. Повышение точности алгоритмов распознавания речи на основе скрытых марковских моделей // Научно-технический вестник СПб-

ГУ ИТМО. Вып. 46. — СПб: СПбГУ ИТМО, 2008. — C. 232–237. — 0,4 п.л. —
1819-222Х (из перечня журналов ВАК).
2. Балакшин П.В., Петров Г.Ю. Некоторые аспекты исследования систем распознавания речи в телефонных службах поддержки // Научно-технический вестник информационных технологий, механики и оптики. — СПб: СПбНИУ ИТМО, 2012. — Вып. 1. — № 77. — С. 71–76. — 0,4/0,3 п.л. — ISSN 2226- 1494 (из перечня журналов ВАК).
3. Балакшин П.В. Распознавание речи: развитие или предел? // ИНТЕЛЛЕКТУАЛЬНЫЕ И ИНФОРМАЦИОННЫЕ СИСТЕМЫ: Материалы Всероссийской научно-технической конференции / ТулГУ. — Тула, 2009. — C. 49–51. — 0,2 п.л.
4. Балакшин П.В., Тропченко А.Ю. Выбор размера словаря при реализации тестовой системы распознавания речи // ИНТЕЛЛЕКТУАЛЬНЫЕ И ИНФОРМАЦИОННЫЕ СИСТЕМЫ: Материалы Всероссийской научно-технической конференции / ТулГУ. — Тула, 2009. — C. 51–54. — 0,25/0,2 п.л.
5. Балакшин П.В., Тропченко А.Ю. Развитие и применение алгоритмов распознавания речи для скрытых марковских моделей // Сборник трудов молодых учёных и сотрудников кафедры ВТ. Вып. 1. — СПб: СПбГУ ИТМО, 2010. — С.66–70. — 0,3/0,25 п.л.
6. Балакшин П.В. Перспективы использования распознавания речи в коллцентрах // Сборник тезисов докладов конференции молодых ученых. — Вып. 1. — СПб: СПбГУ ИТМО, 2010. — C. 5. — 0,05 п.л.
7. Балакшин П.В. Особенности использования распознавания речи в работе колл-центров // Сборник трудов IX Международной научно-практической конференции «Исследование, разработка и применение высоких технологий в промышленности». — СПб: СПбГПУ, 2010. — Т. 3. — С. 35–37. — 0,2 п.л.
8. Балакшин П.В. Функция плотности длительности состояний СММ. Преимущества и недостатки // Современные проблемы науки и образования. — 2011. — № 1 — С. 36–39. — 0,25 п.л.
9. Балакшин П.В. О тестировании систем автоматического распознавания речи // Сборник тезисов докладов конференции молодых ученых. — Вып. 1. — СПб: СПбГУ ИТМО, 2011. — С. 104–105. — 0,15 п.л.
10. Balakshin P.V., Tropchenko A.Yu., Sadovnikov E.A. Usage of the speech recognition system in analysis of call center work // Proceedings in Conference of Informatics and Management Science. — Slovak Republic, 2013. — P. 277–280. — 0,25/0,2 п.л. — ISSN 1139-23IX.

Предыдущий пример

Следующий пример