Научная статья на тему «Поиск признаков лжи в письменном тексте: современные методы и подходы»

АННОТАЦИЯ. На основе анализа научной зарубежной литературы установлено, что выявление маркеров лжи в письменном тексте должно проводиться на большом корпусном материале реальных, а не художественных текстов. Необходимо применять методы NLP для автоматического извлечения значений параметров текстов и определять веса таких параметров с использованием современного аппарата матстатистики.

Скачать пример Заказать работу Скачать пример Заказать работу

ABSTRACT

On the basis of analysis of modern foreign studies it has been found that revealing lie markers in a written text should be performed on large corpus of real, not fiction, texts. It is essential to apply NLP methods for automatic extraction of the values of text parameters and for determining the weights of such parameters with the use of modern methods of mathematic statistics.

Ключевые слова: лингвистика лжи; ложь, маркеры лжи, текст, корпусная лингвистика.

Keywords: linguistics of lie, lie, lie markers, text, corpus linguistics.

Как было отмечено нами ранее (см. статью Литвиновой и др. «Прогнозирование истинности/ложности высказывания как одно из направлений моделирования личности автора письменного текста» в настоящем сборнике), выявление маркеров лжи в письменном тексте (языковые маркеры лжи, далее — ЯМЛ) — задача, только недавно получившая освещение в российской лингвистике. В данном вопросе в российской науке приоритет принадлежит психологам, но выводы в основном интуитивны, сделаны для отдельных жанров (в частности, показаний), не апробированы на большом корпусном материале с привлечением математических методов анализа данных.

В зарубежной науке, однако, уже несколько лет предпринимаются попытки поиска маркеров лжи в письменном тексте путем применения методов статистической обработки и обработки естественного языка (NLP)[1]. Так, в 2012 году американские учёные из SAS Institute разработали своеобразный детектор лжи — программное обеспечение для проверки текстов на правдивость. SAS Institute, известный своими разработками систем безопасности для банков и телефонных компаний, представил программный продукт, который анализирует любой текст в электронном виде (например, содержание электронной почты) и находит в нём признаки лжи.

«Языковые конструкции меняются, когда человек неуверен, сомневается или лжёт, — сообщил Питер Доррингтон (Peter Dorrington), менеджер SAS. — Наша программа сравнивает основные слова и грамматические конструкции с текстами, выбранными в качестве образцов или, если хотите, эталонов и в результате обнаруживает вероятную неправду. Это может не быть ложью — просто неуверенность или сомнение» [8]. Отметим, что человек без специальной подготовки определяет ложность/истинность письменного сообщения с точностью, лишь на немногим превышающей случайную величину [5].

Мы не можем проверить валидность данной программы, т. к. ее нет в открытом доступе, однако факт их создания говорит о внимании к данной проблеме. Мы считаем, что современное состояние науки пока еще не позволяет создавать эффективные программные средства для идентификации лжи в письменном тексте, однако убеждены, что математические методы и методы такой области наук, как обработка естественного языка, должны использоваться для анализа данных и установления корреляций между тем или иным языковым параметром и истинностью/ложностью текста.

Однако письменная речь как носитель маркеров лжи лишь недавно стала предметом изучения ученых и на Западе. В основном изучалась устная речь. Первый метод зародился в 1950-х годах, когда Undeutsch (он и ввел в оборот термин «лингвистика лжи») разработал технику для анализа рассказов детей, содержащих обвинения взрослых в жестоком обращении. В широком смысле между ложными и правдивыми высказываниями есть существенные различия [9]. Следовательно, лжецов можно идентифицировать — не по тому, что они говорят, а по тому, как они говорят.

В предыдущих исследованиях было убедительно доказано, что существуют ЯМЛ как в устной, так и в письменной речи (Buller, Burgoon, Buslig and Roiger 1996; Burgoon, Buller, Afifi and Feldman 1996; Zuckerman et al. 1981). Материалом такого рода исследований в зарубежной науке выступали в основном интервью, допросы, наблюдения. Большинство исследований связано с ручной обработкой данных. В связи с этим необходимо искать объективные маркеры, которые легко вычислить и классифицировать. К тому же эти ЯМЛ должны быть независимыми от контекста. Современные возможности NLP, как представляется, помогут установить новые ЯМЛ.

Работа Automating Linguistics—Based Cues for Detecting Deception in Text—based Asynchronous Computer—Mediated Communication (2004) [12] одна из первых затрагивает проблему автоматизации выявления лжи в письменном тексте. Проведенный авторами эксперимент проверял эффективность такого подхода на материале текстов интернет-коммуникации, не предполагающих мгновенный ответ. 27 маркеров из предыдущих исследований были объединены в 9 групп. Показано, что языковой анализ эффективен для выявления лжи в тексте; некоторые из проанализированных маркеров были очень эффективны, другие не показали эффективности; были выявлены новые эффективные маркеры лжи. Показано, что установление таких параметров невозможно без наличия большого корпуса текстов и их анализа с применением NLP (морфологических и синтаксических парсеров, таггеров и пр.).

Авторы указывают на то, что поиски ЯМЛ и работы по автоматическому распознаванию лжи ведутся в настоящее время обособленно, что неправильно. До настоящего времени компьютер использовался лишь для того, чтобы сделать статистический анализ, а значения языковых параметров извлекаются вручную (Akehurst et al. 1995; Höfer et al. 1996; Köhnken et al. 1995; Ruby and Brigham 1998; Sporer 1997; Vrij et al. 2000).

Авторы делают вывод о том, что, несмотря на все сложности, автоматизированное определение лжи в тексте — достижимая цель, но крайне необходимы дополнительные исследования для того, чтобы найти эффективные маркеры лжи и технические средства для работы с более сложными маркерами. Значительные результаты, полученные в данном исследовании, показали, что вычислительный метод является очень полезным для решения данной проблемы.

Сложные маркеры, требующие, например, глубокого семантического анализа, безусловно, могут быть эффективны, но их рассмотрение замедляет процесс автоматизации нахождения маркеров.

В работе Verification and Implementation of Language—Based Deception Indicators in Civil and Criminal Narratives (2008) [3] исследователями ставилась задача определить ложные и правдивые сообщения в транскрибированных текстах с использованием NLP. Исследователи проанализировали имеющие работы по языковым маркерам лжи, затем была проведена автоматическая разметка имеющегося корпуса. После этого по частотностям параметров текста можно определить, ложный или правдивый текст перед нами. Отметим, что корпус полностью составлен из реальных текстов из практики работы полиции — допроса, показаний участников уголовного дела и пр. Каждый текст был размечен с позиции ложный/правдивый. Математический аппарат – дерево регрессий. Полученная модель определяла ложность/правдивость высказываний с точностью 69,7 %, причем 93 % ложных высказываний были верно классифицированы. Отметим, что в данном случае были также применены экспертные оценки, и математическая модель намного превосходила по точности распознавания истинных/ложных утверждений экспертов.

Работа On Lying and Being Lied To: A Linguistic Analysis of Deception in Computer-Mediated Communication (2008) [6] посвящена исследованию изменений как в речи лжеца, так и в речи его собеседника на материале текстов синхронной интернет-коммуникации. Анализ 242 транскрибированных записей обнаружил, что лжецы продуцируют более длинные тексты, используют больше слов, связанных с каналами восприятия (видеть, слышать), используют меньше местоимений для самореференций, больше — для наименования других людей. Кроме того, мотивированные лжецы избегали каузаций, а немотивированные употребляли много отрицаний. Партнеры по диалогу также изменяли свое речевое поведение в случаях бесед со лжецами, хотя и не знали о самом факте лжи. Они задавали больше вопросов, предложения становились короче, а также изменяли определенные характеристики речи в соответствии с таковыми у лжецов.

О важности изучения маркеров лжи именно в письменном дискурсе может свидетельствовать тот факт, что к примеру, агентов ФБР для выявления лжи в показаниях подозреваемых учат так называемому анализу высказываний (statement analysis). Перед допросом агент просит подозреваемого сначала изложить на бумаге свою версию событий, читает ее, анализирует со следующих позиций: частей речи — это основа метода (лицо глаголов, местоимений и пр., при этом содержание текста не анализируется); с позиций речевой избыточности; с позиций появления слов категории возможности; тема-рематическая структура предложения; а затем уже строит допрос, исходя из проведенного анализа (подробнее см. в работе сотрудницы ФБР S.H. Adams [2]). Также письменная речь в силу своей природы (материальный носитель всегда имеется) более пригодна для анализа, чем речь устная. Важно: необходимо получить от испытуемого образцы правдивых текстов (например, просят написать, как он провел сегодняшний день), чтобы знать, что для него является нормой, какие отклонения следует искать в тексте.

Позже в своей диссертации (2002) она продолжила и развила исследования на данную тему. База исследования — реальные тексты 60 подозреваемых и потерпевших, истинность/ложность которых была известна. Построенная автором регрессионная модель, использовавшая языковые маркеры лжи, позволила классифицировать тексты с точностью 81,2 %. Оценены веса каждого параметра текста в модели определения истинности/ложности. Автор делает вывод, что исследование подтвердило гипотезу Undeutsch (1967) о том, что правдивые тексты отличаются от ложных как по структуре, так и по наполнению.

Правоту такого подхода доказывают и другие поздние исследования. Так, авторы работы 2003 года Lying Words: Predicting Deception From Linguistic Styles [7] при помощи компьютерной программы составили своеобразный лингвистический профиль лжи и затем предсказывали ложность/истинность высказываний из контрольной выборки. Исследование показало, что особое внимание следует уделять не содержательному уровню текста, а грамматическому, в частности, служебным словам и местоимениям. Лживые тексты менее сложны, в них меньше самоотсылок, больше отрицаний и слов с отрицательной оценочностью.

Магистерская диссертация Zhang (2010) LingCues — A Linguistic Cues Software Tool For Text-based Automatic Deception Detection Research [11] посвящена описанию разработанного автором программного обеспечения (LingCues) для автоматизированного определения лжи в письменном тексте. Программа автоматически вычисляет значения параметров текста, которые, по предыдущим исследованиям, признаны релевантными для решения данной задачи. С помощью программы можно создать новые языковые ключи и использовать их в исследованиях.

В своей магистерской диссертации Caroline Amie Connell (2012) [4] систематизирует и продолжает исследовать языковые маркеры лжи. Участники эксперимента писали правдивые и лживые утверждения на тему Маркеры были разделены на 4 группы: связанные с негативными эмоциями, с отстраненностью от автора; с желанием показаться правдивым, с высокой мыслительной нагрузкой, связанной с ложью. Было показано, что вес этих маркеров неодинаков в реальном сообщении. Опять исследуются тексты интернет-коммуникации. Опять утверждается, что такие тексты легко поддаются NLP, хотя эта задача только начинает решаться. Сделан вывод, что маркеры зависят от типа личности и от ситуации.

Мы видим, что почти все из проанализированных нами работ датированы 2011—2012 годами, что говорит о том, что данная проблема только начинает разрабатываться, причем разрабатываться активно, находится, что называется, «на переднее крае» науки.

Мы считаем, что для проверки различительной способности маркеров лжи, обнаруженных на материале других языков (в основном для американского английского), и выявления новых маркеров следует создать корпус текстов, обработать его с применением современных средств NLP, затем оценить веса тех или иных маркеров для выявления ложного текста.

Затем ложные тексты можно представить аудитории для оценки (аргументированной) ею степени их достоверности, дабы уяснить, какие из маркеров лжи распознаются адресатами.

При выборе характеристик текста, способных быть маркерами лжи, необходимо в первую очередь опираться на те, которые могут быть извлечены из текста автоматически. На настоящий момент самыми надежными являются морфологические парсеры, определенную точность дают синтаксические парсеры. Семантические анализаторы к настоящему времени дают очень много ошибок и были исключены из исследования.

На основе многочисленных оценок разных методов и парсеров мы выбрали свободно распространяемый парсер фирмы Xerox как наиболее надежный и достоверный, а также предлагающий широкие возможности в плане разнообразия выявляемых параметров. Мы выбрали в качестве базовой программы для анализа письменного текста и транскрибированных записей устной речи программу GATE (General Architecture for Text Extraction). Далее результаты анализа передаются в программу для статистического анализа данных: дискриминантного, регрессивного, дерева решений нейронных сетей и пр. Исследования предыдущих авторов показали, что все эти методы могут быть использованы, если берутся только значимые параметры текста.

Система для автоматизированного выявления лжи в письменном тексте может быть основана на методах машинного обучения, с помощью которых вычисляются веса маркеров, рассмотренных в предыдущих исследованиях. Эти маркеры далее могут быть использованы для создания профиля лживого сообщения в этом контексте. Наконец, значения маркеров в сообщении могут быть внесены как параметры в систему, которая обучается суммировать доказательства для предупреждения о высокой вероятности лжи в письменном тексте. Такой подход может определить разные стратегии лжи, которые появляются в разных контекстах. Таким образом, основной чертой системы должна стать адаптивность к разным контекстам.

Список литературы:

Adams S.H. Communication under stress: indicators of veracity and deception in written narratives: PhD thesis. — Falls Church, Virginia, 2002. — 148 p.

Adams S.H. Statement Analysis: What Do Suspects’ Words Really Reveal? // FBI Law Enforcement Bulletin. — 1996. — Vol. 65, Iss. 10. — P. 12—20.

Bachenko J., Fitzpatrick E., Schonwetter M. Verification and Implementation of Language-Based Deception Indicators in Civil and Criminal Narrative // COLING ’08. Proceedings of the 22nd International Conference on Computational Linguistics. — 2008. — Vol. 1. — P. 41—48.

Connell C.A. Linguistic Cues to Deception Blacksburg: M.A. thesis. Blacksburg, VA, 2012. — 92 p.

Frank M.G., Feeley T.H. To catch a liar: Challenges for research in lie detection training // Journal of Applied Communication Research. — 2003. — № 31. — P. 58—75.

Hancock J.T., Curry L.E., Goorha S. On Lying and Being Lied To: A Linguistic Analysis of Deception in Computer-Mediated Communication // Discourse Processes. — 2008. — № 45. — P. 1—23.

Newman M.L., Pennebaker J.W., Berry D.S., Richards J.M. Lying words: Predicting deception from linguistic style // Personality and Social Psychology Bulletin. — 2003. — № 29. — P. 665—675.

SAS представляет текстовый детектор лжи: [Электронный ресурс] — Режим доступа. — URL: http://www.membrana.ru/particle/2384 (дата обращения 10.04.2013).

Нужна помощь в написании статьи?

Мы - биржа профессиональных авторов (преподавателей и доцентов вузов). Пишем статьи РИНЦ, ВАК, Scopus. Помогаем в публикации. Правки вносим бесплатно.

Заказать статью

Undeutsch U. Beurteilung der Glaubhaftigkeit von Aussagen // Handbuch der Psychologie. — 1967. — № 11. — S. 26—181.

Vrij А. Detecting Lies and Deceit: pitfalls and opportunities. — Chichester: John Wiley & Sons, 2008. — 488 p.

Zhang Sh. LingCues — A Linguistic Cues Software Tool For Text-based Automatic Deception Detection Research: M.Sc. thesis. — Soochow University, China, 2010. — 54 p.

Zhou L., Burgoon J.K, Nunamaker J.F., Twitchell D. Automating linguistics-based cues for detecting deception in text-based asynchronous computer-mediated communications // Group Decision And Negotiation. — 2004. — Vol. 13, № 1. — P. 81—106.

[1] Natural language processing (обработка естественного языка, NLP) — область исследований на стыке искусственного интеллекта и математической лингвистики, использующая компьютеры для изучения и порождения естественного языка.

Предыдущий пример

Следующий пример