Петербургские математики проследили изменения стиля Толкина и Азимова

Исследование текстов с помощью компьютерных алгоритмов позволяет выявлять плагиат, устанавливать авторство посланий-угроз и собирать улики для следствия. Однако большинство методов для установления авторства текста не учитывают вариации стиля, которая проявляются в текстах одного и того же автора, написанных в разное время. Смоделировать эволюцию авторского стиля позволяет новая динамическая модель. Отслеживание изменений в стиле написания текста основано на тех же принципах, что и выяснение авторства текста: все дело в степени подобия между анализируемыми текстами. Когда речь идет о возможном плагиате, эта задача предстает как проблема одноклассовой классификации: текст либо был написан известным автором, либо принадлежит перу другого человека. Метод, представленный в данной работе, основан на бинарной (двойной) классификации, когда сходство анализируемого документа вычисляется в сравнении с двумя классами: текстом известного автора и набором иных текстов. Первым делом тексты книг делились на фрагменты, и их обрабатывали с помощью алгоритма, рассматривающего текст как группу функциональных слов. В данном случае использовались слова «без содержания», их было 307 — это предлоги, артикли, союзы, вспомогательные глаголы и местоимения. Эти слова являются стилистическим «клеем» в языке, объединяя другие, более «содержательные» части речи. Ученые подсчитали частоту этих бессодержательных слов для каждого фрагмента, а потом сравнили фрагменты попарно по этой частоте. Для каждого отрывка текста, таким образом, была получена своя величина средней зависимости, которая показывала, насколько этот фрагмент по стилю отличается от предыдущего отрывка текста. На графике уровень этой средней величины незначительно колебался для фрагментов, написанных в одном стиле, а границе между стилями соответствовал скачкообразный пик. Последним этапом обработки текстов было формирование групп или кластеров, в которые фрагменты можно было объединить по стилевому сходству. Результаты можно было представить в форме дендрограммы — древа подобия, где подобие текстов по стилю соответствовало близости ветвей дерева. Эволюция авторского стиля происходит со временем и это видно на дендрограммах. Так, например, книги Айзека Азимова из серии «Основатели», написанные до 1953 года и после 1982 «повисли» на максимально удаленных друг от друга ветвях, тогда как на одной ветке оказались три книги Р. Толкина о похождениях хоббита «Братство кольца», «Две крепости» и «Возвращение короля», представлявшие во время написания один текст, разбитый на части лишь для удобства публикации. Новый метод на основе динамической модели отражает и качество литературы. Так, роман «Свидание с Рамой» Артура Кларка, получивший многочисленные литературные премии, стоит на дендрограмме особняком, а, значит, эта первая книга в серии отличается по стилю от последующих романов, в написании которых, кстати, участвовал другой автор. Исследование опубликовано в журнале Pattern Recognition. О том, как методы информатики помогают в гуманитарных науках, читайте на «Чердаке».