«Война и мир» в графах

Даниил СКОРИНКИН, исследователь в Центре цифровых гуманитарных исследований НИУ ВШЭ, главный редактор сообщества «Системный Блокъ»: Мы находимся в Центре цифровых гуманитарных исследований НИУ ВШЭ. То, чем мы здесь занимаемся, называется Digital Humanities. На русский это можно перевести, как «цифровые гуманитарные исследования». Это такое довольно хайповое направление у западных гуманитариев. Под это выделяются гранты, пишутся отчёты, проводятся конференции. Но на самом деле, считать в филологии придумали довольно давно. Ещё в начале ХХ века именно русские учёные оказались в авангарде этого движения, чтобы сделать филологию точной, формализуемой, научной. Тогда как раз появился «русский формализм», который известен именно своим научным пафосом и желанием как-то онаучить филологию. И тогда же работал, например, такой исследователь по имени Борис Исаакович Ярхо, который в докомпьютерную эпоху занимался, по сути, компьютерными исследованиями. Т. е. он брал карандаш и проводил настоящие статистические анализы сотен текстов с помощью подручных средств — просто ручкой и бумажкой. Сегодня все эти вещи невероятно актуальны. На конференциях по Digital Humanities постоянно вспоминают русских формалистов, тех же самых Ярхо и Юрия Михайловича Лотмана, который жил уже позже, но является в некотором роде наследником всего формализма. Лотман в 1967 году написал статью, которая называется «Литературоведение должно быть наукой». В этом манифесте он пишет, что литературовед нового типа, по его мнению, должен сочетать в себе филолога, математика и лингвиста. Вот мы сейчас с вами находимся в Центре цифровых гуманитарных исследований, который создан на базе Школы лингвистики в ВШЭ, в первую очередь, компьютерными лингвистами. Поэтому в некотором роде это исполнение полувековой давности завещания Лотмана. В первую очередь, мы внедряем точные методы в литературоведение и смежные с ним науки. Мы смотрим на методы, разработанные социологами, антропологами, аналитиками данных, сделанные программистами, математиками. Немного перепрограммировав их и поменяв что-то, мы применяем их к неким гуманитарным объектам исследований. Одно из наших любимых направлений исследования — это сетевой анализ художественной литературы. Что это такое? Это когда мы берём какое-нибудь художественное произведение, например, роман «Война и мир» Л.Н. Толстого, и превращаем его в социальную сеть персонажей (условно говоря, кто с кем разговаривает). Перед вами разворачивается такая социальная сеть, на ней изображено 566 персонажей «Войны и мира» - это, на самом деле, все, кто в хоть какой-то момент хоть с кем-то как-то разговаривает. Математики называют такую структуру «графом». Например, у каждого из нас есть свой социальный граф в соцсетях. Социологи начали исследовать отношения между людьми в таком виде ещё в 1930-е годы, и только недавно к ним присоединились литературоведы. Они поняли, что такими же точно методами можно исследовать и взаимоотношения персонажей в художественном тексте. И сразу же выяснилось довольно много интересного. Например, оказалось, что социальные сети произведений Уильяма Шекспира очень похожи на реальные, которые наблюдаются в каких-нибудь племенах в Африке. Кроме того, некоторые исследователи находят у Шекспира настоящие «зоны смерти». Оказывается, что в «Гамлете» умирают, в первую очередь, те, кто связаны с самим Гамлетом, а также с его злодеем-дядей — королём Клавдием. Ещё выяснилось, что сети супергероев отражают, например, маркетинговую стратегию компании Marvel, которой выгодно вывести нового супергероя на популярность, связав его с предыдущим (уже популярным) супергероем. Наконец, третий вывод, который сделали исследователи — и который был бы, скорее всего, невозможен без сетевого анализа, — это тот факт, что социальные сети комедий (взаимодействия в них и общения между людьми) гораздо плотнее, нежели социальные сети трагедий. Что, наверное, логично, потому что комическое требует какого-то словесного выражения. Там все собираются либо на свадьбу, либо на немую сцену, либо на ещё какие-то торжества, а в трагедиях люди страдают, умирают и погибают молча. Для этого не нужно какого-то общения, поэтому кажется, что это довольно резонный вывод. Чем хороши графы? Это формальный математический объект, и в нём можно измерять разные вещи. Например, у персонажей есть центральность. В них можно посчитать, кто с кем и сколько общается, какие группы общения у них образуются, кто, условно говоря, лидер мнений, через кого вообще идут контакты. Математическая теория графов всё это измеряет с помощью оценки центральности. Вот, например, если мы возьмём сеть «Войны и мира» и измерим там центральности, то по всем основным параметрам набор главных персонажей будет совпадать с тем, кого мы действительно считаем главными персонажами. Вот если мы посмотрим на эту сеть, мы увидим, что самые большие здесь — Пьер Безухов, Андрей Болконский, Николай Ростов, Наташа Ростова и Марья Болконская. Это как раз визуализация этих центральностей в графе. Этот набор персонажей, в общем-то, является стандартным набором протагонистов «Войны и мира». Конечно, тот, кто помнит роман, может сказать, что это какой-то банальный вывод. Но на самом деле, не всё так однозначно. Ещё до того, как компьютеры пришли в филологию, литературоведы прошлого писали, что сегодня мы просто привыкли к каноничной трактовке. А на самом деле, для читателей первых выпусков «Войны и мира», когда Лев Толстой ещё только писал, а они получали журналы, всё было далеко не так прозрачно и очевидно. Известно, что некоторые первые читатели вообще не догадывались, кто в итоге окажется главным героем, и прочили на их роли людей совершенно эпизодических — например, Долохова или Анатоля Курагина. На этом фоне особенно ценным выглядит то, что сетевой анализ определяет главных героев безошибочно, причём не только в этом романе, но и во множестве других произведений — пьес, романов и повестей, которые анализировали мы или наши коллеги. Центральности почти всегда совпадают с тем, как мы сами ощущаем важность персонажей. А ещё у этой сети персонажей можно исследовать её внутреннюю структуру. Например, семья Ростовых (важнейшее, возможно, семейное объединение во всём романе) стабильно выделяется с помощью стандартных алгоритмов выделения сообществ и образует такой плотный клубок на графе. Вот показано это объединение на графе целиком. А если мы исследуем по частям, то оно тоже всё время просматривается — мы всё время видим Ростовых, как они группируются вместе со всеми, кто связан с ними, вместе с их московским и отраднинским кругом. Они все вместе образуют всегда некое сообщество, которое формально выделимо. Т. е. мы можем взять роман и попытаться проанализировать его внутреннюю структуру с помощью сугубо формальных методов, формальными алгоритмами выделить в нём сообщества. И окажется, что эти сообщества вполне осмысленны. Естественно, про роман «Война и мир» мы понимаем, какие там будут сообщества. Но дальше мы можем масштабировать эти методы. Т. е. чем хороши формальные методы, что нового они нам дают? Они дают нам возможность брать их, тестировать на компьютере, на готовом и знакомом материале, и потом переносить на незнакомый. Сейчас мы начали новый проект, в котором анализируем сразу сотни текстов. Это тексты русских драматических произведений за последние двести с лишним лет. От Ломоносова и Фонвизина примерно до Маяковского и Булгакова. Почему это интересно? Потому что это даёт некий диахронический срез. Мы можем посмотреть на то, как эволюционировала русская драма, причём с точки зрения структуры. Оказывается, что эта эволюция довольно интересная. Мы можем увидеть, как сначала все авторы пишут в классицистской доктрине — и это видно в сетях и в их формальных параметрах. Мы видим, что каждая сеть представляет собой маленький шарик с одним (единым) плотным ядром. В нём не выделяются какие-то сообщества. В нём есть некий центр и некая периферия. Это связано с тем, что люди просто писали по классицистской доктрине, которая предполагает, как мы все помним со школы, единство места, времени и действия. Потом появляется, например, Пушкин с пьесой «Борис Годунов». Вы видите, что здесь уже хорошо даже чисто визуально видны, как минимум, два сообщества. И действительно, они отражают Польшу и Москву — то, что немыслимо было для классицистской драмы, когда у нас всё должно было происходить в одном месте. А Пушкин вдохновлялся именно Шекспиром. Сейчас в нашем корпусе уже больше сотни пьес, превращённых в социальные сети. И хотя корпус по-прежнему продолжает пополняться, некоторые открытия на нём уже сделаны. Например, мы выяснили, что русская драма повторяет общемировую тенденцию, и в ней комедии тоже плотнее, чем трагедии. Во-вторых, оказалось, что с помощью тех же методов, которые, например, социологи или спецслужбы используют для поиска лидеров, мнений или тех людей, через которых проходит информация, нам удалось выявить некоторый класс персонажей, который представляет определённый интерес для филолога. Это такие персонажи-посредники, посланники, иногда даже «серые кардиналы» (эдакие шпионы). Первым персонажем, который нас вообще вывел на такую тему, был Гаврила Пушкин. Вот он в пьесе своего однофамильца, Александра Сергеевича Пушкина, «Борис Годунов». Если вы прочитаете «Бориса Годунова», то вы явно не отнесёте этого персонажа к числу главных героев. По самым основным метрикам центральности, по числу связей с другими персонажами он явно проигрывает главным героям — Борису Годунову, Лжедмитрию и некоторым другим. Но есть такая специальная метрика в графе, которая называется between the centrality. На русский её иногда переводят, как «нагрузку», иногда — как «центральность по посредничеству», иногда — как «центральность по промежуточности». И вот по ней Гаврила Пушкин — настоящий чемпион! Вообще такое бывает нечасто. Обычно персонаж бывает центральным сразу по всем метрикам. Например, в «Войне и мире» это зачастую происходит именно так. Но здесь оказалось, что есть некоторое несовпадение разных параметров в структуре сети, и мы к нему присмотрелись. После чего, когда перечитываешь «Бориса Годунова», уже имея это в виду, оказывается, что Гаврила Пушкин — действительно персонаж особенный. Именно он стыкует эти разные сообщества в графе. Он ездит из Польши в Москву на своего рода дипломатические миссии. Он пытается договориться с Борисом Годуновым, связать его с Лжедмитрием. Когда договорённости не проходят и начинается настоящая война, он оказывается тем самым персонажем, который решает её исход косвенно. Потому что именно он едет снова в Москву и уговаривает лучшего воеводу Бориса Годунова (Басманова) переметнуться на сторону Лжедмитрия — ещё в тот момент, когда, на самом деле, ничего не понятно. И что интересно, в самом конце именно Гаврила Пушкин оказывается тем персонажем, которого посылают к народу для того, чтобы зачитывать царский указ. А народ здесь образует как бы такой третий кластер внутри Москвы. Речь идёт об указах нового царя, Лжедмитрия I, который победил в этой войне. Таким образом, Гаврила Пушкин действительно оказывается связующим звеном в данной пьесе. Но кажется, никто об этом не думал до того, как это произведение проанализировали с помощью сетевого анализа. Почему это кажется нам важным? Мы думаем, что здесь с помощью сетевого анализа мы вскрыли авторскую стратегию. Нам кажется, что Пушкин не случайно поместил здесь своего однофамильца — в стратегически важное место на сети персонажей. Ведь в его творчестве действительно постоянно просматривается идея о том, что старинный род Пушкиных приложил руку к русской истории. Например, если вы помните хрестоматийное стихотворение «Моя родословная», которое входит в общешкольную программу, там ровно этот мотив и проговаривается. Поэтому можно предположить, что Пушкин не случайно, а именно осознанно вставил Гаврилу Пушкина, своего однофамильца и предполагаемого предка, «серым кардиналом» и скрытым посредником. Что важно: все эти находки сделаны с помощью формальных точных воспроизводимых методов. Поэтому мы можем применять данные методы для поиска новых похожих персонажей в других пьесах, даже если мы их, например, не читали. И вот некоторые первые находки у нас тоже есть. Например, очень похожий персонаж, у которого не так много связей, однако через него проходит очень много информации — это Михайло Пятиговский из пьесы Алексея Константиновича Толстого «Смерть Иоанна Грозного». И если вы прочитаете эту пьесу, то узнаете, что Пятиговский действительно выступал в роли двойного агента. Он служит сначала противникам Годунова, а потом Годунов запугивает его и заставляет стать двойным агентом и работать уже на него. Таким образом, с помощью сетевого анализа можно находить таких вот неочевидных, второплановых, но довольно важных для структуры сюжета персонажей и как бы «выводить их на чистую воду». Кажется, что до нас, до прихода сетевого анализа в сетевую филологию этого никто не делал. Кроме сетевого анализа, у нас есть и другие проекты. Узнать о них можно на сайте Центра цифровых гуманитарных исследований «Вышки». А популяризацией таких исследований мы занимаемся в паблике «Системный Блокъ».

«Война и мир» в графах
© Чердак