Удивляться после слова «шляпа»

[Chrdk.] Ваш доклад был посвящен «мультимодальным исследованиям». В двух словах, что в этом контексте, собственно, значит «мультимодальность»? [Андрей Кибрик]: Идея простая: человек может осуществлять коммуникацию с использованием большого репертуара разных средств. Например, кто-то находится в другой комнате, и я могу позвать его устно, а могу послать смс с письменным текстом «Вась, иди сюда», или могу посвистеть и помахать рукой — и результат во всех случаях будет один и тот же. То есть у меня есть некая коммуникативная задача, и я могу ее решить совершенно разными средствами — от условных символов на экране гаджета вплоть до свиста, установления глазного контакта, движения рук. И все это обычно используется как единый комплекс, то есть я могу сочетать несколько средств одновременно и тем самым задействовать то, что в психологии и физиологии называется разные «модальности». Эти модальности связаны с разными органами чувств, в данном случае — зрением и слухом, так как сигнал порождают голос и движения тела. Тут две модальности. Мы пока не очень замахиваемся на запах, вкус и прикосновения. [Ch.] А так тоже можно? То есть сколько органов чувств, столько способов передачи сообщения? [АК]: Да. Можно кому-то сказать «ты молодец!», а можно погладить, и это будет тактильная передача сообщения. Но пока большинство исследований проводится в рамках зрительной и слуховой модальности. Поэтому мы термин «мультимодальность» считаем несколько преждевременным и говорим о «мультиканальности». Например, в рамках звуковой модальности выделяют вербальный, словесный канал. Это то, что изучают традиционные лингвисты. Но в этом канале ведь есть и масса другой фонетики, так называемая просодия — интонация, громкость, темп, различные тембры, которыми мы очень хорошо умеем играть с помощью голосового аппарата. В письменной форме языка это исчезает, а в устной форме — базовой — это все присутствует, и мы это сильно задействуем в реальной жизни, хотя и плохо осознаем. В рамках зрительной модальности тоже много каналов — например, движения глаз. Мы постоянно устанавливаем глазной контакт, когда разговариваем, в какой-то момент прерываем, и все это регулируется определенными коммуникативными закономерностями, которые еще плохо понятны. А есть еще различные выражения лица, движения головы, жесты рук, движения всего корпуса. Можно, например, наклониться к собеседнику и тем самым продемонстрировать внимание. [Ch.] То есть традиционная лингвистика — это слова, фонемы, синтаксис. А мультимодальная — это вообще все, с помощью чего мы можем передавать сообщения? Получается, так вы и заходите на поле психологии? [АК]: Фактически, да. Есть такое направление: изучение движений глаз при помощи специальных устройств — айтрекеров (приборы для отслеживания глаз, eye-trackers). Это традиционная область психологов, или даже скорее нейробиологов. Например, есть задача выяснить, как человек читает. Для этого используются особые, очень точные айтрекеры, с помощью которых мы можем различить, на какое слово и даже букву на экране человек смотрит. И часто психологи и биологи занимались такими задачами так, как если бы лингвистики вообще не было. Но в удачных случаях они взаимодействуют с лингвистами. Вот, у Ольги Викторовны есть такие совместные публикации с биофаком МГУ. [Сh.] И что удается дополнительно выяснить в совместных работах нейробиологов, психологов и лингвистов, по сравнению с работами только нейробиологов и психологов? [АК]: В лингвистике все же наработан достаточно большой когнитивный инструментарий. Биолог, например, изучает, как люди читают слова на экране, но у него представления о языке на уровне школьной грамматики. Так что он может очень грубо формулировать свои наблюдения. А если у него в команде есть лингвист, то он может объяснить, что вот это, например, один тип придаточного предложения, а это — другой. И если, скажем, в последнее время стало известно, что один тип обрабатывается в мозге быстрее, чем другой, это может пролить свет на задачу, которую ставил перед собой биолог. [Ch.] А в этом проекте вы какую задачу перед собой ставите? [АК]: В этом проекте нам интересно, как человек распределяет свое зрительное внимание в общении с другими. И здесь используется техника для айтрекинга несколько иного типа. Айтрекинг получается не такой точный, как тот, что используется для исследования чтения с экрана, но зато и не такой инвазивный — на человека надеваются довольно легкие очки, в которые встроена камера, следящая за движением зрачка. Благодаря этому мы можем определить, смотрит ли человек на лицо другого, или на руки, или на корпус. К сожалению, различить взгляд на глаза и, скажем, рот разрешение камеры уже не позволяет. Но мы улавливаем главное — смотрю ли я на вас или в угол комнаты, или на третьего участника разговора. Мы это регистрируем и начинаем ухватывать то, что происходит между людьми в коммуникации в реальной жизни. И мы создаем ресурс, в котором в какой-то степени приближаемся к такой регистрации. [Ольга Федорова]: У наших айтрекеров частота ниже, чем у стандартных — 50 Гц против 1000—2000 Гц, поэтому мы и не можем различить совсем мелкие фиксации глаз, но зато можем изучать естественные процессы. Человек в таких очках может даже играть в гольф или баскетбол, и можно наблюдать, как он целится и кидает мяч или готовит сэндвич, или идет по улице. Например, исследования с помощью айтрекеров особенно полезны для маркетологов — им важно, куда человек сразу смотрит, когда заходит, например, на сайт, и куда, следовательно, надо ставить рекламу. [Ch.] Вы в докладе используете несколько удивительный термин, «фокальная структура языка». Что это? [АК]: Это несколько отдельная тема. Это моя, можно сказать, гипотеза. Человеческое мышление любит четкость. Любит, когда категории языка хорошо отличимы друг от друга. Дискретность любит. А когда все плывет и размывается, нам трудно. Видимо, так эволюционно сформировался наш мозг — ему удобнее мыслить в четких категориях. Существует огромное количество разных явлений, объектов, понятий. И мы набрасываем на них дискретную сетку при помощи словаря. Вот это собака, а это кошка. И промежуточного варианта быть не может. Но при этом мы постоянно натыкаемся на то, что во многих областях оказывается трудно выделить категории. Взять пунктуацию на письме. Люди придумали знаки точки и запятой. Точка — это конец существенного фрагмента. В школе нас учили, что предложение — это законченная мысль. А запятая — это не конец, будет продолжение. Вот вам дискретность: конец — не конец. Но есть случаи, когда немножко конец, немножко не конец — придумали точку с запятой. А есть двоеточие: ни то, ни другое, ни третье — что-то среднее. И видимо, есть некий компромисс между реальной жизнью, и стремлением человеческого мозга и ума набрасывать дискретную сетку. Это я и называл в некоторых публикациях фокальной структурой. Есть одна фокусная точка и вторая — а между ними некая промежуточная связующая линия, где находятся гибридные представители, относящиеся сразу к двум категориям, или те, которые вообще непонятно, куда отнести. Это очень напоминает то, как устроены связи нейронов в мозге. Нейроны образуют сеть, но у каждого из них есть ядро и синапсы — связи с другими нейронами. И в итоге трудно понять, какая часть к какой клетке относится. Получается, каждый нейрон — это отдельная клетка и, с этой точки зрения, дискретная сущность, но в то же время и не совсем дискретная, потому что связана с другими. [Ch.] И вы предполагаете, что это свойство нейронов каким-то образом связано с таким же свойством языка? [АК]: Да, когда мы строим модели языка, оказывается, что эту метафору можно перенести на то, как связаны, например, значения слов или соседние звуки при произнесении слова. Есть явление, которое называется коартикуляция. Кажется, что когда мы произносим согласную, а потом гласную, например, «ко», то там есть место, где кончается «к» и начинается «о». А когда мы начинаем смотреть сигнал, мы видим, что этого места на самом деле нет. Потому что я произношу «к», уже строя свой артикуляторный аппарат так, чтобы он был готов к произнесению «о». И «к» будет перед «о» одно, перед «а» другое, перед «и» - третье. Эти явления граничные, недискретные, и они пронизывают буквально все, даже на высоком уровне. Мы можем с некоторой условностью разделять их юридически, но по факту между ядерным французским и ядерным итальянским есть формы, которые где-то между ними. Это и есть фокальная структура: фокальные точки, а между ними — переходы. Это пока довольно абстрактная идея, но думаю, что в перспективе это разумная альтернатива для дискретной идеологии, согласно которой все обязательно надо занести в какую-то клетку. [Ch.] Получается, разница между языком и диалектом — это как раз проблема фокальной структуры? [ОФ]: Да, поэтому так по-разному оценивается количество языков на Земле. Некоторые говорят, что их шесть тысяч, некоторые — что семь или еще больше. Потому что граница между ними очень нечеткая. [Ch.] В вашем докладе вы ссылаетесь на эксперименты лингвистов, в которых людям говорили предложения в духе «на голове у короля была шляпа», а затем изучали реакцию их мозга на такие фразы. Вы упоминаете это в связи с понятием «лексического предсказания/прогнозирования» (lexical prediction). А это что такое? [ОФ]: Начнем с того, что наш мозг определенным образом реагирует на речевые сигналы, и эту реакцию можно измерить с помощью ЭЭГ. Одна из методик психолингвистики как раз базируется на измерении электрических потенциалов мозга с помощью ЭЭГ. И есть в этих измеряемых реакциях своего рода пики, один из них — так называемый компонент N400, который наступает через 400 миллисекунд после звучания того, на что он реагирует. А бывает P600 — позитивный компонент. N400 отвечает за семантику, что проверялось в экспериментах. Самый популярный пример: это когда вам говорят фразу вроде «красные электрички резвились на зеленом лугу» или другую подобную абракадабру. Вот когда вы это слышите, у вас не только улыбка возникает, но и сильный N400, потому что это противоречит вашим ожиданиям насчет того, что обычно происходит с электричкой. И чем больше отклонение от ожиданий, тем больше N400 — то есть, мозг выраженно реагирует на подобную языковую неожиданность. А P600 реагирует на синтаксические вещи. Если перед вами какая-то сложная синтаксическая структура, вы можете этого даже не осознавать, но через 600 миллисекунд после прочтения сложного предложения, вам станет сложно, и у вас появится этот выраженный P600. Пример с королем не такой яркий, как с электричками, но тем не менее. Если человек слышит фразу о том, что у короля на голове корона, это ожидаемо. Но когда человек слышит «у короля на голове шляпа», у него возникает некоторый N400, потому что он меньше ожидает это услышать. Эти примеры призваны проверить наличие того, что и называется lexical prediction. [АК]: В этом исследовании был очень тонкий хронометраж. Ученые следят, что будет буквально после каждого слова. Мы слова произносим в короткие доли секунды, и когда уже поняли, что у короля что-то было на голове, тут возникает ожидание, что там нечто определенное, и если это не оно — появляется этот фактор. То есть, N400 возникает через 400 миллисекунд после конца произнесения слова «шляпа». [Ch.] Одна из самых интересных областей применения лингвистики — это машинное обучение. Как вы считаете, какой вклад в эту сферу может сделать именно изучение мультимодальной коммуникации? [АК]: Самый ключевой. Вспомним историю, которую я и студентам уже пересказываю — с новыми функциями Google Assistant, которые нам представили на недавней конференции. ИИ звонил в парикмахерскую и ресторан. Я смотрел запись, где это демонстрируется аудитории. И там есть место, где робот говорит «угу» или что-то вроде того. [Ch.] Да, робот там вставляет междометия вроде «эээ» или «мммм». [АК]: В лингвистике мы называем это дискурсивными маркерами. Это словечки, которые не обозначают явление жизни, а обозначают некий этап в процессе речепорождения. [Ch.] То есть, сами по себе они бессмысленны, но указывают на что-то другое? [АК]: Они не бессмысленны. Они создают подлинность. Речь, лишенная таких маркеров, производит впечатление искусственной и недостоверной. [Ch.]: То есть инженеры Google все это привнесли в речь голосового помощника специально? [АК]: Да, и это идея не совсем новая, она применяется, в частности, в преподавании иностранных языков, когда иностранцев учат говорить «хмм» или «угу», или «а?», потому что языки в этом смысле отличаются, а если мы переносим эти элементы из своего языка или устраняем их, получается не совсем нормальная речь. Ну и инженеры, которые занимаются моделированием, это понимают. А у аудитории это вызвало смех, потому что от робота ожидают искусственного поведения, а он демонстрирует естественное. [Ch.] Меня тоже это поразило. От робота ожидают, что у него будет четкий, ясный гладкий голос, речь поставленная. Получается, в каком то смысле, это намеренная примитивизация речи? [АК]: Нет, это натурализация речи. Это попытка сделать его более похожим на человека. В прошлые годы мы много занимались просодией: всеми компонентами звука, кроме сегментных фонем —то есть, собственно, звуков языка, согласных и гласных. У нас тогда вышла книга «Рассказы о сновидениях» - она подытоживала этап, когда мы еще не посягали на зрительную часть коммуникации, а изучали все эти хмыканья. Теперь это дошло уже до этапов инженерного воплощения, хотя и не у нас. Но это касается и зрительного поведения. Если хочется создавать некие искусственные агенты, которые похожи на человека, значит, надо знать, как человек себя ведет в процессе коммуникации. А мы пока не знаем. Мы пока только ведем исследования и создаем электронный ресурс — Russian Pear Chats and Stories — который представляет собой базу данных о том, что люди реально делают. Затем это можно закладывать в обучающуюся программу, которая будет в той или иной степени подробности приближаться к человеческому прототипу путем самообучения. Но нужно будет многократное сложное вмешательство человека, который будет помогать алгоритму в этом обучении. Не знаю, за какой срок это произойдет. Иногда это происходит очень быстро, а иногда затягивается на многие десятилетия. [Ch.] Кажется, роботы уже умеют многое, связанное с языком: тексты переводят, речь слышат, слова говорят, стихи сочиняют. Куда дальше двигаться лингвистике в обучении ИИ языку? [ОФ]: Действительно, роботы сейчас могут быть похожи на человека, и во многих областях результат достигается. Но достигается нечеловеческим способом. Приведу пример, который применим и в лингвистике. Есть игра в шахматы. Много лет люди бились, чтобы создать компьютер, который бы обыграл человека в шахматы, причем именно используя человеческие стратегии. Когда увеличились компьютерные мощности, удалось создать программу, которая обыграла Каспарова, путем простого перебора вариантов ходов, и вопрос вроде был закрыт: вот мы создали программу, которая обыгрывает человека. Но она делает это путем полного перебора и использует совсем не те механизмы, которые использует человек. Так что задача смоделировать мышление человека, когда он играет в шахматы, не перестала быть актуальной и после того, как шахматная программа его обыграла. С языком пока получается не очень похоже на то, как человек порождает речь, как он ее понимает, и как это все в голове у него происходит. А хочется все же не просто создать нечто с похожим результатом на выходе, но и с похожим процессом внутри. [Ch.] Наверное, эта проблема не решится, пока мы не поймем, как мыслим сами? [АК]: Я думаю, это связано с тем, что компьютер придуман людьми с дискретным мышлением. Там или 0 или 1 в каждый момент времени. Ток или течет, или не течет. Это очень традиционная и вполне почтенная идеология. Но нужно создавать фокальный компьютер, который больше похож на реальные нейронные сети человека. Тогда он и работать будет похоже.

Удивляться после слова «шляпа»
© Чердак