«Давайте не будем друг друга дурить». Теперь общаться через Zoom можно в образе Илона Маска или несуществующего человека

В Сети завирусилась новая разработка российских программистов — видеофильтр под названием Avatarify. Это дипфейковый инструмент, который позволяет примерить образ любой известной личности и поучаствовать в таком виде в Zoom или Skype-конференции. Придумали фильтр двое москвичей — Карим Искаков из Сколковского института науки и техники и независимый разработчик Али Алиев. Daily Storm обсудил с программистами этическую сторону дипфейк-технологий, разобрался, нужен ли Ким Чен Ыну виртуальный двойник, и почему россияне так успешны в создании искусственного интеллекта для развлекательных целей. — Ребята, объясните, в чем главное достижение и новизна вашей разработки? Только ли в том, что Avatarify умеет моделировать чужое лицо сразу по ходу общения? Али: На самом деле главное достижение в том, что мы соединили вместе уже существующие технологии в правильный момент времени. Мы взяли нейросеть, которая умеет анимировать лица по одной фотографии, подключили ее к веб-камере и придумали хак, который позволяет отправлять уже анимированное изображение в Zoom, Skype или в любое другое приложение для видеозвонков. Вообще, все началось с шутки. Я случайно наткнулся на одну работу с открытым исходным кодом, которая называется First Order Motion Model. Это и есть нейронная сеть, которая умеет «оживлять» картинку. Каждый понедельник мы с коллегами созваниваемся через Zoom, как-то раз я решил подшутить и быстренько за два часа слепил прототип. И вот на нашу очередную конференцию я залетел в образе Хабиба (российский боец смешанных боевых искусств, выступающий под эгидой UFC. — Примеч. Daily Storm). Карим впечатлился, предложил немного «причесать» код, а затем — выложить его в открытый доступ, чтобы и у других людей, скучающих на карантине, была возможность повеселиться. Так что самоизоляция нам здорово помогла продвинуть технологию. — Многие ли уже воспользовались вашей программой? Али: За две недели ее скачали порядка 10 тысяч раз. Карим: Сама по себе тема с аватарами очень перспективная и горячая. Допустим, ты хочешь быть анонимным при звонке. Или ты плохо сегодня выглядишь и предпочитаешь, чтобы от твоего имени говорил аватар, который выбрит и красиво одет. Ну или просто хочешь повеселиться. Кстати, говоря об анонимности. Недавно мы добавили в программу новую фичу: при видеозвонке можно взять аватар человека, которого никогда не существовало. Для этого мы используем другую нейросеть (StyleGAN 2), которая умеет генерировать лица несуществующих людей. У такой технологии куча применений: начиная от общения со своим доктором-психотерапевтом и заканчивания теми случаями, когда тебе просто не хочется показывать лицо в каких-то тематических группах. — Но тогда встает этический вопрос: насколько сильно можно заиграться в другую личность. Как вы думаете, появятся ли правовые нормы, регулирующие использование дипфейков? Карим: В США уже есть правила, которые обязуют помечать контент, в котором есть дипфейки. Это действительно важная часть. Но если технологии наподобие Avatarify станут вездесущими и все пользователи смогут их применять, то тогда люди просто будут понимать, что любое видео может быть дипфейковым. Ведь ничего не строит сделать фотографию, на которой ты играешь в гольф с Дональдом Трампом, при этом все понимают, что это фотошоп. Точно так же будет с видео. Единственное, должно появиться регулирование относительно того, какие аватары можно использовать, а какие нет. — Если пофантазировать в стиле «Черного зеркала», то не боитесь ли вы, что мы окажемся в срежиссированном мире? К примеру, пока непонятна ситуация с Ким Чен Ыном, от его лица мог бы выступать его же аватар. Тем самым правительство подготовилось к возможным рискам и лучше отыграло кризисный сценарий. Али: Я думаю, в обществе просто должна возникнуть договоренность: давайте не будем друг друга дурить. А если кто-то злоупотребляет технологиями, то должен понести ответственность. Но, возможно, будет и такое развитие: кто-то что-то натворит, появится резонансное дело, другие пользователи будут расценивать это как прецедент и, возможно, задумаются о последствиях. Люди мошенничают испокон веков, а технологии — это всего лишь еще один способ обмана. Карим: Мне кажется, когда люди рассуждают о технологиях, они забывают, что, в принципе, прогресс приносит много удовольствия. В тот момент, когда в Instagram и Snapchat появились маски с ушками cобачек, мир стал чуточку лучше. В позитивном ключе нейросети можно также использовать в сфере образования. К примеру, «оживлять» людей, которые ушли из жизни. Допустим, Юрия Гагарина. Если бы мне в школе про космос рассказывал Юрий Гагарин, это было бы классное погружение. Али: Еще есть такая мечта, чтобы Avatarify стал новым видом связи, благодаря которому мы будем обмениваться не потоком видео, а лицевой анимацией. Сейчас объясню. Ты загружаешь в программу красивую фотографию, на которой ты хорошо получился. Затем программа отслеживает мимику твоего лица и отправляет ее «на другой конец провода», где эта мимика заставляет двигаться твою красивую фотографию. То есть твой собеседник все еще говорит с тобой, видит твои реакции, но ты в это время непричесанный в пижаме лежишь в кровати. По сути, это еще один балл в пользу конфиденциальности. У меня даже есть пример для демонстрации, короткое видео, меньше минуты. — Да, я видела его в Сети. Кстати, мой любимый момент — в самом конце. Сначала вы примеряете разные аватары, показываете, как они подстраиваются под мимику, широко раскрываете глаза, двигаете ртом. И уже в конце, в маске Гарри Поттера, вы выключаете программу и в поисках крестика смотрите в угол монитора. И это настолько естественный жест! Мне кажется, из всего видео эти последние пара секунд самые правдивые. Али: Ага, я специально не вырезал этот момент, чтобы было максимально реалистично. — В программе есть аватар Илона Маска. Сам он никак не отреагировал на вашу разработку? Было бы забавно увидеть Маска в маске Маска. Карим: К сожалению, пока нет. Но когда мы выкладывали видео, то отмечали его в Twitter. Писали посты из разряда: «Илон Маск, ты должен с нами выйти в Zoom-конференцию!» Но пока молчит. — Вы могли бы рассказать, какие косяки есть в программе? Карим: Вообще, косяков много. Она хорошо воссоздает аватар, когда пользователь смотрит фронтально, отлично работают глаза, брови, но если ты начинаешь вращать головой, то становятся заметны артефакты. Второе — это так называемый липсинк (lip sync), когда голос не совпадает с движением губ. Если мы просто разговариваем по видео, то звук и картинка передаются одновременно. Но с участием нейросети искусственному интеллекту нужно примерно 30 миллисекунд, чтобы подстроиться под изменения лица. Потому на 30 миллисекунд изображение будет отставать от звука. Али: Давайте я вам лучше покажу. (Али запускает Avatarify и «превращается» в Илона Маска) Ну что, поговорим про космос? Илон выглядит еще нормально, а вот если взять аватар Эйнштейна... Брови и глаза работают хорошо, проблемы в основном со ртом. — В принципе, может и хорошо, что есть баги? Они дают понять, что ты используешь программу, и решают этический вопрос... Карим: На это надеяться не стоит, прогресс никак не остановить. Я рассчитываю, что через год-два мы начнем генерить в реальном времени аватары, которые будут неотличимы от реального человека. Этого очень следует ждать. — Расскажите, как вы продвигали продукт. Что нужно сделать, для того, чтобы о вас узнали и начали качать? Карим: Как только я увидел, что Али зашел в конференцию в виде аватара, я сразу понял: это бомба. И мы начали думать, как выгодно представить программу. Сначала мы хотели записать видео, где Трамп говорит с Путиным, но решили не лезть в политику. Тогда мы придумали идею с Илоном Маском. Представили такую ситуацию, что Илон случайно подключился к конференции, и что бы из этого вышло. Записали видео, выложили в свой Telegram-канал, оттуда оно стало распространяться по российскому сообществу. Дальше запостили в Twitter, на Reddit и Hacker News. А после того, как про Avatarify написало первое зарубежное издание — Vice — с нами начали связываться другие иностранные СМИ. Али: Мы еще немного по-голливудски подали нашу историю. Типа весь мир сидит в изоляции, всем скучно, и вот два программиста придумали для людей развлечение. Карим: Вообще, здорово, что Avatarify дали позитивную оценку. До сих пор мы не видели негативных статей, которые говорили бы: «Вот дипфейки, какую зловещую технологию сделали эти русские хакеры!» — К слову, у многих развлекательных программ, работающих на базе ИИ, есть постсоветские корни. Instagram перенял алгоритм создания масок у белорусского стартапа MSQRD («Маскарад»). Основой для Snapchat стал проект Looksery Виктора Шабурова. То и дело выстреливают FaceApp, Prisma, Gradient. Можно ли говорить, что разработчики из СНГ заняли очень достойные позиции на данном рынке? Карим: Абсолютно. Я сам всегда этому удивляюсь. В принципе, если говорить про искусственный интеллект, у нас очень сильные разработчики по сравнению со всем остальным миром. Но в количественном соотношении их меньше, чем в США или Китае. К тому же в этих странах хорошо развита система грантов и инвестирования. В нашем случае, повторюсь, разработчиков меньше, но с точки зрения качества они выдают по-настоящему классный продукт. — А насколько конкурентна эта среда? Карим: Я думаю, что весьма. Основной показатель развития ИИ, как и любой области науки, — количество научных статей. В последние несколько лет их число на тему нейросетей каждый год удваивается. При этом работодатели до сих пор говорят, что найти хороших специалистов по ИИ очень сложно. — Как вы думаете, способна ли пандемия оказать положительное воздействие на развитие ИИ? Если бы не коронавирус, мы не столкнулись бы, например, с электронными пропусками. Понятно, что это не выдающееся изобретение, но когда бы еще дошли руки их опробовать. Может быть, коронавирус открыл для разработчиков какие-то новые возможности? Карим: Уже сейчас разные нейросети соревнуются на предмет того, как выявить наиболее качественные медицинские статьи о коронавирусе. Кроме того, ИИ используют при диагностике COVID-19. По результатам томографии нейросеть способна определить пневмонию менее чем за две минуты. Если говорить про то, смогли ли локдаун и все это сумасшествие повлиять на искусственный интеллект, то мне кажется, да. Все магазины были вынуждены цифровизироваться и освоить доставку. Прилетел волшебный пендаль и настала диджитализация. Больше всего в сфере ИИ, наверное, выиграли разработчики автономных (беспилотных) автомобилей и компании, которые занимаются автономной доставкой. В будущем это очень перспективная тема. Наконец, люли стали много общаться дистанционно, и в этой области тоже следует ждать прорыва. Плоская картинка, которую мы видим у себя на экране, скоро надоест, захочется представлять собеседника более объемно и натурально. — А что на счет тотального контроля? Вы разделяете опасения по поводу Большого Брата? Карим: Мне кажется, нет ничего страшного в том, что о нас собирают информацию. Эти данные можно использовать в хорошем ключе: искать преступников, быстро реагировать, если кому-то на улице стало плохо. С помощью большого количества данных можно делать большие добрые дела. В тот момент, когда у гражданина появится доверие к государству и он будет понимать, что товарищ майор не сможет с помощью этих данных отследить свою жену, чтобы, например, поймать ее с любовником, не станет никаких проблем. Али: Вопрос в том, с кем делиться информацией. Я знаю, что много данных отдаю «Яндексу», но я верю в то, что они не продадут мои личные данные за 100 рублей. Поэтому я отдаю сведения о себе в руки той компании, которой доверяю, и стараюсь на время забыть об этой проблеме. — И напоследок. Что, на ваш взгляд, стало самым большим достижением в сфере ИИ? Карим: В области компьютерного зрения было два серьезных прыжка. Первый случился, когда нейронные сети научились классифицировать изображение лучше людей. То есть, например, у тебя есть изображение. И нужно понять, что из тысячи классов на нем представлено. Кошка, собака, человек и так далее. Даже если разбить на меньшее число классов, человек все равно будет проигрывать машине. Такое развитие нейросети стало серьезным достижением, от которого начали отталкиваться все остальные приложения. Второй прорыв произошел в тот момент, когда люди — сейчас будет очень газетный заголовок — подарили воображение нейронным сетям. То есть когда ИИ научился генерировать изображения хорошего качества. Это случилось с появлением Generative Adversarial Networks. Например, в генерации лиц наиболее впечатляющие результаты показала нейросеть StyleGAN где-то год назад. Как раз такой разработкой мы пользуемся, чтобы создавать несуществующих людей. Другая важная сфера — процессинг естественного языка. Долгое время здесь не было прорывов. Но в 2017 году появилась новая архитектура Transformer, с помощью которой люди начали решать NLP-задачи (например, машинный перевод) с приемлемым продуктовым качеством. Али: Когда вы говорите «Привет, «Алиса», а «Алиса» вам отвечает — это оно!

«Давайте не будем друг друга дурить». Теперь общаться через Zoom можно в образе Илона Маска или несуществующего человека
© Daily Storm