Дарья Белякова, Weborama: как использовать нейросети для анализа текстового пространства

Ведущий аналитик Weborama Дарья Белякова рассказала Sostav об основных моделях, применяемых её компанией на протяжении последних шести лет для создания рекомендательных систем с целью подбора релевантных сегментов для таргетинга.

Дарья Белякова, Weborama: как использовать нейросети для анализа текстового пространства
© Sostav.ru

Первая модель. Word2vecВ связи с развитием интернета и ростом количества информации возникла необходимость её качественной обработки. На сегодняшний день аналитик не способен вручную проанализировать весь объём контента, который существует в веб-пространстве по его продукту. Поэтому анализ текстового пространства с помощью искусственного интеллекта —это одно из самых важных и основных направлений при обработке данных.

Всё началось с подхода Word2vec, который представлял слова в виде векторов, и близкие по смыслу слова имели схожее ориентирование. По данным Habr этот подход реализован во многих рекомендательных системах таких гигантов, как Airbnb, Alibaba (AliExpress) и Spotify.

С помощью данного подхода был реализован и ряд решений Weborama: BigFish, MoonFish и GoldenFish. Они помогают подбирать релевантные слова-рекомендации, которые находятся в одном контексте с ключевыми словами и могут быть интересны целевой аудитории.

Для корректного поиска URL с релевантным контекстом проводится несколько итераций:

токенизация — разбиение текста на отдельные единицы слов и фраз;лемматизация — приведение слова к его словарному виду (по сути, лемма — это слово в именительном падеже единственного числа в случае с существительными и прилагательными или инфинитив, в случае с глаголом).

Разберём это на примере cookie-based решения. Мы вводим в интерфейсе ключевое слово, и система на основе векторных представлений выдаёт рекомендации. На скриншоте мы видим показатель Audience estimate. Он показывает максимальный объём тех cookie-идентификаторов, которые контактировали с рекомендованными системой словами в течение последних 30 дней.

По сравнению с таргетированием по социально-демографическим характеристикам, таргетирование, основанное на поведенческих сегментах, отыгрывает лучше. В пример можно привести интерес к покупке лотерейного билета. По социально-демографическим характеристикам под целевую аудиторию такого продукта можно отнести всех пользователей веб-пространства. Однако после применения поведенческого таргета аудитория значительно сузится.

Поведенческий таргетинг основывается на факте контакта веб-пользователя с текстами, содержащими леммы, связанные с покупкой лотерейного билета. К леммам в данном случае будут относиться запросы «лотерея», «лотерейный билет», «тираж лотереи» и другие. Согласно ранее опубликованному на Sostav исследованию, средний чек покупки на сегментах Weborama оказался вдвое выше, чем средний по кампании в целом. Однако минус любого подобного решения заключается в том, что несмотря на анализ всего контекста и наличие ключевых слов в нём, в сегмент могут попадать URL-s, которые нерелевантны запросу. Это увеличивало время на чистку URL, как автоматическим, так и ручным способом.

Вторая модель. BertВ 2021-2022 годах Weborama проапгрейдила свое решение BigFish, используя модель Bert. Изначально продукт BigFish, предназначенный для анализа текстов, был основан на модели Word2Vec, что предполагало анализ слов и их близость в контексте. Bert также начинает с токенизации подаваемого на вход текста. Когда модель обрабатывает текст, каждое слово кодируется своим векторным представлением. Эмбеддинг включает информацию о самом слове, номере предложения, в котором оно находится, и его позиции в этом предложении. Мы обрабатываем входные данные параллельно, что означает, что не обязательно рассматривать термины поочерёдно. Однако информация о том, как слова расположены друг относительно друга в оригинальном предложении, сохраняется в векторном представлении каждого слова, включая его позицию в предложении. После апгрейда продукта в исследовании появилась возможность анализа тональности текста.

На графике представлены три цвета, где красным обозначены негативные предложения, серым — нейтральные, а зелёным — положительные. Основываясь на данном распределении, стало возможным также добавление показателя NPS (Net Promoter Score, или индекс потребительской лояльности).

Также стало возможно сегментировать исследованный текст с помощью Weborama Generic Taxonomy — то есть распределять контекст на URLs по базовым тематикам. Так, на картинке представлено, что наиболее популярные темы в исследованных текстах связаны с детьми и правильным питанием.

Получение подобных результатов стало возможным благодаря тому, что в каждом слое кодировщика Bert применяется двустороннее внимание. Оно позволяет учитывать контекст с обеих сторон от рассматриваемого токена.

Третья модель. Large Language ModelНесмотря на существенное улучшение анализа текстов, проблема с наличием ключевых слов на страницах, не являющихся для нас релевантными, сохранялась. На скрине представлен кейс, когда нам необходимо найти статьи о художниках-любителях, но в данном случае система выдает нам страницы, где содержится информация не только о нашей аудитории, но и в целом о любителях искусства.

В связи с этим, мы решили использовать ChatGPT. С помощью искусственного интеллекта создали несколько предложений по нашей целевой аудитории. Из них отобрали три предложения, наиболее подходящих для нашего исследования, и использовали их в качестве целевых.

На основе данных целевых предложений мы выделили наиболее похожие URL-s и определили их аффинитивность.

В перспективе мы планируем использование LLM для сбора сегментов по запросу рекламодателей и будем передавать данные URL-s на сторону площадок для «открутки» рекламных кампаний.

ПланыБезусловно, на этом мы не останавливаемся. Планируем развивать новый рекомендательный инструмент на базе описанной выше Large Language Model. Уже сейчас нейросети дают возможность не только настроить тональность более точно, но и, благодаря постоянной обучаемости и совершенствованию GPT-технологий, уловить те лингвистические оттенки и связи, которые ранее не были доступны моделям Word2vec и Bert.

Конечно, нельзя не упомянуть про предстоящую отмену cookie-файлов, которая кардинально повлияет на рекламный рынок в целом. И тут применение решений на основе искусственного интеллекта также сыграет важную роль в обеспечении рынка рекламы инструментами таргетинга. Контекстуальный таргетинг, основанный на семантическом анализе данных, уже сейчас активно применяется рекламодателями, а его результативность во многом не уступает cookie-based инструментам. И мы уверены, что наступление cookieless-эры даст толчок в развитии инструментов, основанных на нейросетях.