ИИ в маркетинге и рекламе
Центр компетенции по компьютерному зрению R&D Sber AI занимается двумя направлениями:
- решением классических задач компьютерного зрения по классификации, сегментации, детектированию объектов различных классов;
- исследованиями в области обучения мультимодальных, мультизадачных и мультиязыковых моделей — так называемых М3.
Мультизадачность генеративных моделей — один из самых актуальных трендов в обучении фундаментальных моделей. Раньше было так: для одной задачи есть одна модель, которую надо было обучить, собрать, а ещё разметить датасеты. Сейчас мы обучаем на миллионе пар картинок и текстов уже многозадачные модели, которые решают сразу несколько задач. Их можно доучить (делаем fine tune) на небольшом количестве данных. Получается синергия нескольких элементов. Плюс в том, что на своих больших вычислительных ресурсах ты можешь обучить гигантскую модель, залить на open sourse, а люди со своими небольшими мощностями будут дальше уже всё реализовывать и доучивать.
Мультимодальность реализуется в моделях, способных к решению большого количества задач одновременно в рамках нескольких типов данных. Например, модель может как отвечать на вопросы по тексту, так и описывать изображения, задавать вопросы, распознавать текст на изображении и решать математические задачи. Сейчас мы разрабатываем архитектуру модели, которая будет способна работать с 7 модальностями.
Восприимчивость моделей к нескольким языкам уже реализована в нескольких наших моделях. Например, Kandinsky 2.0 поймёт запросы даже на таких нечасто используемых языках как монгольский и фарси.
Ещё мы занимаемся переносом лиц на видео — достаточно одной фотографии, чтобы перенести лицо на целое видео. Это core направление.
Мы любим интересные коллабы — например, недавно в партнёрстве с известной сеткой кофеен сделали AI-десерт, вкусный и симпатичный. Мы давали на вход название ингредиентов и то, как должен выглядеть десерт, а потом кондитеры создали пирожное, внешний вид которого также был создан нашей text2image нейросетью.
ИИ в маркетинге и рекламе
Мы строим модели глубоких нейронных сетей и пытаемся внедрить их в различный функционал маркетинга. Наша основная задача — анализ инфополя. Мы собираем в реальном времени отзывы, которые пишут про бренд в соцсетях и СМИ и составляем топ-новостей. Для этого нужно уметь семантически сравнивать тексты, следить за их уникальностью и кластеризацией — смотреть, как она эволюционирует со временем. Здесь задействован целый набор NLP моделей — Natural Language Processing. Обычно мы используем предобученные большие языковые модели (pretrained Large Language Models) такие как BERT или GPT дообучаем их, чтобы они лучше работали на наших данных.
Также есть направление по генерации контента в наших коммуникациях, в том числе в рекламе. Это и текстовый контент (слоганы, заголовки, тексты), которые получат более сильный отклик у аудитории, чем это сделал бы контент мейкер. В условиях ограничения доступа к стокам изображений мы работаем над задачей создания персонализированного аналога Shutterstock.
Ещё делаем AI Eye-Tracking — определяем с помощью нейронных сетей, куда будет направлено внимание человека, когда он смотрит на что угодно. Сейчас тестируем модель на маркетинговых визуалах, очень надеемся, что пригодится дизайнерам, чтобы грамотнее верстать лендосы.
Отдельное и очень перспективное направление – модели для мгновенного транскрибирования речи из аудио, которые помогают детектировать упоминания нашего бренда в ТВ и радио эфирах.