Исследователи Sber AI при партнерской поддержке ученых из института искусственного интеллекта AIRI на объединенном датасете Sber AI и компании SberDevices разработали собственную нейросеть Kandinsky 2.1.
Она способна за несколько секунд создавать высококачественные изображения по их текстовому описанию на 101 языке, а также смешивать несколько рисунков, изменять их по текстовому описанию, генерировать изображения, похожие на заданное, дорисовывать недостающие части картинки и формировать изображения в режиме бесконечного полотна.
Kandinsky 2.1 – продолжение предыдущей версии, обученной на 1 млрд пар «текст — изображение», и была дополнительно обучена на 170 млн пар «текст — изображение» высокого разрешения. Затем она дообучалась на отдельно собранном датасете из двух млн пар качественных изображений.
Также ее усовершенствовали за счет новой обученной модели автоэнкодера, которая используется в качестве декодера векторных представлений изображений. Благодаря этому новая модель содержит 3,3 млрд параметров вместо 2 млрд в Kandinsky 2.0.
Kandinsky 2.1 использует не только закодированное текстовое описание, но и специальное представление изображения моделью CLIP. В таком виде нейросеть формирует представление картинки на основе текстовой информации и подаёт его на вход основной генеративной модели.
По словам первого заместителя председателя правления Сбербанка Александра Ведяхина, при обучении Kandinsky 2.1 было учтено мнение пользователей. В результате было разработано мощное универсальное решение для широкого круга задач на уровне лучших мировых аналогов. Kandinsky 2.1 - важный шаг к AGI, сильному искусственному интеллекту.
Оценить возможности нейросети можно на промо-странице модели, при помощи команды «Запусти художника» на умных устройствах Sber и в мобильном приложении Салют и на платформе ML Space в хабе предобученных моделей и датасетов DataHub. Модель также доступна для использования на платформе Fusion Brain и в Telegram-боте.