Нейросеть ruDALL-E теперь может генерировать картинки по описанию на иностранных языках

В мобильном приложении Салют и на устройствах Sber создать картинку можно даже по голосовому запросу
16:06, 16 ноября 2021
Текст:
Читайте нас на
Дзен
afisha.png

Сайт открытой нейронной сети ruDALL-E, генерирующей изображения на основе текстового описания, теперь может работать с текстами не только на русском, но и на других языках. В мобильном приложении Салют и на устройствах Sber создать картинку можно даже по голосовому запросу, перевод на английский получил и демо-сайт, на котором можно попробовать модель. Об этом сообщил СТО Сбербанк Груп, исполнительный вице-президент Давид Рафаловский во время международной конференции AI Journey 2021.

За неделю с момента релиза ruDALL-E пользователи по всему миру уже сгенерировали более 3 млн изображений при помощи ruDALL-E, используя для формирования русскоязычных запросов различные системы машинного перевода, а теперь смогут делать запросы на английском и других языках. При вводе текста модель самостоятельно определяет язык ввода и генерирует соответствующее изображение.

Прототипом для создания ruDALL-E стала нейросеть DALL-E для английского языка, которая была впервые представлена OpenAI в 2021 году. При этом исследователи из американской компании не стали выкладывать модель в открытый доступ, ограничившись общим описанием архитектуры и впечатляющим набором примеров работы модели, отобранных вручную. На основе публикации OpenAI команды SberDevices и Sber AI при содействии SberCloud создали аналогичное решение и запустили обучение нейросети на платформе ML Space на базе суперкомпьютера Christofari, получив аналогичный результат для русского языка, а позднее и мультиязычный вариант.

Модель существует в двух вариантах: ruDALL-E XL, содержащая 1,3 миллиарда параметров, и ruDALL-E XXL с 12 миллиардами параметров. Возможностями меньшей можно воспользоваться бесплатно, загрузив её с сервиса Github  и Hugging Face. Обе модели также можно найти в ML Space в хабе предобученных моделей и датасетов DataHub от SberCloud.

Большая модель может послужить для создания вариантов дизайна интерьера, стоковых изображений или векторных иллюстраций, материалов для рекламы, копирайтинга, в то время, как уменьшенный вариант в приложении Салют и на демо-сайте призван скорее развлечь пользователей и показать им возможности нейросети. Чтобы создать изображение на устройствах Sber или в приложении Салют достаточно сказать: «Открой Далли» или «Запусти художника».

Давид Рафаловский, СТО Сбербанк Груп, исполнительный вице-президент: «После запуска ruDALL-E мы увидели большой интерес к модели со стороны аудитории. Поэтому мы решили создать мультиязычный вариант сервиса, который упростит пользователю путь к созданию изображения. Сейчас моделью может воспользоваться практически любой желающий по всему миру. Поставить задачу нейросети можно и голосом, вызвав его в приложении Салют и на устройствах Sber».

SberDevices — компания экосистемы Сбер, центр экспертизы по решениям на основе искусственного интеллекта в таких областях, как речевые технологии, технологии понимания естественного языка, лицевая и голосовая биометрия. Компания также фокусируется на создании умных устройств для конечных потребителей и корпоративных клиентов. SberDevices учреждена в мае 2019 года в качестве департамента блока «Технологии» Сбербанка.

Sber AI — R&D-подразделение Сбера, отвечающее за развитие технологий искусственного интеллекта и их внедрение в различные сферы жизни и бизнеса.

+1
0
+1
0
+1
0
+1
0
+1
0
+1
0
+1
0
Ключевые слова
11 декабря 11.12
  • -43°
  • $ 100,03
  • 106,2

Сообщить об опечатке

Текст, который будет отправлен нашим редакторам: