Итоги работы XIV Петербургского международного юридического форума
27 июня, 15:30
Александр Ведяхин: Российские предприниматели сделали ставку на ИИ
26 июня, 18:40
Владимир Пресняков, Леон Кемстач и Даниил Воробьев стали амбассадорами "АртМастерса"
26 июня, 16:40
Станислав Кузнецов: Cтрах штрафов делает Россию "слепой" в борьбе с киберугрозами
26 июня, 14:30
Алексей Лейпи: рынок льготных программ ожидает перезагрузка
26 июня, 13:55
Повторение пройденного: доллару наметили курс дороже 80 рублей
26 июня, 12:25
Премия им. Арсеньева стала одним из мостов между книжными ярмарками России и Китая
25 июня, 18:50
123 млн рублей направят на программу модернизации коммунальной инфраструктуры ЕАО
25 июня, 17:00
Изданную при поддержке Сбера рукопись Григория Ходжера представили на Красной площади
25 июня, 12:25
Дальневосточники потратили 290 млн рублей по Пушкинской карте
24 июня, 19:15
МТС на треть ускорила интернет в районе Анадырской ТЭЦ
24 июня, 14:07
"Дорожная карта" по продвижению рыбы в России нуждается в "пересборке" - эксперты "Недели российского ритейла"
24 июня, 12:15
Женщины выбирают активный отдых чаще мужчин
23 июня, 19:25
Квота для работодателя: адвокат коллегии адвокатов "Толмачева и компания" объяснил, как трудоустраивать инвалидов по закону
23 июня, 17:45
Сельдевая индустрия России. Пересоздание
23 июня, 14:15

Ученые Сбера представили модели ИИ, способные распознавать русский жестовый язык

На базе одной из моделей были обучены нейросети для распознавания американского жестового языка
24 ноября 2023, 18:00
Общество
Нашли опечатку?
Ctrl+Enter

Сбер представил нейросетевые модели, позволяющие распознавать русский жестовый язык. Об этом на конференции AI Journey (16+) сообщил старший вице-президент, СTO, руководитель блока "Технологи" Сбербанка Андрей Белевцев.

Команда Vision RnD (из Управления экспериментальных систем машинного обучения) в SberDevices, разрабатывающая одно из таких решений, первой в мире представила прототип общения с генеративной языковой моделью при помощи жестового языка в открытом доступе. Это стало возможно благодаря использованию GigaChat API (6+), программного интерфейса доступа к сервису GigaChat. Генеративная модель GigaChat сама, без дополнительных преобразований, понимает контекст распознанных жестов. Например, распознанные отдельные слова: "Я Идти Улица Гулять" сервис сам преобразовывает в корректную фразу: "Я пошел гулять на улицу", сохраняя контекст передачи информации.

Текущая версия модели позволяет распознавать более 2500 жестов, включая понимание дактиля (произношение слов по буквам) и возможность распознавать составные жесты. Кроме того, модель понимает терминологию по темам банковской сферы, транспорта, животных, и даже несколько слов из сферы медицины и образования. Этот объем покрывает существенную часть словаря русского жестового языка, позволяя создавать сервисы с нужным прикладным применением.

На базе этой модели были обучены нейросети для распознавания американского жестового языка, которые заняли первую строчку в публичном рейтинге WLASL-2000. Достичь такого результата позволило использование одного из самых разнообразных и больших в мире датасета для распознавания русского жестового языка — Slovo. Датасет и обученная на нем модель выложены в открытый доступ.

Другая команда исследователей, из подразделения Sber AI во благо общества, разработала и опубликовала в открытом доступе легкую модель распознавания жестового языка, не требовательную к вычислительным ресурсам. Модель работает на CPU, что снижает себестоимость решений, создаваемых на ее основе. Это дает возможность широкому кругу разработчиков проектировать инклюзивное программное обеспечение, например, продукты и сервисы для коммуникации или инструменты для изучения жестового языка. На сегодняшний день алгоритм распознает 1600 жестов и преобразовывает в слова до трёх жестов в секунду на стандартных персональных компьютерах. В 2024 году планируется тестирование и внедрение модели распознавания русского жестового языка и решений на ее основе в ряде регионов России.

Андрей Белевцев, старший вице-президент, СTO, руководитель блока "Технологи" Сбербанка:

"Сервисы для распознавания русского жестового языка и созданная Сбером система искусственного интеллекта GigaChat позволят преодолеть коммуникационный разрыв и сделают мир доступнее для людей с нарушением слуха. Модели могут использоваться в рамках исследований, позволяющих развивать сервисы для пользователей с инвалидностью. Например, для создания доступной среды в многофункциональных центрах (МФЦ), в транспортной отрасли (аэропорты, вокзалы, метро), в больницах для общения пациента и врача, в банковских сервисах и адаптации онлайн и оффлайн-образования".

16842
83
89