Ограничения NLP и сложности, связанные с русским языком

Ограничения NLP и сложности, связанные с русским языком

31 мая, 2022
Дайджест (Новости бизнес-информатики)

Мария Тихонова, куратор направления ИИ на RuCode 4.0, отмечает, что при обучении больших языковых моделей существуют стандартные проблемы обучения больших нейросетей: необходимо много мощностей, времени и ресурсов, для чего нужны большие суперкомпьютеры и сотни GPU. Маленькие компании не могут этого позволить, однако в открытом доступе есть многие модели, в том числе русскоязычные, например, в популярной библиотеке HuggingFace. Также NLP очень сильно завязано на язык, поэтому методы и алгоритмы, которые работают для английского, могут быть неприменимы для других языков. В русском языке присутствует свободный порядок слов и большое число словоформ, что влияет на качество моделей и на выбор алгоритмов. Для русского языка для нормализации слов применяют лемматизацию – перевод слов к их нормальной словарной форме. Так, для существительных это будет слово в мужском роде и именительном падеже. Для английского работает метод стемминга, при котором исходная словоформа обрезается до его основы. Помимо этого, на качество моделей оказывает влияние количество данных для обучения, объемы текстов в открытом доступе различаются, так, хотя русскоязычных текстов достаточно много, их меньше, чем англоязычных.

Новое исследование Intel намечает курс на разработку чипов с триллионами транзисторов к 2030 году

08.06.2023

Исследования Intel включают разработки с материалами толщиной не более трех атомов, «вертикальную» память, и глубокое понимание дефектов интерфейса, влияющих на хранение и извлечение квантовых данных.

В Великобритании электрический гиперкар проехал 400 метров за 7,9 секунды

07.06.2023

Электрический гиперкар McMurtry Spéirling от британской фирмы McMurtry Automotive, стоящий 2,5 млн долларов, опередил Tesla S Plaid, с результатом в 9,2 секунды.

Мировые поставки гарнитур AR/VR растут в 2023 году после спада за предыдущий год

06.06.2023

Глобальные поставки AR/VR-очков в 2022 году снизились на 20,9% по сравнению с предыдущим годом до 8,8 млн ед. В 2023 оду ожидается их рост до 10,1 млн. ед.