В России представлен новый бенчмарк для оценки кодовых моделей, который поможет разработчикам улучшить качество и производительность программного обеспечения.
Альянс в области искусственного интеллекта анонсировал запуск инновационного бенчмарка под названием SWE-MERA, который предназначен для всесторонней оценки модельного программирования с использованием задач, максимально приближенных к реальным условиям разработки. Информация об этом размещена на веб-сайте организации.
Отмечается, что SWE-MERA создан в результате совместной работы MWS AI (департамент МТС Web Services), Сбера и Университета ИТМО.
Важно отметить, что в отличие от традиционных статичных тестов, SWE-MERA задействует автоматизированный процесс, который регулярно обновляет набор задач, включая данные из публичных репозиториев на GitHub. Это позволяет сохранять бенчмарк актуальным и минимизировать риски переобучения моделей.
Среди основных преимуществ данного инструмента выделены его динамичность и современность, которые достигаются благодаря частому обновлению задач, а также защита от загрязнения данных с использованием уникального лидерборда, позволяющего выбирать задачи на основании определённых временных интервалов.
В новом бенчмарк также применяются автоматизированная методология для отбора задач и проверка с помощью LLM-as-a-judge вместе с тестовым фреймворком. Кроме того, одним из значительных достоинств является масштабируемость, которая подразумевает возможность увеличения числа задач и поддерживаемых языков программирования.
В ближайших планах команды разработчиов стоит задача расширить количество задач и поддерживать пять языков: C++, Java, JavaScript, TypeScript и Go. Также будет расширен лидерборд для более точной и объективной оценки моделей.
Согласно информации, SWE-MERA задуман как открытый инструмент для исследователей и разработиков, и, по мнению создателей, он может стать новым эталоном в области оценки кодовых моделей.
Бенчмарк будет представлен на конференции EMNLP в этом году.
Ранее Альянс в сфере ИИ представил бенчмарк MERA Code, а летом 2025 года — его специализированную версию MERA Industrial. Первый раз MERA был представлен на AI Journey в 2023 году, а затем на конференции ACL.
Данный бенчмарк имеет потенциал для применения в образовательных учреждениях, позволяя студентам и преподавателям проверять и улучшать навыки программирования на практике, а также осуществлять исследования в области эффективности и устойчивости программных моделей. Создатели SWE-MERA рассчитывают на активное участие сообщества, что даст возможность быстро адаптироваться к меняющимся требованиям индустрии и технологиям.
Кроме того, внедрение SWE-MERA может содействовать развитию стандартов качества в оценки программных решений, что является важным шагом для формирования экосистемы искусственного интеллекта в России и за её пределами.