Новая модель Яндекса вошла в топ рейтинга русскоязычных нейросетей

Компания Яндекс уже подтвердила, что это стало одним из шагов при подготовке запуска принципиально нового по своим качествам продукта.

Первые результаты тестирования модели YandexGPT Experimental вывели ее на первые позиции рейтинга наряду с передовыми GPT-4o, GPT-4 Turbo и Claude 3,5 Sonnet. Оценка моделей, участвующих в рейтинге, проводится пользователями: каждый посетитель может ввести свой вопрос и, получив несколько обезличенных ответов, выбрать самый качественный из них.

Площадка LLM Arena - это прямой аналог зарубежной LMSYS Chatbot Arena. В России существует еще несколько популярных бенчмарков, но в них нейросети отвечают на заранее известный список вопросов из разных сфер знаний, а оценка происходит автоматически, с помощью более сильной модели.

Напротив, на LLM Arena вердикт выдают обычные люди, что делает итоговую оценку более объективной с человеческой точки зрения. При этом на LLM Arena присутствуют и другие российские нейросети - GigaChat, Сайга и Вихрь. В будущем комьюнити проекта планирует добавить проверку моделей по мультимодальным задачам - когда пользователь задает вопрос, например, картинкой и текстом. Это сделает оценку нейросетей еще более разнообразной.

Российские ученые научили ИИ самостоятельно принимать решения и думать