Роман Куцев - Founder LLM Arena
Ещё вчера MMLU казался вершиной — а сегодня на арену выходят сложные диалоговые, экспертные и агентные бенчмарки. Метрики растут, усложняются и меняются вместе с самими моделями — и при этом ещё и задают направление всей индустрии.
В этом докладе:
проследим путь бенчмарков — от классических академических тестов до современных комплексных оценок;
разберём, почему одни метрики устаревают, а другие становятся драйвером новых исследований;
посмотрим, как растущие требования к LLM отражают ожидания пользователей и бизнеса.
Доклад будет интересен тем, кто работает с LLM, следит за их эволюцией или думает, как объективно измерить «ум» моделей в быстро меняющемся мире.
Информация о втором спикере будет совсем скоро...
Вы будете получать информацию о предстоящих мероприятиях в Ярославле в выбранных категориях.
Обещаем, никакого спама! Вы сможете отписаться в любое время.