На фоне продолжающейся гонки в Кремниевой долине за разработку моделей искусственного интеллекта с человеческими реакциями Google поделилась последними данными для своей модели Gemini 1.5 Pro. Как и ChatGPT, Gemini также использует искусственный интеллект для решения проблем, и на этот раз Google рекламирует математические возможности своего продукта. Модели искусственного интеллекта были в новостях из-за их способности решать задачи уровня колледжа в качестве меры их «интеллекта», а исследовательская работа Google показывает, что модель улучшает свои оценки по математике и успешно решает задачи, являющиеся частью международной математической олимпиады.
Специализированная модель Google Gemini для математических задач позволяет решать сложные задачи
Подробности последних результатов Gemini по математике были опубликованы в последнем техническом отчете модели на прошлой неделе. Этот довольно объемистый документ показывает, что Google намеревался имитировать обучение, которое получают математики для решения сложных задач, и для достижения этой цели компания обучила специализированный вариант своей модели искусственного интеллекта Gemini.
Математический вариант Gemini 1.5 Pro, похоже, был протестирован с помощью нескольких тестов. Согласно документу, Google использовал различные тесты для оценки результатов своей последней математической модели искусственного интеллекта. К ним относятся тесты MATH, Американский пригласительный экзамен по математике (AIME) и собственные тесты Google HiddenMath, которые также создают новые проблемы, с которыми модель не сталкивалась во время обучения.
По данным Google, производительность математического Gemini 1.5 Pro в тестах MATH « находится на уровне производительности человека-эксперта », при этом модель решает значительно больше задач в тестах AIME и улучшает результаты в других по сравнению со стандартными, не математический Близнецы 1.5 Про.
Google также поделился некоторыми примерами проблем, которые решил Gemini 1.5 Pro. Согласно ее статье, это те проблемы, на которые « Gemini 1.5 Pro, GPT-4 Turbo и все предыдущие модели Gemini отвечают[ed] неправильно », что в конечном итоге повышает планку производительности продукта Google.
Из трех примеров, которыми он поделился, два были решены с помощью специального математического варианта Gemini 1.5 Pro, а один был неправильно решен с помощью стандартного варианта Gemini 1.5 Pro. Задачи обычно требуют, чтобы решатель вспомнил основные математические формулировки в алгебре и полагался на их подстановку вместе с другими математическими правилами для получения правильных ответов.
Помимо проблемы, Google также делится важными подробностями тестов Gemini 1.5 Pro. Благодаря этому математический вариант опережает GPT-4 Turbo и Amazon Claude во всех пяти общих результатах тестов.
По данным Google, его специализированный математический вариант способен достичь « точности 80,6% в тесте MATH для одной выборки и точности 91,1% при выборке 256 решений и выборе возможного ответа (rm@256) ». подвиг, который ставит его на эквивалентный уровень с человеком-экспертом. Фактически, по словам Джеффа Дина, главного научного сотрудника Google Deep Mind, показатель 91,1% в математической модели значительно выше, чем показатель SOTA (современный уровень техники), составлявший всего 6,9% всего три года назад.
0 Комментариев