Большинство моделей демонстрируют хорошие показатели рассуждения только в одном тесте (Фото:REUTERS/Dado Ruvic)

Не такие уж и умные? Инженеры Apple проверили возможности лучших ИИ-моделей, и результаты не вдохновляют

Новое исследование, проведенное шестью инженерами Apple, показало, что минимальные изменения в отраслевом тесте значительно снижают эффективность выполнения математических задач ChatGPT, Llama, Mistral и другими крупными языковыми моделями.

Набор из более чем 8000 текстовых математических задач GSM8K часто используется в качестве эталонного теста для проверки комплексных способностей рассуждения современных LLM. Однако из-за того, что он очень популярен, может происходить так, что LLM знают ответы на тест не потому, что действительно имеют надлежащего уровня внутренний интеллект, а потому, что это уже есть в их учебных данных. Именно такой эффект продемонстрировало исследование инженеров из Apple, опубликованное на сервисе препринтов arXiv.

«Текущие LLM не способны к настоящему логическому рассуждению. Вместо этого они пытаются воспроизвести шаги рассуждения, которые наблюдаются в их учебных данных», — предполагают исследователи на основе результатов собственных тестов.

Исследователи показали, как меняется эффективность ИИ после корректировки тестов / Фото: Иман Мирзаде, Кейван Ализаде, Хуман Шахрохи и другие / arXiv

Чтобы проверить возможности ИИ, исследователи разработали новый контрольный тест под названием GSM-Symbolic, в котором сохранили суть задач из GSM8K, но изменили имена, числа, добавили различную нерелевантную информацию и тому подобное. С помощью GSM-Symbolic, было протестировано более 20 моделей, в том числе o1 и GPT-4o от OpenAI, Gemma 2 от Google и Llama 3 от Meta. Каждая из протестированных моделей демонстрировала одно и то же — производительность снижалась на 0,3−9,2%, когда переменные в задачах обновлялись. При этом точность одной модели варьировалась (расхождения до 15 процентов точности). Изменение чисел в задании приводило к худшей точности, чем изменение названий.

Когда ученые добавили к тестам информацию, которая могла бы показаться релевантной, но в итоге была несущественной, сформировав набор задач GSM-NoOp, протестированные большие языковые модели показали гораздо худшие результаты. Наблюдалось падение производительности на 17,5−65,7%, что исследователи назвали катастрофическим.