«Ложно предполагать, что если мессенджер национальный, то в нем не будет мошенников...»
Игорь Ашманов
Международная группа ученых обнаружила неожиданную слабость современных систем искусственного интеллекта (ИИ). Оказалось, что при выполнении длинных задач даже самые продвинутые языковые модели начинают терять концентрацию и все чаще допускают ошибки. Результаты исследования опубликованы в журнале PNAS Nexus.
Для проверки исследователи использовали тест Струпа — известный психологический метод оценки внимания. Его суть заключается в том, что участнику показывают названия цветов, напечатанные чернилами другого цвета, и просят назвать именно цвет текста, игнорируя написанное слово. Например, если слово «красный» напечатано синим цветом, правильным ответом будет «синий».
Человеческий мозг обычно справляется с такой задачей достаточно стабильно даже при большом количестве примеров. Однако языковые модели показали совсем другую картину.
Команда под руководством Сукету Пателя протестировала GPT-4o, Claude 3.5 Sonnet, GPT-5, Claude Opus 4.1 и Gemini 2.5. На коротких последовательностях из пяти слов все системы демонстрировали высокую точность. Но по мере увеличения длины задания результаты резко ухудшались.
Так, GPT-4o правильно отвечал в 91% случаев при пяти словах, однако при десяти словах точность снижалась до 57%, а при сорока — всего до 15%. Claude 3.5 Sonnet сохранял хорошие показатели немного дольше, но после двадцати слов его результат также резко падал.
По мнению авторов исследования, причина заключается в том, что модели постепенно теряют из виду исходную инструкцию и возвращаются к наиболее привычному для них поведению — чтению слов вместо анализа цвета. Именно это, как считают ученые, отличает современные нейросети от человека, который способен длительное время удерживать произвольное внимание и следовать поставленной задаче.