HLE

Материал из Encyclopedia Electronica

Humanity's Last Exam, сокр. HLE
«Последний экзамен человечества»
 Самое сложное академическое испытание в истории, которое можно было создать для тестирования возможностей нейросетей в точных науках, не затрагивая аспект творческих способностей.
 Экзамен HLE состоит из 3000 сложных вопросов по ста разным дисциплинам (классическая филология, химия, высшая математика, информатика, экология, лингвистика и др.). Форматов заданий два: вопросы с точным совпадением (ИИ-модели сами пишут текст в качестве ответа) и вопросы с выбором ответа (ИИ выбирает один из пяти или более вариантов ответа). Особый акцент в тесте также делается на понимании схем и изображений.
 На начало 2025 года в тесте приняли участие несколько топовых нейросетей, такие как ChatGPT (старые и новейшие версии), Claude (популярный у бизнесменов и программистов), Gemini (от корпорации Google), Grok (ИИ от Илона Маска) и DeepSeek (китайская нейросеть, которая обвалила технологический сектор США). Все они провалили экзамен (в плюс-минус 90% вопросов модели давали неправильный ответ, и ещё настойчиво утверждали, что были правы).
 Показательный момент — худший и одновременно лучший результат продемонстрировал ChatGPT (его старая обычная версия Омни показала 3,3% точности ответов, средняя o1 показала результат 9,1, а новейшая o3-mini-high — 13). А нашумевший китайский DeepSeek, которого недавно назвали «убийцей ChatGPT», показал 9,4% точности ответов.

♦ В Американской математической олимпиаде — AIME — Grok-4 удалось решить все задачи, отличные результаты модель показала и в тесте-бенчмарке Humanity’s Last Exam. 🔗 2025


Изобр. Примеры вопросов по различным академическим дисциплинам в рамках экзамена HLE (на английском языке). Под вопросами указаны их авторы и образовательные учреждения, в которых те работают или обучаются. Источник: agi.safe.ai.

Игорь Мостицкий (обсуждение) 14:14, 9 января 2026 (MSK)