最强OpenAI o1逻辑推理正确率仅50%,清华、智谱推出“大模型逻辑推理新基准”

发布时间:2024-10-17 23:09  浏览量:11

原创 学术头条 学术头条9.11 和 9.9 哪个大?这一连人类幼儿园儿童都能回答的问题,曾经(至今)难倒了众多大语言模型(LLM)。访问以下链接了解详情:Leaderboard 链接:https://github.com/Hypatiaalegra/LogicGame-DataCodabench 提交链接:https://www.codabench.org/competitions/4140/

外部推荐