伊朗没有请求延长停火
数十家企业争相接入GLM-5.1,中国大模型从“追赶”进入“攻坚”_蜘蛛资讯网

Claude Opus 4.6达7分(42.7对49.8)。知乎开发者“晴天”用阅读理解、SVG代码生成等场景做横向测试,结论是GLM-5.1连基本阅读理解都未达标;另一位通过Ollama本地部署的开发者评价“整体不如Qwen3.6-Plus”。这些个体测试不代表全貌,但共同指向一个事实:GLM-5.1是一个在编程和Agent方向刻意训练、其他领域有所牺牲的“偏科生”。 &
可控,采购审批更容易过。官宣接入的成本极低,理由却足够充分。 第二,编程能力的真实突破,给了部分企业接入的产品价值支撑。 GLM-5.1在SWE-Bench Pro编程测试中拿到58.4分,超过Claude Opus 4.6(57.3分)和GPT-5.4(57.7分),并首次在该基准上以国产开源模型身
当前文章:http://j11ti4.zentaike.cn/kdulz6/b7v5e.html
发布时间:12:36:38
