技术要点: 总参数 900B,推理时激活约 60B; 训练中 15% 数据为工具调用轨迹,原生支持 function calling; 工具调用端到端延迟比 GLM-4.5 下降 40%; 同步发布 GLM-4.6 Air,面向消费级显卡部署。