Anthropic 发布 Claude Opus 4.7:SWE-bench 冲至 87.6%
Opus 4.7 登顶 SWE-bench Verified(87.6%)与 SWE-bench Pro(64.3%),定价 $5/$25。
Opus 4.7 登顶 SWE-bench Verified(87.6%)与 SWE-bench Pro(64.3%),定价 $5/$25。
Gemini 3.1 Pro 将上下文扩展到 300 万 tokens,在视频理解、多模态 MMMU 榜单登顶。
国产 MiniMax M2.5 在 SWE-bench Verified 跑到 80.2%,接近 Claude Opus 4.6 的水平。
Opus 4.7 登顶 SWE-bench Verified(87.6%)与 SWE-bench Pro(64.3%),定价 $5/$25。
Gemini 3.1 Pro 将上下文扩展到 300 万 tokens,在视频理解、多模态 MMMU 榜单登顶。
Sonnet 4.7 在编码、Agent 工具使用与 200K 上下文上再次提升,官方称在 SWE-bench Verified 上比 4.6 提升 6 个百分点。
Grok 4.20 Beta ELO 达到 1491,进入 LMArena Top 4,实时信息集成能力持续领先。
Gemini 2.5 Pro 将上下文扩展至 200 万 tokens,在数学推理与视频理解双榜登顶。
国产 MiniMax M2.5 在 SWE-bench Verified 跑到 80.2%,接近 Claude Opus 4.6 的水平。
GPT-5 的 Agent 模式允许模型调用网页浏览、终端、代码执行、文件系统,默认可规划最多 2 小时的长任务。
国产开源模型 DeepSeek V3.2 在多个推理/编程基准上追平闭源头部模型,API 价格仅为 Claude 的 5%。
Cursor 2.0 引入后台 Agent,允许模型在本地不占主线程的情况下同时处理多任务。
Anthropic 宣布完成新一轮融资,估值约 1800 亿美元,投资方包括 Google、Amazon 与多家主权基金。
Llama 4 系列发布,旗舰版本 Maverick 总参数 4050 亿、激活 170 亿,商用许可保持宽松。
国内通用 AI Agent 产品 Manus 开启公测,用户可让它自主完成从调研到交付的完整任务。
欧盟 AI Act 通用模型章节细则正式生效,模型开发商需提交训练数据摘要与版权合规声明。
CB Insights 发布 2025 全球 AI 投融资数据,Agent 与 AI Coding 两个细分赛道增长最快。
Qwen3 涵盖 1.5B 到 235B 共 8 个开源版本,多语言能力与工具调用均有明显提升。
Adobe 将 Firefly 视频模型集成进 Premiere Pro,支持风格迁移、镜头扩展与智能降噪。
无需 RLHF,仅通过大规模预训练即可让模型学会工具调用 —— 来自 Nature 最新论文。
Moonshot AI 针对企业用户推出 Kimi K2 Enterprise,支持 10M token 上下文与私有化部署。
Google NotebookLM 在音频概览之后再添视频概览功能,可把研究资料变成 5 分钟讲解短片。
Stack Overflow 2026 开发者调查显示,AI-first IDE 使用率达到 58%,超过 VS Code 原生。
GLM-4.6 技术报告公开,展示稀疏激活与工具原生训练带来的效率提升。
OpenAI 与 SoftBank 合资成立基础设施公司,计划五年内投资 5000 亿美元建造 AI 专用数据中心。
马斯克宣布 Grok 4 上线并同步开源上一代 Grok 3.5 模型权重。
Codeium 的 Windsurf 推出 Cascade 2.0,允许 AI 跨仓库协同修改并自动发 PR。