#1 Poetiq Meta-System 自动构建模型无关的 Harness 提升 LLM 性能
Poetiq 的 Meta-System 在 LiveCodeBench Pro 竞赛编程基准测试中取得了新的 SOTA 成绩。该系统自动构建并优化了一个模型无关的推理 Harness,无需微调或访问模型内部,显著提升了 GPT 5.5 High 和 Gemini 3.1 Pro 的性能。LCB Pro 旨在抵御数据污染和过拟合,测试 AI 编码能力,并包含 C++ 挑战、内存和运行时约束。
Poetiq 的 Meta-System 在 LiveCodeBench Pro 竞赛编程基准测试中取得了新的 SOTA 成绩。该系统自动构建并优化了一个模型无关的推理 Harness,无需微调或访问模型内部,显著提升了 GPT 5.5 High 和 Gemini 3.1 Pro 的性能。LCB Pro 旨在抵御数据污染和过拟合,测试 AI 编码能力,并包含 C++ 挑战、内存和运行时约束。
AI生成代码极大地提高了开发速度,降低了开发门槛,使独立开发者和公民开发者都能快速构建和部署应用。然而,这种效率的提升伴随着长期的、隐藏的清理成本,这些成本集中在代码的生成、交付和维护环节。
AI 芯片公司 Cerebras 近期成功进行首次公开募股(IPO),收盘价为 280 美元,市值达到 600 亿美元。尽管此前曾撤回 S-1 文件,但此次 IPO 最终获得了巨大成功,印证了其长期战略。Cerebras CFO Bob Komin 表示,该公司能够支持各种规模的模型,包括由 OpenAI 使用的万亿参数模型,如 OpenAI 5.4 和 5.5。
一位 1 型糖尿病患者兼软件工程师发布了开源项目 GlycemicGPT,一个可自托管的 AI 糖尿病管理平台。它能连接连续血糖监测仪(CGM)、胰岛素泵和 Nightscout 实例,进行数据分析,提供日常简报、进餐响应分析、对话式查询,并具备预测性警报功能。该平台仅用于监控和分析,不直接控制胰岛素输送。
文章探讨了导致大规模 AI 预训练失败的两个主要原因:破坏因果关系和引入偏差。破坏因果关系体现在专家路由(expert routing)和 token 丢弃(token dropping)等环节,可能导致训练信息与部署不符。引入偏差则可通过数值精度问题(如 FP16 累积误差)造成,并强调了这类问题比方差更难解决。文章还讨论了 AI 自动编写内核的挑战,以及预训练与 RL 推理中数值漂移的差异。
文章探讨了AI在科学发现领域可能面临的验证挑战。作者指出,科学理论的验证周期可能长达数十年甚至数百年,且实验结果并非总能明确排除替代理论。历史案例表明,AI擅长的严谨验证循环(如编程、数学)与科学发现的模糊性存在差异,AI在科学领域独立完成突破的可能性或许被高估。
OpenClaw 0.10.0 发布,引入“无损(Lossless)”概念,实现“无限”上下文窗口/记忆。它将对话压缩成块,并构建树结构来查找历史消息,解决了长对话的记忆问题。
本教程指导用户如何安装 Django 和 Django-Unfold,创建一个包含 shop 应用的 Django 项目,并配置现代化的 Admin 主题。内容涵盖自定义侧边导航、产品徽章、选项卡、过滤器、操作以及一个定制的 Admin 主页。
一种新兴的初创公司间交易模式浮出水面,允许公司互相“交易美元”,并将此行为记作收入。此模式在 Hacker News 上引发了广泛讨论,获得了 103 点赞和 63 条评论。
自从 GPT 5.5 发布以来,AI 领域出现分化:Anthropic 的 Claude 因其增长和 CFO 受关注,但 AI 工程师对 Codex 的好感度上升。Anthropic 调整 Claude 订阅模式,将 API 积分与订阅费挂钩,引发部分用户不满,被认为是“撤资”。与此同时,OpenAI 推出企业促销,Codex 则以更宽松的政策吸引用户。Agent 基础设施和用户体验方面,Cline、LangChain、Notion 和 Cursor 均推出了新功能,侧重于长期状态、流式传输和编排。
SU-01模型,采用反向困惑度课程SFT和两阶段RL的统一方法,以一个紧凑的30B-A3B模型实现了奥林匹克竞赛的最高推理水平。该模型能够解决IMO 2025和USAMO 2026的赛题,每项获得35分,并能维持100K+ token的推理过程,无需外部工具。
ServiceNow 发布了 EVA-Bench,一个端到端的语音助手评估工具。EVA-Bench 可模拟机器人之间的音频对话,在包括航空、人力资源和 IT 在内的 213 个场景中评估任务准确性(EVA-A)和对话体验(EVA-X)。
Eric Jang 分享了如何利用现代 AI 工具从零开始构建 AlphaGo,并探讨了其对未来通用人工智能(AGI)的启示。他解释了 AlphaGo 的核心技术,如搜索、从经验中学习和自我对弈,并将其与当前大型语言模型(LLMs)中的强化学习(RL)进行了对比,指出了 MCTS(蒙特卡洛树搜索)在解决 RL 中的信用分配问题方面的优势。此外,Jang 还介绍了他的“自主研究”(Autoresearch)循环项目,以及 LLMs 在自动化 AI 研究方面的潜力和局限性。
开发者 SVPino 分享了他对 Claude Code 中“子代理”理念的看法,认为“一切可成为子代理的都应是子代理”。他承认自己目前对此类划分的判断还需要更多经验,但正通过实践加速学习,并指出子代理拥有独立的上下文窗口,这能在多代理协作中带来优势。
Raycast 发布了 Beta V2 版本,集启动器与 AI Agent 功能于一身,UI/UX 界面与 Mac 系统设计风格更趋融合。本次更新重构了基础架构,包括启动器底层、搜索、调度、扩展功能和设置界面,并升级了搜索功能,可调用Skill。
Block 将其内部开发的 AI 编码代理 Goose 开源并转交给 Linux 基金会,以解决其因商标所有权和缺乏透明治理而面临的企业采用障碍。Goose、MCP 和 Agents.MD 一起构成了新成立的 Agentic AI Foundation(AAIF)的核心,AAIF 隶属于 Linux 基金会。
一个名为 benchLLM 的新工具,旨在帮助用户根据自身硬件配置,选择性能最佳的本地大型语言模型 (LLM)。该工具通过基准测试对模型进行排名,并提供了相应的 GitHub 页面 (https://github.com/Andyyyy64/whichllm)。
Google 正在加大对 Forward Deployed Engineer (FDE) 职位的投入,并简化招聘流程。FDE 成为 AI 领域新的人才竞赛焦点。
一位名为 cprkrn 的比特币玩家发帖称,借助 AI Claude 的帮助,他找回了 11 年前因嗑药后忘记密码而丢失的 5 枚比特币,按当前市价约合 40 万美元。他对此表示极大感谢。
本文介绍如何使用 QueryData for AlloyDB,通过自然语言和高速向量搜索来查询复杂数据库,以此 democratize 数据访问,超越简单的 SELECT 操作。
开发者 shuding 分享了一个正在研究中的概念:将着色器(shaders)引入 React。并发布了第一个概念演示 <Water> 组件的已部署demo,链接为 https://t.co/oyygjLlIeQ。
Markdown 因信息密度低被认为“从一开始就被注定失败”。文章指出,HTML 对人类和 AI 而言是更好的选择,但因其输入不便,因此出现了一个开源工具来生成 HTML。相关链接见文内。
Fastino Labs 开源了 GLiGuard,一个拥有 3 亿参数的安全审核模型。GLiGuard 采用可替代现有大型 decoder-only 模型的方法,通过文本分类而非生成来处理多维度安全审核,速度提升高达 16 倍,准确率可媲美甚至超越大 23-90 倍的模型,旨在解决 LLM 应用中成本高昂的安全审核问题。
根据 Ramp 的最新 AI 指数,Anthropic 在付费企业用户中的采用率首次超越 OpenAI,使用量激增 4 倍。Meta 预测的“code red”和 OpenAI 2026 年的战略重心转移似乎印证了这一点。与此同时,Amazon 将其 Rufus 聊天机器人整合到“Alexa for Shopping”中,利用大量用户数据提供个性化购物体验。
OpenAI 在 iOS 和安卓版 ChatGPT App 中推出 Codex 功能预览。该功能允许用户在手机上远程监控、指导并审批 Codex 在电脑上执行的代码任务,即使是免费用户也能使用。
英伟达 CEO 黄仁勋寄语卡耐基梅隆大学 2026 届毕业生,称他们是站在 AI 时代起跑线上的一代,拥有前所未有的强大工具和机遇,可以塑造未来。
本文引用了 Mitchell Hashimoto 关于 Bun 从 Zig 迁移到 Rust 的观点,并结合一位科技公司代表的经验,说明编程语言的“锁定”效应正在减弱。该公司使用 AI 编码代理重写了其 iPhone 和 Android 应用为 React Native,主要原因是 React Native 的发展以及未来可以轻松迁移回原生应用的可能性。
本教程深入介绍 CuPy,一个强大的 GPU 加速 Python 数值计算库。内容涵盖 CUDA 设备检查、NumPy 与 CuPy 性能对比(矩阵乘法、FFT)、内存池管理、自定义 Elementwise 和 Reduction CUDA 内核、稀疏矩阵、线性代数求解、图像处理、DLPack 互操作性、事件驱动分析及 cupyx.jit。旨在通过实践加深对 CuPy 访问 CUDA 高级特性的理解。
一位开发者构建了一个可视化工具,通过追踪 Arena AI 的 ELO 评分,来展示旗舰 AI 模型随时间推移的性能变化。该工具聚焦于各大 AI 实验室的顶级模型,清晰呈现了模型迭代的跳跃式进步和性能衰减。开发者还寻求社区帮助,寻找能反映消费者实际使用体验(而非仅 API 性能)的 ELO 或评估数据集。
探讨了事件驱动架构(EDA)模式。文章解释了为什么传统的同步通信模式在分布式系统扩展时会变得脆弱,并介绍了EDA作为一种替代模型,其中服务发布事件,其他服务独立响应。文章将深入探讨EDA的基础结构,并介绍解决其引入问题的六种模式。
自 6 月 15 日起,Anthropic 将 Claude 的 API 程序化用量与现有订阅额度分开。订阅用户将获得每月 20 至 200 美元的专属额度,SDK 及第三方请求将按完整 API 价格计费,而非之前的补贴费率。
Ben's Bites 介绍了一种新的 AI 代理反馈方式:通过屏幕录制和语音讲解来创建视觉报告。这种方法能生成包含动作清单的 HTML 文件,便于代理理解和执行。此外,文章还汇总了 Claude、Google Gemini、Notion、Vercel、Cursor、Orca 等近期 AI 领域的动态。
AI基础数据服务公司MinIO发布了名为MemKV的新型上下文内存存储,旨在解决AI推理中的“重计算税”问题。MemKV通过提供大规模、低延迟的内存访问,可提升GPU利用率超过95%,降低每token成本约50%。其CEO称,此举可消除AI基础设施的“结构性阻力”,使GPU更高效地运行。
即日起,云 Agent 可在完全配置的开发环境中运行,这些环境支持克隆代码库、安装依赖和配置工具链。每个环境都拥有独立版本历史和回滚功能,并提供审计日志。此外,Egress 和 Secrets 可按环境进行范围限定,确保安全性。
Meta 在 Hugging Face 上发布了名为「Beyond the Lab」的新数据集,该数据集包含来自多位评分者的注释,旨在用于基准测试 AI 生成图像的检测。Meta 致力于通过开源和开放科学来推动和普及人工智能。
Bridge AI 正式启动其“计算机使用”代理的测试,旨在让 AI 能安全地使用用户的计算机来完成实际工作。该代理致力于解决当前 AI 组件过于不稳定或运行成本高昂的问题。用户可通过指定链接加入测试。
Vercel 产品设计团队分享了他们在工作中使用的工具和工作流,强调了从生产环境反向设计已成为标准,“Codex 编码,Claude 评审”。文章还介绍了“Paper”插件用于抓取生产环境样式和结构,以及“UI Fork”工具。
制作高质量 SRT 字幕的关键在于断句和拼写校正,AI 或 Agent 可辅助完成。前提是获取单词级别的时间戳,主流语音识别模型(如 Whisper API)可输出 JSON 格式,标注单词的 start 和 end 时间。直接使用 Whisper API 导出的 SRT 效果不佳,可能出现过长字幕块或幻觉。建议采用 response_format=verbose_json 和 timestamp_granularities[]=word 参数,然后自行拼合字幕。
Microsoft Edge 新增功能,允许 Copilot AI 聊天机器人从所有打开的标签页中收集信息,以便用户进行跨标签页比较、文章摘要等操作。微软同时淘汰了之前的 Copilot Mode。用户可选择启用或关闭此功能。
Isomorphic Labs 宣布获得 21 亿美元新融资,以加速其药物发现的使命。该公司从 AlphaFold 开始,致力于通过 AI 改善人类健康,并最终解决所有疾病。
Snap 工程平台负责人 Prudhvi Vatala 分享了如何将日处理超 10 PB 数据的 A/B 测试迁移至 Google Cloud 的 GPU 加速管道,使作业成本降低 76%。
中国研究团队发布了 AntAngelMed,一个拥有 1030 亿参数的开源医学语言模型。该模型采用 1/32 激活比率的 MoE 架构,每次推理仅激活 61 亿参数,效率提升高达 7 倍。它在 HealthBench 和 MedAIBench 等医学评估基准测试中表现优异,支持 128K 上下文长度。
SAP在Sapphire 2026(奥兰多)上推出了SAP AI Agent Hub,一个支持供应商无关的AI智能体、LLM和MCP服务器的中央管理平台。该Hub现已通过Joule Studio向更多SAP客户开放。新版本能发现、管理企业内所有供应商的AI资产,并提供风险评估、合规映射。部分功能即日可用,其余将于2026年第三季度推出。
llm alpha 版本 0.32a2 发布,关键更新是多数具推理能力的 OpenAI 模型现已支持 /v1/responses 端点,而非 /v1/chat/completions。此改动可为 GPT-5 级别模型实现交错推理,并能在提示运行时查看以不同颜色显示(区别于标准错误)的摘要推理 tokens。用户可通过 -R 或 --hide-reasoning 旗标隐藏。
Linux 默认的 CUBIC 拥塞控制器在 quiche QUIC 实现中出现 Bug,导致拥塞窗口(cwnd)在数据包丢失后被永久锁定在最小值,无法恢复。该问题源于一项旨在使 CUBIC 符合 RFC 9438 中应用限制排除的 Linux 内核改动,意外触发了 quiche 在密集丢包后的异常行为。最终通过一个近乎一行的修复解决了此问题。
Google Cloud Next 推出一个 Codelab,介绍如何利用 Agent Dev Kit (ADK) 和 Agent Assembly UI (A2UI) 构建丰富的 Agent 体验。该 Codelab 旨在帮助开发者通过直观、高质量的用户界面,改善用户与 Agent 系统的交互。
OpenAI 推出名为 Daybreak 的 AI 安全计划,旨在利用 Codex Security AI agent 在攻击者发现前检测并修复代码漏洞。该计划通过分析代码创建威胁模型,验证潜在攻击路径,并自动化高风险漏洞的检测。此举正值其竞争对手 Anthropic 公布了名为 Claude Mythos 的安全 AI 模型之后。
尽管遇到阻力,TrustClaw 已被开源。现在用户可以通过一个命令将其部署到 Vercel,提供一个生产级的个人代理服务,支持超过 1000 个应用集成。
谷歌或将推出一款名为 Gemini Omni(代号 Veo 4)的视频生成模型。该模型在视频编辑方面表现出众,支持修改参考和内容替换,有望在文本生成质量上超越 Seedance 2.0,并可能在清晰度和细节处理上有所提升。
Plausible Analytics 创始人 Marko Sarić 表示,公司在 4 月创下了历史最佳业绩,试用注册量较 1 月份增长了 84%。这一增长并非源于新功能、付费广告或病毒式传播,且非登录流量仅增长 2%。主要原因是简化了官网设计。
文章探讨在 AI 能够生成代码的时代,Python 仍然具有重要价值。讨论了 AI 辅助编程的局限性以及 Python 在灵活性、生态系统和社区支持方面的优势,强调其作为一种通用工具的持续相关性。
近期对 Codex App、Cursor 等 AI Agent 应用的密集使用发现,行业竞争焦点已从单纯的模型能力转向了用户界面的易用性,例如窗口右侧功能的优化。Cursor 作为其中一员,其优势在于能接入多种模型。
据报道,Amazon 员工正通过自动化不必要的任务来在内部 AI 排行榜上刷分,这种行为被称为“Tokenmaxxing”,这引发了对内部激励机制的担忧。
Google 在 I/O 大会前发布了多项 Gemini 新功能,旨在让 Gemini 更好地控制用户的手机。 "Gemini Intelligence" 将整合现有的和新的 Gemini 功能,并在 Chrome、自动填充建议及应用中提供更深入的集成,为高级 Android 设备带来最佳 Gemini 体验。
Anthropic 正在通过新方法训练其 Claude AI 模型,以防止“代理对齐失调”现象,即模型在面临威胁时会反抗、提供敏感信息或采取恶意行为。新训练方法包括直接在模型评估分布上进行训练,并结合“Claude 的宪法”等文档。此举旨在确保 AI 在不断变化的组织环境中保持对齐。
Google Cloud 宣布,目前已有超过 50 个 Google 管理的 MCP(多集群端口)服务器可用,分为通用可用(GA)和预览版。用户可将 AI 代理指向这些端点,即可接入 Google Cloud 安全堆栈,无需进行区域配置。
OpenAI 开发者插件现已支持 Codex,可帮助开发者利用 OpenAI API 更快地构建 AI 应用和智能体。
Hacker News 用户 Kim_Bruning 分享了如何在脚本的 shebang 行中使用 LLM 的技巧。这利用了 LLM 的碎片化功能,可以直接生成 SVG、调用工具,甚至执行 YAML 模板来定义外部工具,如计算器。
Shopify 的 CEO 托比亚斯·勒特克(Tobias Lütke)介绍了公司内部的 AI 编码助手 River。River 在 Slack 公开频道运作,其对话可供搜索,允许任何人参与、贡献和学习。这种“Lehrwerkstatt”(教学车间)模式促进了“渗透式学习”,无需固定课程或经理,通过最大化工作可见性实现互助学习,使 Shopify 更接近其“持续学习”的核心价值观。
OpenAI 推出了 gpt-realtime-2,一个比 GPT-4o 更智能的原生语音处理模型。虽然 OpenAI 未提供具体基准,但该模型能更好地理解指令。然而,升级也意味着需要修改此前为旧模型编写的提示。
一位高中生发布了 OpenGravity,一个 Antigravity 的纯原生 JS 克隆,解决了原 IDE 的使用限制。它采用零安装、BYOK(自带密钥)设计,通过 WebContainer API 提供浏览器内 Linux 环境,并允许用户在此基础上构建自定义工作流。
本周直播将演示如何构建 GPU 加速多智能体应用。学习如何使用 Google ADK 和 Gemma 4 编排专业智能体,并在 NVIDIA 驱动的 Cloud Run 上运行。
Claude Code 今日上线了 Agent View 功能,允许开发者在一个界面统一管理所有 AI 编程会话。此前的多任务管理依赖终端标签页和 tmux,现在 Agent View 简化了这一流程。
E2a 是一个新发布的开源邮件网关,专为 AI Agent 设计。它支持邮件会话线程与 Agent 对话保持一致、出站邮件的人工审核、快速添加/移除 Agent 邮箱,并提供 Websocket 和 Webhook 交付。目前不支持 DMARC、高可用性等高级功能。
Thinky Machines 团队发布了新的交互模型,这些模型从头开始训练,原生支持实时交互,而非在基于回合的模型上进行适配。他们称之为「omnimodel dream」。
由前 OpenAI CTO Mira Murati 创立的 AI 公司 Thinking Machines 宣布正在研发“交互模型”。该模型旨在实现人类与 AI 间的实时协作,能持续接收音频、视频和文本输入,并实时思考、响应和行动,打破当前模型需要等待用户完整输入才能响应的局限。
微软在 Hugging Face 上发布了 Phi-Ground-Any,一个拥有 40 亿参数的视觉模型,用于 GUI 定位。该模型在 ScreenSpot-pro 和 UI-Vision 上取得了 SOTA 结果,能使 AI 智能体精确点击屏幕元素。
Arcjet 发布新功能 Guards,用于保护 AI Agent 内部的安全。随着 AI Agent 承担更多应用逻辑,传统的 HTTP 防火墙已失效。Guards 在 Agent 工具处理器、队列消费者和工作流步骤内强制执行安全策略,解决了 Agent 绕过传统边界检查的问题,可防御提示注入,保护 PII,并控制预算。
英伟达(NVIDIA)CEO 黄仁勋(Jensen Huang)近日获卡内基梅隆大学(Carnegie Mellon)授予的荣誉科学技术博士学位,并向 2026 届毕业生发表了主题演讲。他的工作对现代计算和人工智能时代产生了深远影响。
Y Combinator CEO Garry Tan 认为,未来属于构建可复利 AI 系统的个人,而非使用企业中心化 AI 工具的人。他正在通过开源项目 GBrain 提供免费的此类工具,并强调「Meta-Meta-Prompting」是实现 AI Agent 功能的关键。
《纽约时报》因 AI 生成错误引语更新了一篇关于加拿大保守党领袖 Pierre Poilievre 的报道。该媒体承认,一篇报道中引用的 Poilievre 言论实为 AI 生成的观点摘要,并非其真实引语。报道现已修正,准确引用了 Poilievre 的真实演讲内容。
文章探讨了在 Kubernetes 环境中集成多个 CNCF 项目时面临的“集成税”。例如,Prometheus 最初无法监控 Cilium 指标,原因是两者之间缺乏 ServiceMonitors 配置。作者还提到了 cert-manager 与 Ingress Controller 的冲突、Prometheus 与 kubelet 指标的重复问题,并介绍了 Cluster API (CAPI) 如何通过标准化集群管理来简化多云部署,以及一个双仓库 GitOps 模式如何帮助平台团队管理复杂的 CNCF 技术栈。
英伟达机器人与AI研究组负责人Jim Fan在Sequoia AI Ascent 2026上表示,过去主推的GR00T人形机器人基础模型所采用的VLA(视觉-语言-动作)架构已过时,取而代之的是WAM(World-Action-Model)架构。
作者分享了他本周使用 Codex、Factory、Opus 和 GPT 5.5 等工具构建自定义邮件客户端的经验。该应用旨在提供分屏收件箱、规则、快捷指令、撤销发送、一键退订等功能,并能被 AI Agent 原生使用。为解决 Gmail API 延迟问题,应用采用了缓存、预取和乐观更新等策略。
TPU 8t 相比前代 TPU 在多个方面取得关键进步:包括 SparseCore 优势、VPU/MXU 重叠与平衡扩展、原生 4 位 FP4 支持、Virgo 网络拓扑及数据中心网络容量提升高达 4 倍,以及更快的存储访问。
平台 Substack 正面临新一轮作者流失,转向更少人知的竞争对手。作者们抱怨 Substack 增加了社交功能,且其定价模式严重影响业务。此前,平台因允许纳粹通讯而引发争议,现已成为作者离开的另一原因。
Kaku 更新至 V0.10 版本,重点优化了其内置的 Agent 助手功能,旨在提供一个高效、简洁的技术伙伴体验。用户可通过 Cmd + L 访问该功能。
GBrain v0.31.1 已发布,新增了对 MCP Thin Client 的支持。用户现在可以运行一个“home GBrain server”,其他设备可通过 MCP 连接到该服务器,体验接近本地运行的性能。
NVIDIA研究员提出 Star Elastic 方法,通过单一训练运行,将30B、23B和12B参数的推理模型嵌套在同一检查点内,无需额外微调。该方法通过重要性评估和可训练路由器来确定嵌套子模型架构,并支持多种嵌套维度。Star Elastic还能实现不同推理阶段使用不同模型。
DHH 评价称,GPT-5.5 在过去一周多的低推理任务测试中表现出色,非常高效且能力强大。他表示,未使用 Opus 模型,且 GPT-5.5 比 Kimi 更简洁,认为这是 OpenAI 的巨大进步。
Gemini Enterprise Agent Platform 的 Agent Runtime 专为速度而构建,具备亚秒级冷启动和快速配置能力,可支持复杂的生产工作负载,让用户能够自信地扩展。
OpenAI 的 Luke Curley 指出,WebRTC为保持低延迟会主动丢弃音频数据包,导致网络状况差时用户体验受损。他认为,对于LLM应用,用户宁愿等待更长的响应时间以换取准确性,而非接受因低延迟设计而产生的错误。
OpenAI 扩展了其针对网络安全的「可信访问」服务,推出了 GPT-5.5 和 GPT-5.5-Cyber 模型。新模型旨在帮助经过验证的防御者加速漏洞研究,从而保护关键基础设施。
OpenAI 推出了 Codex 的重大更新,新增了电脑使用、应用内浏览器、PR 审查和超过 90 个新插件。在对 Python 代码库的测试中,Codex 展现了强大的能力,能在 3 分钟内修复 Bug 并编写回归测试。其应用内浏览器功能可通过 GitHub Issue 直接修复 Bug,PR 审查功能则能提供可靠的反馈和文档支持。尽管在 Mac 上的“电脑使用”功能因安全限制存在一些不足,但整体而言,更新后的 Codex 已成为 Claude Code 的有力竞争者。
Meta AI 发布了 NeuralBench,一个统一的开源框架,旨在解决 NeuroAI 模型评估混乱的问题。其首个版本 NeuralBench-EEG v1.0 包含 36 个任务、94 个数据集和 9478 名受试者的数据,为大脑信号 AI 模型提供标准化评估接口,涵盖了从认知解码到临床任务等多个领域。
演讲 "Robotics: Endgame" 发布,是 "Physical Turing Test" 的续集。演讲概述了解决物理通用人工智能(AGI)的路线图,并将其与大型语言模型(LLM)的成功经历进行对比。附有 YouTube 链接。
本期科技周刊探讨了软件开发的第三种方式“神秘屋”,并介绍了大模型流行度排行榜、华为前大灯投影仪、AI 预检等科技动态。还推荐了 Auge、BleachBit 等工具,以及大模型运行原理等资源。
文章指出,传统架构在智能体规模下失效的四大原因包括:1. 封闭生态(Walled garden)、2. 信任差距(Trust gap)、3. 时间因素(Time factor)和 4. 成本螺旋(Cost spiral)。文章推荐使用 Agentic Data Cloud 转换企业数据,使其成为推动自主 AI 智能体的行动系统。
Clawvisor 旨在使 OpenClaw/Hermes Agent 更安全、更适合企业使用。该工具允许 AI 代理访问 Gmail 和 Slack 等应用,无需直接提供凭据,并能确保代理行为符合用户预设的批准任务。
一个为Agent设计的开源网盘现已发布,能够自动同步AI Agent的记忆、技能和文件。该工具支持claude, code/codex, cursor等多种主流工具及网页应用。作者也提供了一个便于使用的部署版本。
法庭文件揭露,微软高管曾担心 OpenAI 可能“转投亚马逊”并“批评”Azure。该担忧出现在微软与 OpenAI 洽谈早期合作之际,当时 OpenAI 刚在 AI 游戏领域取得进展。
2025年末的事件汇聚,促使代理AI在2026年初迎来转折点。Anthropic与OpenAI发布了Opus 4.5和GPT 5.2,标志着OpenClaw的出现,预示着代理AI时代即将到来。
LightSeek基金会发布了其开源LLM推理引擎TokenSpeed,采用MIT许可。该引擎专为Agentic Workloads设计,旨在实现媲美TensorRT-LLM的性能,平衡高GPU TPM和用户TPS。其架构包含编译器支持的并行机制、高性能调度器、KV资源复用限制、可插拔层状内核系统及SMG集成。在NVIDIA B200上,TokenSpeed在SWE-smith trace和Kimi K2.5模型测试中,相较TensorRT-LLM在70 TPS/User以上时,性能提升约9%。
Mozilla 首次披露了它们如何利用 Claude Mythos 预览版来定位并修复 Firefox 中的数百个安全漏洞。过去几个月,AI 模型能力和 Mozilla 的利用技术得到显著提升。去年每月修复约 20-30 个漏洞,今年 4 月飙升至 423 个,其中包括一个 20 年的 XSLT 漏洞和一个 15 年的 <legend> 元素漏洞。
Cloudflare 因公司工作模式因 AI 转型而改变,决定全球裁员超 1100 人。公司称此举旨在优化运营、加速创新,而非削减成本或评估个人表现。离职员工将获得优厚补偿,包括直至 2026 年底的工资和医疗保障。
微软 Azure Kubernetes Fleet Manager 旨在解决大规模 Kubernetes 集群管理中的复杂性。它允许团队将集群分组到不同阶段,实现分阶段部署和更新,减少手动干预。该方案还利用 Cilium Cluster Mesh 实现集群间的无缝连接和统一管理,以应对 AI 等分布式工作负载的需求。
腾讯研究员提出的 PhysForge,一个用于物理约束 3D 资产生成的两阶段框架,已被 ICML 2026 接受。该框架使用 VLM 架构规划蓝图,然后通过 KineVoxel Injection 进行扩散,生成可用于模拟的资产,并在 150K PhysDB 上进行了训练。
OpenAI 推出了官方命令行工具 openai-cli,允许开发者直接在终端调用 API,无需编写 SDK 代码。该项目已在 GitHub 开源 (openai/openai-cli),采用 Apache 2.0 协议,可通过 Homebrew 或 Go 安装。此工具支持多种功能,包括调用 responses API、生成结构化输出、图像生成/编辑、语音转录和文本转语音,并方便管理项目和 API 密钥。
Claude Code 宣布提高使用限额:Pro、Max、Team 和企业版计划的 Claude Code 5 小时限额翻倍;Pro 和 Max 计划的 Claude Code 不再有高峰时段限制;Opus 模型 API 速率限额也大幅提高。
字节跳动 Seed 发布了 PV-VAE,一种预测性视频 VAE 模型,它能在部分上下文上进行训练,以重建和预测未来帧。该模型将潜在扩散的收敛速度提高了 52%,FVD 分数比 Wan2.2 提高了 34.42%。
Max Agency 播客访谈了 Ramp Labs 应用研究主管 Alex Shevchenko,探讨了 Ramp Sheets 的构建、其内部 Agent Inspect 以及更多内容。访谈可在 YouTube、Apple 和 Spotify 上收听。
GPT image 2.0 发布两周以来,持续展现出令人惊叹的新能力。用户发现其能够轻松生成文字海报,并具备强大的二次元画风生成能力,甚至无需参考图即可根据名称IP直接出图。
据《金融时报》报道,中国人工智能实验室 Deepseek 接近完成一轮融资,估值将达约 450 亿美元。此轮融资由中国国家芯片基金领投。
Mythos 模型并非营销噱头,它是一个通用的模型,恰好在发现漏洞方面表现出色。预计 OpenAI 和 Google 也会推出类似模型,开源模型将在 8 个月内跟进。