#1 微软发布 Phi-Ground-Any GUI 视觉模型
微软在 Hugging Face 上发布了 Phi-Ground-Any,一个拥有 40 亿参数的视觉模型,用于 GUI 定位。该模型在 ScreenSpot-pro 和 UI-Vision 上取得了 SOTA 结果,能使 AI 智能体精确点击屏幕元素。
追踪 159 篇 · 精选 14 篇
微软在 Hugging Face 上发布了 Phi-Ground-Any,一个拥有 40 亿参数的视觉模型,用于 GUI 定位。该模型在 ScreenSpot-pro 和 UI-Vision 上取得了 SOTA 结果,能使 AI 智能体精确点击屏幕元素。
Arcjet 发布新功能 Guards,用于保护 AI Agent 内部的安全。随着 AI Agent 承担更多应用逻辑,传统的 HTTP 防火墙已失效。Guards 在 Agent 工具处理器、队列消费者和工作流步骤内强制执行安全策略,解决了 Agent 绕过传统边界检查的问题,可防御提示注入,保护 PII,并控制预算。
英伟达(NVIDIA)CEO 黄仁勋(Jensen Huang)近日获卡内基梅隆大学(Carnegie Mellon)授予的荣誉科学技术博士学位,并向 2026 届毕业生发表了主题演讲。他的工作对现代计算和人工智能时代产生了深远影响。
Y Combinator CEO Garry Tan 认为,未来属于构建可复利 AI 系统的个人,而非使用企业中心化 AI 工具的人。他正在通过开源项目 GBrain 提供免费的此类工具,并强调「Meta-Meta-Prompting」是实现 AI Agent 功能的关键。
《纽约时报》因 AI 生成错误引语更新了一篇关于加拿大保守党领袖 Pierre Poilievre 的报道。该媒体承认,一篇报道中引用的 Poilievre 言论实为 AI 生成的观点摘要,并非其真实引语。报道现已修正,准确引用了 Poilievre 的真实演讲内容。
文章探讨了在 Kubernetes 环境中集成多个 CNCF 项目时面临的“集成税”。例如,Prometheus 最初无法监控 Cilium 指标,原因是两者之间缺乏 ServiceMonitors 配置。作者还提到了 cert-manager 与 Ingress Controller 的冲突、Prometheus 与 kubelet 指标的重复问题,并介绍了 Cluster API (CAPI) 如何通过标准化集群管理来简化多云部署,以及一个双仓库 GitOps 模式如何帮助平台团队管理复杂的 CNCF 技术栈。
英伟达机器人与AI研究组负责人Jim Fan在Sequoia AI Ascent 2026上表示,过去主推的GR00T人形机器人基础模型所采用的VLA(视觉-语言-动作)架构已过时,取而代之的是WAM(World-Action-Model)架构。
作者分享了他本周使用 Codex、Factory、Opus 和 GPT 5.5 等工具构建自定义邮件客户端的经验。该应用旨在提供分屏收件箱、规则、快捷指令、撤销发送、一键退订等功能,并能被 AI Agent 原生使用。为解决 Gmail API 延迟问题,应用采用了缓存、预取和乐观更新等策略。
TPU 8t 相比前代 TPU 在多个方面取得关键进步:包括 SparseCore 优势、VPU/MXU 重叠与平衡扩展、原生 4 位 FP4 支持、Virgo 网络拓扑及数据中心网络容量提升高达 4 倍,以及更快的存储访问。
平台 Substack 正面临新一轮作者流失,转向更少人知的竞争对手。作者们抱怨 Substack 增加了社交功能,且其定价模式严重影响业务。此前,平台因允许纳粹通讯而引发争议,现已成为作者离开的另一原因。
Kaku 更新至 V0.10 版本,重点优化了其内置的 Agent 助手功能,旨在提供一个高效、简洁的技术伙伴体验。用户可通过 Cmd + L 访问该功能。
GBrain v0.31.1 已发布,新增了对 MCP Thin Client 的支持。用户现在可以运行一个“home GBrain server”,其他设备可通过 MCP 连接到该服务器,体验接近本地运行的性能。