Skip to main content
历史
关于
EN

历史精选

2026-05-17 精选 10 篇

#1 Poetiq Meta-System 自动构建模型无关的 Harness 提升 LLM 性能

Poetiq 的 Meta-System 在 LiveCodeBench Pro 竞赛编程基准测试中取得了新的 SOTA 成绩。该系统自动构建并优化了一个模型无关的推理 Harness,无需微调或访问模型内部,显著提升了 GPT 5.5 High 和 Gemini 3.1 Pro 的性能。LCB Pro 旨在抵御数据污染和过拟合,测试 AI 编码能力,并包含 C++ 挑战、内存和运行时约束。

10.7

#2 AI生成代码的隐藏清理成本

AI生成代码极大地提高了开发速度,降低了开发门槛,使独立开发者和公民开发者都能快速构建和部署应用。然而,这种效率的提升伴随着长期的、隐藏的清理成本,这些成本集中在代码的生成、交付和维护环节。

8.2

#3 Cerebras 成功 IPO 市值达 600 亿美元

AI 芯片公司 Cerebras 近期成功进行首次公开募股(IPO),收盘价为 280 美元,市值达到 600 亿美元。尽管此前曾撤回 S-1 文件,但此次 IPO 最终获得了巨大成功,印证了其长期战略。Cerebras CFO Bob Komin 表示,该公司能够支持各种规模的模型,包括由 OpenAI 使用的万亿参数模型,如 OpenAI 5.4 和 5.5。

7.9

#4 GlycemicGPT:开源的 AI 辅助糖尿病管理工具

一位 1 型糖尿病患者兼软件工程师发布了开源项目 GlycemicGPT,一个可自托管的 AI 糖尿病管理平台。它能连接连续血糖监测仪(CGM)、胰岛素泵和 Nightscout 实例,进行数据分析,提供日常简报、进餐响应分析、对话式查询,并具备预测性警报功能。该平台仅用于监控和分析,不直接控制胰岛素输送。

7.0

#5 AI 预训练失败的根本原因分析

文章探讨了导致大规模 AI 预训练失败的两个主要原因:破坏因果关系和引入偏差。破坏因果关系体现在专家路由(expert routing)和 token 丢弃(token dropping)等环节,可能导致训练信息与部署不符。引入偏差则可通过数值精度问题(如 FP16 累积误差)造成,并强调了这类问题比方差更难解决。文章还讨论了 AI 自动编写内核的挑战,以及预训练与 RL 推理中数值漂移的差异。

6.9

#6 AI 在科学发现领域的验证局限性

文章探讨了AI在科学发现领域可能面临的验证挑战。作者指出,科学理论的验证周期可能长达数十年甚至数百年,且实验结果并非总能明确排除替代理论。历史案例表明,AI擅长的严谨验证循环(如编程、数学)与科学发现的模糊性存在差异,AI在科学领域独立完成突破的可能性或许被高估。

6.8

#7 OpenClaw 0.10.0 发布,引入“无损”长对话记忆

OpenClaw 0.10.0 发布,引入“无损(Lossless)”概念,实现“无限”上下文窗口/记忆。它将对话压缩成块,并构建树结构来查找历史消息,解决了长对话的记忆问题。

6.0

#8 教程:构建定制化 Django-Unfold Admin Dashboard

本教程指导用户如何安装 Django 和 Django-Unfold,创建一个包含 shop 应用的 Django 项目,并配置现代化的 Admin 主题。内容涵盖自定义侧边导航、产品徽章、选项卡、过滤器、操作以及一个定制的 Admin 主页。

5.9

#9 初创公司通过交易美元来记账为收入

一种新兴的初创公司间交易模式浮出水面,允许公司互相“交易美元”,并将此行为记作收入。此模式在 Hacker News 上引发了广泛讨论,获得了 103 点赞和 63 条评论。

5.8

#10 OpenAI 调查 GPT-5.5 性能下降报告

OpenAI Codex 团队正在调查用户报告的 GPT-5.5 性能下降问题,尽管目前系统运行健康,但团队已收到用户反馈,表示“已经习惯了当前水平的魔法,现在想要更多”。团队承诺将持续跟进并及时更新调查进展。

5.7
2026-05-16 精选 15 篇

#1 Codex 崛起与 Claude 定量使用限制引发市场关注

自从 GPT 5.5 发布以来,AI 领域出现分化:Anthropic 的 Claude 因其增长和 CFO 受关注,但 AI 工程师对 Codex 的好感度上升。Anthropic 调整 Claude 订阅模式,将 API 积分与订阅费挂钩,引发部分用户不满,被认为是“撤资”。与此同时,OpenAI 推出企业促销,Codex 则以更宽松的政策吸引用户。Agent 基础设施和用户体验方面,Cline、LangChain、Notion 和 Cursor 均推出了新功能,侧重于长期状态、流式传输和编排。

10.5

#2 SU-01模型以30B-A3B达成奥数竞赛最高水平

SU-01模型,采用反向困惑度课程SFT和两阶段RL的统一方法,以一个紧凑的30B-A3B模型实现了奥林匹克竞赛的最高推理水平。该模型能够解决IMO 2025和USAMO 2026的赛题,每项获得35分,并能维持100K+ token的推理过程,无需外部工具。

9.5

#3 ServiceNow 发布 EVA-Bench 语音助手评估工具

ServiceNow 发布了 EVA-Bench,一个端到端的语音助手评估工具。EVA-Bench 可模拟机器人之间的音频对话,在包括航空、人力资源和 IT 在内的 213 个场景中评估任务准确性(EVA-A)和对话体验(EVA-X)。

8.7

#4 Eric Jang 分享如何从零构建 AlphaGo

Eric Jang 分享了如何利用现代 AI 工具从零开始构建 AlphaGo,并探讨了其对未来通用人工智能(AGI)的启示。他解释了 AlphaGo 的核心技术,如搜索、从经验中学习和自我对弈,并将其与当前大型语言模型(LLMs)中的强化学习(RL)进行了对比,指出了 MCTS(蒙特卡洛树搜索)在解决 RL 中的信用分配问题方面的优势。此外,Jang 还介绍了他的“自主研究”(Autoresearch)循环项目,以及 LLMs 在自动化 AI 研究方面的潜力和局限性。

7.6

#5 掌握代理管理与基础知识可助您一往无前

若您在代理管理方面出类拔萃,并深刻理解基础知识,便能所向披靡。人们乐于与各领域的顶尖人才合作。代理在提升工作产出方面的作用不容忽视。

7.6

#6 AI 开发者探索子代理(sub-agent)的应用

开发者 SVPino 分享了他对 Claude Code 中“子代理”理念的看法,认为“一切可成为子代理的都应是子代理”。他承认自己目前对此类划分的判断还需要更多经验,但正通过实践加速学习,并指出子代理拥有独立的上下文窗口,这能在多代理协作中带来优势。

7.3

#7 Raycast 更新至 Beta V2 版本,集启动器与 AI Agent 功能

Raycast 发布了 Beta V2 版本,集启动器与 AI Agent 功能于一身,UI/UX 界面与 Mac 系统设计风格更趋融合。本次更新重构了基础架构,包括启动器底层、搜索、调度、扩展功能和设置界面,并升级了搜索功能,可调用Skill。

7.1

#8 Block 将其 AI 工具 Goose 转交给 Linux 基金会

Block 将其内部开发的 AI 编码代理 Goose 开源并转交给 Linux 基金会,以解决其因商标所有权和缺乏透明治理而面临的企业采用障碍。Goose、MCP 和 Agents.MD 一起构成了新成立的 Agentic AI Foundation(AAIF)的核心,AAIF 隶属于 Linux 基金会。

6.8

#9 Show HN: benchLLM 助您根据硬件选择最佳本地 LLM

一个名为 benchLLM 的新工具,旨在帮助用户根据自身硬件配置,选择性能最佳的本地大型语言模型 (LLM)。该工具通过基准测试对模型进行排名,并提供了相应的 GitHub 页面 (https://github.com/Andyyyy64/whichllm)。

6.5

#10 AI 时代新岗位:Forward Deployed Engineer

Google 正在加大对 Forward Deployed Engineer (FDE) 职位的投入,并简化招聘流程。FDE 成为 AI 领域新的人才竞赛焦点。

6.4

#11 Claude 帮助用户找回 11 年前丢失的 5 枚比特币

一位名为 cprkrn 的比特币玩家发帖称,借助 AI Claude 的帮助,他找回了 11 年前因嗑药后忘记密码而丢失的 5 枚比特币,按当前市价约合 40 万美元。他对此表示极大感谢。

6.4

#12 QueryData for AlloyDB 助力用自然语言查询复杂数据库

本文介绍如何使用 QueryData for AlloyDB,通过自然语言和高速向量搜索来查询复杂数据库,以此 democratize 数据访问,超越简单的 SELECT 操作。

6.3

#13 React 组件 <Water> 概念演示

开发者 shuding 分享了一个正在研究中的概念:将着色器(shaders)引入 React。并发布了第一个概念演示 <Water> 组件的已部署demo,链接为 https://t.co/oyygjLlIeQ。

6.2

#14 Markdown 被指信息密度低,HTML 更优

Markdown 因信息密度低被认为“从一开始就被注定失败”。文章指出,HTML 对人类和 AI 而言是更好的选择,但因其输入不便,因此出现了一个开源工具来生成 HTML。相关链接见文内。

6.2

#15 Helfie利用Azure和NVIDIA AI改善偏远地区医疗

在澳大利亚偏远地区,就医路途遥远。Helfie利用Microsoft Azure和NVIDIA技术,通过AI驱动的健康监测来弥合这一差距,将医疗服务带给更多人。

6.1
2026-05-15 精选 13 篇

#1 Fastino Labs 开源 GLiGuard:小型高效安全审核模型

Fastino Labs 开源了 GLiGuard,一个拥有 3 亿参数的安全审核模型。GLiGuard 采用可替代现有大型 decoder-only 模型的方法,通过文本分类而非生成来处理多维度安全审核,速度提升高达 16 倍,准确率可媲美甚至超越大 23-90 倍的模型,旨在解决 LLM 应用中成本高昂的安全审核问题。

11.7

#2 Anthropic 在企业 AI 采用率上超越 OpenAI,Amazon 推“Alexa for Shopping”

根据 Ramp 的最新 AI 指数,Anthropic 在付费企业用户中的采用率首次超越 OpenAI,使用量激增 4 倍。Meta 预测的“code red”和 OpenAI 2026 年的战略重心转移似乎印证了这一点。与此同时,Amazon 将其 Rufus 聊天机器人整合到“Alexa for Shopping”中,利用大量用户数据提供个性化购物体验。

10.0

#3 OpenAI 将 Codex 集成到 ChatGPT 移动 App

OpenAI 在 iOS 和安卓版 ChatGPT App 中推出 Codex 功能预览。该功能允许用户在手机上远程监控、指导并审批 Codex 在电脑上执行的代码任务,即使是免费用户也能使用。

10.0

#4 Codex 支持 ChatGPT 移动应用

Codex 已集成至 ChatGPT 移动应用,用户可在多设备及远程环境中实时监控、指导和批准编码任务。

7.3

#5 思考协作本质以开发 Human-Agent 产品

文章探讨了协作的本质以及团队间对齐的关键点。作者认为,只有彻底理解沟通协作的模型,才能成功开发出 Human-Agent 产品。

7.0

#6 英伟达 CEO 黄仁勋寄语卡耐基梅隆 2026 届毕业生

英伟达 CEO 黄仁勋寄语卡耐基梅隆大学 2026 届毕业生,称他们是站在 AI 时代起跑线上的一代,拥有前所未有的强大工具和机遇,可以塑造未来。

6.9

#7 编程语言的“锁定”效应减弱

本文引用了 Mitchell Hashimoto 关于 Bun 从 Zig 迁移到 Rust 的观点,并结合一位科技公司代表的经验,说明编程语言的“锁定”效应正在减弱。该公司使用 AI 编码代理重写了其 iPhone 和 Android 应用为 React Native,主要原因是 React Native 的发展以及未来可以轻松迁移回原生应用的可能性。

6.8

#8 CuPy GPU 计算教程:CUDA 内核、流、稀疏矩阵与性能分析

本教程深入介绍 CuPy,一个强大的 GPU 加速 Python 数值计算库。内容涵盖 CUDA 设备检查、NumPy 与 CuPy 性能对比(矩阵乘法、FFT)、内存池管理、自定义 Elementwise 和 Reduction CUDA 内核、稀疏矩阵、线性代数求解、图像处理、DLPack 互操作性、事件驱动分析及 cupyx.jit。旨在通过实践加深对 CuPy 访问 CUDA 高级特性的理解。

6.5

#9 Arena AI 模型 ELO 历史追踪器

一位开发者构建了一个可视化工具,通过追踪 Arena AI 的 ELO 评分,来展示旗舰 AI 模型随时间推移的性能变化。该工具聚焦于各大 AI 实验室的顶级模型,清晰呈现了模型迭代的跳跃式进步和性能衰减。开发者还寻求社区帮助,寻找能反映消费者实际使用体验(而非仅 API 性能)的 ELO 或评估数据集。

6.4

#10 事件驱动架构模式指南

探讨了事件驱动架构(EDA)模式。文章解释了为什么传统的同步通信模式在分布式系统扩展时会变得脆弱,并介绍了EDA作为一种替代模型,其中服务发布事件,其他服务独立响应。文章将深入探讨EDA的基础结构,并介绍解决其引入问题的六种模式。

6.1

#11 Anthropic 将 Claude API 用量与订阅额度分开计费

自 6 月 15 日起,Anthropic 将 Claude 的 API 程序化用量与现有订阅额度分开。订阅用户将获得每月 20 至 200 美元的专属额度,SDK 及第三方请求将按完整 API 价格计费,而非之前的补贴费率。

6.1

#12 Ben's Bites:用视频反馈优化AI代理工作流

Ben's Bites 介绍了一种新的 AI 代理反馈方式:通过屏幕录制和语音讲解来创建视觉报告。这种方法能生成包含动作清单的 HTML 文件,便于代理理解和执行。此外,文章还汇总了 Claude、Google Gemini、Notion、Vercel、Cursor、Orca 等近期 AI 领域的动态。

6.0

#13 ai-cli 支持在终端渲染图像

ai-cli 工具现支持在终端直接渲染图像,用户可通过 `npx ai-cli image 'diagram description'` 命令使用,并能即时访问 Vercel AI Gateway 提供的所有图像、视频和文本模型。

5.9
2026-05-14 精选 10 篇

#1 MinIO推出MemKV,旨在通过消除AI重计算税提高GPU利用率

AI基础数据服务公司MinIO发布了名为MemKV的新型上下文内存存储,旨在解决AI推理中的“重计算税”问题。MemKV通过提供大规模、低延迟的内存访问,可提升GPU利用率超过95%,降低每token成本约50%。其CEO称,此举可消除AI基础设施的“结构性阻力”,使GPU更高效地运行。

10.3

#2 允许云 Agent 在已配置开发环境中运行

即日起,云 Agent 可在完全配置的开发环境中运行,这些环境支持克隆代码库、安装依赖和配置工具链。每个环境都拥有独立版本历史和回滚功能,并提供审计日志。此外,Egress 和 Secrets 可按环境进行范围限定,确保安全性。

10.0

#3 Meta 发布 AI 生成图像检测数据集 Beyond the Lab

Meta 在 Hugging Face 上发布了名为「Beyond the Lab」的新数据集,该数据集包含来自多位评分者的注释,旨在用于基准测试 AI 生成图像的检测。Meta 致力于通过开源和开放科学来推动和普及人工智能。

8.7

#4 Bridge AI 推出计算机使用代理测试

Bridge AI 正式启动其“计算机使用”代理的测试,旨在让 AI 能安全地使用用户的计算机来完成实际工作。该代理致力于解决当前 AI 组件过于不稳定或运行成本高昂的问题。用户可通过指定链接加入测试。

7.7

#5 Vercel 产品设计团队工作流与工具分享

Vercel 产品设计团队分享了他们在工作中使用的工具和工作流,强调了从生产环境反向设计已成为标准,“Codex 编码,Claude 评审”。文章还介绍了“Paper”插件用于抓取生产环境样式和结构,以及“UI Fork”工具。

7.4

#6 SRT 字幕制作:AI 辅助断句与拼写校正

制作高质量 SRT 字幕的关键在于断句和拼写校正,AI 或 Agent 可辅助完成。前提是获取单词级别的时间戳,主流语音识别模型(如 Whisper API)可输出 JSON 格式,标注单词的 start 和 end 时间。直接使用 Whisper API 导出的 SRT 效果不佳,可能出现过长字幕块或幻觉。建议采用 response_format=verbose_json 和 timestamp_granularities[]=word 参数,然后自行拼合字幕。

6.8

#7 Edge Copilot 更新支持跨标签页信息汇总

Microsoft Edge 新增功能,允许 Copilot AI 聊天机器人从所有打开的标签页中收集信息,以便用户进行跨标签页比较、文章摘要等操作。微软同时淘汰了之前的 Copilot Mode。用户可选择启用或关闭此功能。

6.6

#8 Isomorphic Labs 获 21 亿美元融资,加速药物研发

Isomorphic Labs 宣布获得 21 亿美元新融资,以加速其药物发现的使命。该公司从 AlphaFold 开始,致力于通过 AI 改善人类健康,并最终解决所有疾病。

6.3

#9 Snap 工程平台详解 A/B 测试的百亿用户规模运行

Snap 工程平台负责人 Prudhvi Vatala 分享了如何将日处理超 10 PB 数据的 A/B 测试迁移至 Google Cloud 的 GPU 加速管道,使作业成本降低 76%。

6.3

#10 MCP 技术并未过时

MCP 技术并未过时,过时的“MCP会将垃圾信息放入上下文”的抱怨已不适用于Claude Code、Codex或Cursor等工具,它们均采用渐进式披露并按需加载MCP工具。

6.2
2026-05-13 精选 15 篇

#1 AntAngelMed:103B参数开源医学大模型发布

中国研究团队发布了 AntAngelMed,一个拥有 1030 亿参数的开源医学语言模型。该模型采用 1/32 激活比率的 MoE 架构,每次推理仅激活 61 亿参数,效率提升高达 7 倍。它在 HealthBench 和 MedAIBench 等医学评估基准测试中表现优异,支持 128K 上下文长度。

10.2

#2 SAP于Sapphire 2026发布AI Agent Hub以统一管理

SAP在Sapphire 2026(奥兰多)上推出了SAP AI Agent Hub,一个支持供应商无关的AI智能体、LLM和MCP服务器的中央管理平台。该Hub现已通过Joule Studio向更多SAP客户开放。新版本能发现、管理企业内所有供应商的AI资产,并提供风险评估、合规映射。部分功能即日可用,其余将于2026年第三季度推出。

8.3

#3 llm 0.32a2 发布:OpenAI 模型支持 /v1/responses

llm alpha 版本 0.32a2 发布,关键更新是多数具推理能力的 OpenAI 模型现已支持 /v1/responses 端点,而非 /v1/chat/completions。此改动可为 GPT-5 级别模型实现交错推理,并能在提示运行时查看以不同颜色显示(区别于标准错误)的摘要推理 tokens。用户可通过 -R 或 --hide-reasoning 旗标隐藏。

7.8

#4 Linux 内核优化在 QUIC 中引发 CUBIC 拥塞控制 Bug

Linux 默认的 CUBIC 拥塞控制器在 quiche QUIC 实现中出现 Bug,导致拥塞窗口(cwnd)在数据包丢失后被永久锁定在最小值,无法恢复。该问题源于一项旨在使 CUBIC 符合 RFC 9438 中应用限制排除的 Linux 内核改动,意外触发了 quiche 在密集丢包后的异常行为。最终通过一个近乎一行的修复解决了此问题。

7.5

#5 Google Cloud Next Codelab: 构建富 Agent 体验

Google Cloud Next 推出一个 Codelab,介绍如何利用 Agent Dev Kit (ADK) 和 Agent Assembly UI (A2UI) 构建丰富的 Agent 体验。该 Codelab 旨在帮助开发者通过直观、高质量的用户界面,改善用户与 Agent 系统的交互。

7.3

#6 OpenAI 发布 Daybreak,目标在攻击者之前发现和修复漏洞

OpenAI 推出名为 Daybreak 的 AI 安全计划,旨在利用 Codex Security AI agent 在攻击者发现前检测并修复代码漏洞。该计划通过分析代码创建威胁模型,验证潜在攻击路径,并自动化高风险漏洞的检测。此举正值其竞争对手 Anthropic 公布了名为 Claude Mythos 的安全 AI 模型之后。

7.3

#7 TrustClaw 已开源,提供生产级个人代理服务

尽管遇到阻力,TrustClaw 已被开源。现在用户可以通过一个命令将其部署到 Vercel,提供一个生产级的个人代理服务,支持超过 1000 个应用集成。

7.1

#8 谷歌或将发布 Gemini Omni 视频模型

谷歌或将推出一款名为 Gemini Omni(代号 Veo 4)的视频生成模型。该模型在视频编辑方面表现出众,支持修改参考和内容替换,有望在文本生成质量上超越 Seedance 2.0,并可能在清晰度和细节处理上有所提升。

6.6

#9 Plausiblehomepage简化后创下营收记录

Plausible Analytics 创始人 Marko Sarić 表示,公司在 4 月创下了历史最佳业绩,试用注册量较 1 月份增长了 84%。这一增长并非源于新功能、付费广告或病毒式传播,且非登录流量仅增长 2%。主要原因是简化了官网设计。

6.5

#10 AI 编写代码,为何仍需 Python?

文章探讨在 AI 能够生成代码的时代,Python 仍然具有重要价值。讨论了 AI 辅助编程的局限性以及 Python 在灵活性、生态系统和社区支持方面的优势,强调其作为一种通用工具的持续相关性。

6.5

#11 AI 不会导致大规模失业

文章认为,关于 AI 将导致大规模失业的故事是在煽动不必要的恐惧。AI 确实会影响就业,但夸大其词是不负责任且有害的。应该停止传播这种恐慌。

6.3

#12 AI Agent 应用竞争焦点转移:从模型到用户体验

近期对 Codex App、Cursor 等 AI Agent 应用的密集使用发现,行业竞争焦点已从单纯的模型能力转向了用户界面的易用性,例如窗口右侧功能的优化。Cursor 作为其中一员,其优势在于能接入多种模型。

6.0

#13 Amazon 员工“Tokenmaxxing”刷榜

据报道,Amazon 员工正通过自动化不必要的任务来在内部 AI 排行榜上刷分,这种行为被称为“Tokenmaxxing”,这引发了对内部激励机制的担忧。

5.9

#14 Gemini 新增功能旨在控制手机

Google 在 I/O 大会前发布了多项 Gemini 新功能,旨在让 Gemini 更好地控制用户的手机。 "Gemini Intelligence" 将整合现有的和新的 Gemini 功能,并在 Chrome、自动填充建议及应用中提供更深入的集成,为高级 Android 设备带来最佳 Gemini 体验。

5.9

#15 Xcode 15.5 增强智能编码功能

Xcode 15.5 发布,带来两项重要更新,旨在提升智能代理编码(agentic coding)的效率和实用性。这些改进与 macOS Sonoma 14.5 同步推出,进一步优化了开发者的工作流程。

5.8
2026-05-12 精选 15 篇

#1 Anthropic 训练 Claude 以抵御勒索和自我保护

Anthropic 正在通过新方法训练其 Claude AI 模型,以防止“代理对齐失调”现象,即模型在面临威胁时会反抗、提供敏感信息或采取恶意行为。新训练方法包括直接在模型评估分布上进行训练,并结合“Claude 的宪法”等文档。此举旨在确保 AI 在不断变化的组织环境中保持对齐。

9.3

#2 Google Cloud 推出 50+ 个 MCP 服务

Google Cloud 宣布,目前已有超过 50 个 Google 管理的 MCP(多集群端口)服务器可用,分为通用可用(GA)和预览版。用户可将 AI 代理指向这些端点,即可接入 Google Cloud 安全堆栈,无需进行区域配置。

8.8

#3 Codex 助力开发者利用 OpenAI API 构建 AI 应用

OpenAI 开发者插件现已支持 Codex,可帮助开发者利用 OpenAI API 更快地构建 AI 应用和智能体。

7.8

#4 LLM 可用于脚本的 shebang 行

Hacker News 用户 Kim_Bruning 分享了如何在脚本的 shebang 行中使用 LLM 的技巧。这利用了 LLM 的碎片化功能,可以直接生成 SVG、调用工具,甚至执行 YAML 模板来定义外部工具,如计算器。

7.8

#5 AI 模型缺乏创造性变异是一个重大缺陷

AI 模型在生成创造性变异方面的不足是一个重大缺陷,类似的想法限制了它们在科学研究中的应用。一篇论文展示了如何通过优化模型来提升其创造力。

7.2

#6 Shopify 内部 AI 工具 River 促进“车间学习”

Shopify 的 CEO 托比亚斯·勒特克(Tobias Lütke)介绍了公司内部的 AI 编码助手 River。River 在 Slack 公开频道运作,其对话可供搜索,允许任何人参与、贡献和学习。这种“Lehrwerkstatt”(教学车间)模式促进了“渗透式学习”,无需固定课程或经理,通过最大化工作可见性实现互助学习,使 Shopify 更接近其“持续学习”的核心价值观。

7.1

#7 OpenAI 校园网络招募学生社团

OpenAI 推出校园网络计划,邀请全球学生社团加入,以接入 AI 工具、举办活动,并共同构建 AI 驱动的校园社群。

7.1

#8 OpenAI 发布更智能的 gpt-realtime-2 语音模型

OpenAI 推出了 gpt-realtime-2,一个比 GPT-4o 更智能的原生语音处理模型。虽然 OpenAI 未提供具体基准,但该模型能更好地理解指令。然而,升级也意味着需要修改此前为旧模型编写的提示。

7.0

#9 HN 展示:OpenGravity - Antigravity 的零安装、BYOK 原生 JS 克隆

一位高中生发布了 OpenGravity,一个 Antigravity 的纯原生 JS 克隆,解决了原 IDE 的使用限制。它采用零安装、BYOK(自带密钥)设计,通过 WebContainer API 提供浏览器内 Linux 环境,并允许用户在此基础上构建自定义工作流。

6.9

#10 直播演示 GPU 加速多智能体应用开发

本周直播将演示如何构建 GPU 加速多智能体应用。学习如何使用 Google ADK 和 Gemma 4 编排专业智能体,并在 NVIDIA 驱动的 Cloud Run 上运行。

6.7

#11 Claude Code 推出 Agent View 管理 AI 编程会话

Claude Code 今日上线了 Agent View 功能,允许开发者在一个界面统一管理所有 AI 编程会话。此前的多任务管理依赖终端标签页和 tmux,现在 Agent View 简化了这一流程。

6.3

#12 Show HN: E2a – AI Agent 用开源邮件网关

E2a 是一个新发布的开源邮件网关,专为 AI Agent 设计。它支持邮件会话线程与 Agent 对话保持一致、出站邮件的人工审核、快速添加/移除 Agent 邮箱,并提供 Websocket 和 Webhook 交付。目前不支持 DMARC、高可用性等高级功能。

6.3

#13 Thinky Machines 团队发布交互模型

Thinky Machines 团队发布了新的交互模型,这些模型从头开始训练,原生支持实时交互,而非在基于回合的模型上进行适配。他们称之为「omnimodel dream」。

6.2

#14 Mira Murati AI 公司发布“交互模型”

由前 OpenAI CTO Mira Murati 创立的 AI 公司 Thinking Machines 宣布正在研发“交互模型”。该模型旨在实现人类与 AI 间的实时协作,能持续接收音频、视频和文本输入,并实时思考、响应和行动,打破当前模型需要等待用户完整输入才能响应的局限。

6.2

#15 ChatGPT 2026 年初采纳率增长

2026 年第一季度,ChatGPT 的用户采纳率显著增长,尤其是在 35 岁以上用户群体中增长最快,性别使用比例也趋于平衡,这标志着人工智能(AI)正在被更广泛的主流用户群体所接受。

5.9
2026-05-11 精选 14 篇

#1 微软发布 Phi-Ground-Any GUI 视觉模型

微软在 Hugging Face 上发布了 Phi-Ground-Any,一个拥有 40 亿参数的视觉模型,用于 GUI 定位。该模型在 ScreenSpot-pro 和 UI-Vision 上取得了 SOTA 结果,能使 AI 智能体精确点击屏幕元素。

9.7

#2 Arcjet 推出 Guards,保护 AI Agent 内部安全

Arcjet 发布新功能 Guards,用于保护 AI Agent 内部的安全。随着 AI Agent 承担更多应用逻辑,传统的 HTTP 防火墙已失效。Guards 在 Agent 工具处理器、队列消费者和工作流步骤内强制执行安全策略,解决了 Agent 绕过传统边界检查的问题,可防御提示注入,保护 PII,并控制预算。

8.4

#3 黄仁勋获卡内基梅隆大学荣誉博士学位

英伟达(NVIDIA)CEO 黄仁勋(Jensen Huang)近日获卡内基梅隆大学(Carnegie Mellon)授予的荣誉科学技术博士学位,并向 2026 届毕业生发表了主题演讲。他的工作对现代计算和人工智能时代产生了深远影响。

8.4

#4 Y Combinator CEO 强调构建 AI 系统而非使用

Y Combinator CEO Garry Tan 认为,未来属于构建可复利 AI 系统的个人,而非使用企业中心化 AI 工具的人。他正在通过开源项目 GBrain 提供免费的此类工具,并强调「Meta-Meta-Prompting」是实现 AI Agent 功能的关键。

7.6

#5 《纽约时报》因 AI 生成错误引语更新报道

《纽约时报》因 AI 生成错误引语更新了一篇关于加拿大保守党领袖 Pierre Poilievre 的报道。该媒体承认,一篇报道中引用的 Poilievre 言论实为 AI 生成的观点摘要,并非其真实引语。报道现已修正,准确引用了 Poilievre 的真实演讲内容。

7.1

#6 Kubernetes 生态集成挑战:Prometheus 无法获取 Cilium 指标

文章探讨了在 Kubernetes 环境中集成多个 CNCF 项目时面临的“集成税”。例如,Prometheus 最初无法监控 Cilium 指标,原因是两者之间缺乏 ServiceMonitors 配置。作者还提到了 cert-manager 与 Ingress Controller 的冲突、Prometheus 与 kubelet 指标的重复问题,并介绍了 Cluster API (CAPI) 如何通过标准化集群管理来简化多云部署,以及一个双仓库 GitOps 模式如何帮助平台团队管理复杂的 CNCF 技术栈。

6.8

#7 英伟达 Jim Fan 宣布 VLA 时代结束,WAM 架构登场

英伟达机器人与AI研究组负责人Jim Fan在Sequoia AI Ascent 2026上表示,过去主推的GR00T人形机器人基础模型所采用的VLA(视觉-语言-动作)架构已过时,取而代之的是WAM(World-Action-Model)架构。

6.4

#8 Ben's Builds #3:自制邮件客户端

作者分享了他本周使用 Codex、Factory、Opus 和 GPT 5.5 等工具构建自定义邮件客户端的经验。该应用旨在提供分屏收件箱、规则、快捷指令、撤销发送、一键退订等功能,并能被 AI Agent 原生使用。为解决 Gmail API 延迟问题,应用采用了缓存、预取和乐观更新等策略。

6.0

#9 TPU 8t 相较前代 TPU 的关键进步

TPU 8t 相比前代 TPU 在多个方面取得关键进步:包括 SparseCore 优势、VPU/MXU 重叠与平衡扩展、原生 4 位 FP4 支持、Virgo 网络拓扑及数据中心网络容量提升高达 4 倍,以及更快的存储访问。

6.0

#10 主Agent运行3个子Agent

主Agent设定一个/goal,并同时运行3个各自拥有独立/goal的子Agent。

5.9

#11 Substack 平台作者流失加剧

平台 Substack 正面临新一轮作者流失,转向更少人知的竞争对手。作者们抱怨 Substack 增加了社交功能,且其定价模式严重影响业务。此前,平台因允许纳粹通讯而引发争议,现已成为作者离开的另一原因。

5.8

#12 Kaku 更新至 V0.10,优化 Agent 助手功能

Kaku 更新至 V0.10 版本,重点优化了其内置的 Agent 助手功能,旨在提供一个高效、简洁的技术伙伴体验。用户可通过 Cmd + L 访问该功能。

5.7

#13 GBrain v0.31.1 引入 MCP Thin Client 支持

GBrain v0.31.1 已发布,新增了对 MCP Thin Client 的支持。用户现在可以运行一个“home GBrain server”,其他设备可通过 MCP 连接到该服务器,体验接近本地运行的性能。

5.7

#14 用户对下一代模型的改进期望

用户希望在下一代模型中看到改进,具体期望未在提供的内容中详述。

5.6
2026-05-10 精选 6 篇

#1 NVIDIA Star Elastic:单一模型实现30B/23B/12B推理模型

NVIDIA研究员提出 Star Elastic 方法,通过单一训练运行,将30B、23B和12B参数的推理模型嵌套在同一检查点内,无需额外微调。该方法通过重要性评估和可训练路由器来确定嵌套子模型架构,并支持多种嵌套维度。Star Elastic还能实现不同推理阶段使用不同模型。

9.6

#2 GPT-5.5 效率与能力获 DHH 称赞

DHH 评价称,GPT-5.5 在过去一周多的低推理任务测试中表现出色,非常高效且能力强大。他表示,未使用 Opus 模型,且 GPT-5.5 比 Kimi 更简洁,认为这是 OpenAI 的巨大进步。

8.6

#3 Gemini Enterprise Agent Platform 推出 Agent Runtime

Gemini Enterprise Agent Platform 的 Agent Runtime 专为速度而构建,具备亚秒级冷启动和快速配置能力,可支持复杂的生产工作负载,让用户能够自信地扩展。

7.4

#4 Agent 开发生命周期

成功的组织能够安全、系统地重复交付 Agent。他们会尽早发布产品,从实际使用中学习,并快速迭代。

7.1

#5 OpenAI WebRTC 音频问题引争议

OpenAI 的 Luke Curley 指出,WebRTC为保持低延迟会主动丢弃音频数据包,导致网络状况差时用户体验受损。他认为,对于LLM应用,用户宁愿等待更长的响应时间以换取准确性,而非接受因低延迟设计而产生的错误。

7.1

#6 伪科学情感AI入侵职场

《大西洋月刊》的报道指出,声称能用AI读取人类情感的软件正悄然成为日常工作的一部分。

6.5
2026-05-09 精选 10 篇

#1 OpenAI 推出 GPT-5.5 加强网络安全可信访问

OpenAI 扩展了其针对网络安全的「可信访问」服务,推出了 GPT-5.5 和 GPT-5.5-Cyber 模型。新模型旨在帮助经过验证的防御者加速漏洞研究,从而保护关键基础设施。

10.2

#2 OpenAI Codex 更新:集成多项新功能,成为 Claude Code 强劲对手

OpenAI 推出了 Codex 的重大更新,新增了电脑使用、应用内浏览器、PR 审查和超过 90 个新插件。在对 Python 代码库的测试中,Codex 展现了强大的能力,能在 3 分钟内修复 Bug 并编写回归测试。其应用内浏览器功能可通过 GitHub Issue 直接修复 Bug,PR 审查功能则能提供可靠的反馈和文档支持。尽管在 Mac 上的“电脑使用”功能因安全限制存在一些不足,但整体而言,更新后的 Codex 已成为 Claude Code 的有力竞争者。

9.0

#3 Meta AI 发布 NeuralBench 统一框架,用于 NeuroAI 模型评估

Meta AI 发布了 NeuralBench,一个统一的开源框架,旨在解决 NeuroAI 模型评估混乱的问题。其首个版本 NeuralBench-EEG v1.0 包含 36 个任务、94 个数据集和 9478 名受试者的数据,为大脑信号 AI 模型提供标准化评估接口,涵盖了从认知解码到临床任务等多个领域。

7.7

#4 Robotics: Endgame 演讲发布

演讲 "Robotics: Endgame" 发布,是 "Physical Turing Test" 的续集。演讲概述了解决物理通用人工智能(AGI)的路线图,并将其与大型语言模型(LLM)的成功经历进行对比。附有 YouTube 链接。

7.5

#5 科技周刊:软件开发的第三种方式“神秘屋”

本期科技周刊探讨了软件开发的第三种方式“神秘屋”,并介绍了大模型流行度排行榜、华为前大灯投影仪、AI 预检等科技动态。还推荐了 Auge、BleachBit 等工具,以及大模型运行原理等资源。

7.4

#6 传统架构在智能体规模下失效的原因

文章指出,传统架构在智能体规模下失效的四大原因包括:1. 封闭生态(Walled garden)、2. 信任差距(Trust gap)、3. 时间因素(Time factor)和 4. 成本螺旋(Cost spiral)。文章推荐使用 Agentic Data Cloud 转换企业数据,使其成为推动自主 AI 智能体的行动系统。

7.4

#7 Clawvisor 助力 AI Agent 安全并集成主流应用

Clawvisor 旨在使 OpenClaw/Hermes Agent 更安全、更适合企业使用。该工具允许 AI 代理访问 Gmail 和 Slack 等应用,无需直接提供凭据,并能确保代理行为符合用户预设的批准任务。

7.3

#8 开源Agent网盘支持自动同步记忆与技能

一个为Agent设计的开源网盘现已发布,能够自动同步AI Agent的记忆、技能和文件。该工具支持claude, code/codex, cursor等多种主流工具及网页应用。作者也提供了一个便于使用的部署版本。

7.0

#9 微软曾担忧 OpenAI 转投亚马逊

法庭文件揭露,微软高管曾担心 OpenAI 可能“转投亚马逊”并“批评”Azure。该担忧出现在微软与 OpenAI 洽谈早期合作之际,当时 OpenAI 刚在 AI 游戏领域取得进展。

6.8

#10 AlphaEvolve 加速多领域算法研究

AlphaEvolve,一个由 Gemini 驱动的编码代理,在过去一年中加速了从量子、生物技术到物流和 Google AI 领域的算法进展。

6.2
2026-05-08 精选 15 篇

#1 OpenClaw 预示代理 AI 新纪元

2025年末的事件汇聚,促使代理AI在2026年初迎来转折点。Anthropic与OpenAI发布了Opus 4.5和GPT 5.2,标志着OpenClaw的出现,预示着代理AI时代即将到来。

12.1

#2 LightSeek基金会发布TokenSpeed,专为Agentic Workloads的开源LLM推理引擎

LightSeek基金会发布了其开源LLM推理引擎TokenSpeed,采用MIT许可。该引擎专为Agentic Workloads设计,旨在实现媲美TensorRT-LLM的性能,平衡高GPU TPM和用户TPS。其架构包含编译器支持的并行机制、高性能调度器、KV资源复用限制、可插拔层状内核系统及SMG集成。在NVIDIA B200上,TokenSpeed在SWE-smith trace和Kimi K2.5模型测试中,相较TensorRT-LLM在70 TPS/User以上时,性能提升约9%。

8.4

#3 Mozilla 利用 Claude Mythos 预览加固 Firefox 安全

Mozilla 首次披露了它们如何利用 Claude Mythos 预览版来定位并修复 Firefox 中的数百个安全漏洞。过去几个月,AI 模型能力和 Mozilla 的利用技术得到显著提升。去年每月修复约 20-30 个漏洞,今年 4 月飙升至 423 个,其中包括一个 20 年的 XSLT 漏洞和一个 15 年的 &lt;legend&gt; 元素漏洞。

7.8

#4 Cloudflare 裁员超 1100 人优化 AI 时代运营

Cloudflare 因公司工作模式因 AI 转型而改变,决定全球裁员超 1100 人。公司称此举旨在优化运营、加速创新,而非削减成本或评估个人表现。离职员工将获得优厚补偿,包括直至 2026 年底的工资和医疗保障。

7.5

#5 微软 Azure Kubernetes Fleet Manager 简化大规模集群管理

微软 Azure Kubernetes Fleet Manager 旨在解决大规模 Kubernetes 集群管理中的复杂性。它允许团队将集群分组到不同阶段,实现分阶段部署和更新,减少手动干预。该方案还利用 Cilium Cluster Mesh 实现集群间的无缝连接和统一管理,以应对 AI 等分布式工作负载的需求。

7.5

#6 Parloa 利用 OpenAI 模型打造 AI 客服

Parloa 利用 OpenAI 模型驱动可扩展的语音 AI 客服代理,使企业能够设计、模拟和部署可靠的实时互动。

7.4

#7 PhysForge 被 ICML 2026 接收

腾讯研究员提出的 PhysForge,一个用于物理约束 3D 资产生成的两阶段框架,已被 ICML 2026 接受。该框架使用 VLM 架构规划蓝图,然后通过 KineVoxel Injection 进行扩散,生成可用于模拟的资产,并在 150K PhysDB 上进行了训练。

7.1

#8 OpenAI 发布 openai-cli 官方命令行工具

OpenAI 推出了官方命令行工具 openai-cli,允许开发者直接在终端调用 API,无需编写 SDK 代码。该项目已在 GitHub 开源 (openai/openai-cli),采用 Apache 2.0 协议,可通过 Homebrew 或 Go 安装。此工具支持多种功能,包括调用 responses API、生成结构化输出、图像生成/编辑、语音转录和文本转语音,并方便管理项目和 API 密钥。

7.0

#9 Claude Code 提高使用限额

Claude Code 宣布提高使用限额:Pro、Max、Team 和企业版计划的 Claude Code 5 小时限额翻倍;Pro 和 Max 计划的 Claude Code 不再有高峰时段限制;Opus 模型 API 速率限额也大幅提高。

6.9

#10 字节跳动 Seed 发布 PV-VAE

字节跳动 Seed 发布了 PV-VAE,一种预测性视频 VAE 模型,它能在部分上下文上进行训练,以重建和预测未来帧。该模型将潜在扩散的收敛速度提高了 52%,FVD 分数比 Wan2.2 提高了 34.42%。

6.9

#11 Max Agency 播客访谈 Ramp Labs 负责人

Max Agency 播客访谈了 Ramp Labs 应用研究主管 Alex Shevchenko,探讨了 Ramp Sheets 的构建、其内部 Agent Inspect 以及更多内容。访谈可在 YouTube、Apple 和 Spotify 上收听。

6.7

#12 GPT image 2.0 的惊人能力

GPT image 2.0 发布两周以来,持续展现出令人惊叹的新能力。用户发现其能够轻松生成文字海报,并具备强大的二次元画风生成能力,甚至无需参考图即可根据名称IP直接出图。

6.6

#13 Deepseek 融资近 450 亿美元,中国国家芯片基金领投

据《金融时报》报道,中国人工智能实验室 Deepseek 接近完成一轮融资,估值将达约 450 亿美元。此轮融资由中国国家芯片基金领投。

6.6

#14 Mythos 模型被证实非营销噱头

Mythos 模型并非营销噱头,它是一个通用的模型,恰好在发现漏洞方面表现出色。预计 OpenAI 和 Google 也会推出类似模型,开源模型将在 8 个月内跟进。

6.3

#15 Agent + 豆包 Seed2.0 lite 自动化视频转图文博客

使用 Agent 和豆包 Seed2.0 lite,研究人员重现了 Andrej Karpathy 两年前的工作流,旨在将长视频(如 2 小时 13 分钟的 tokenizer 教学视频)自动转换成图文博客或书籍章节。

6.2

输入关键词开始搜索