2026-03-25 精选

追踪 355 篇 · 精选 12 篇

#1 LLM 运行新趋势：流式专家模型技术

近期社区探索出「流式专家」(Streaming Experts)技术，通过从 SSD 实时加载所需专家权重，使大模型能在有限 RAM 的硬件上运行。目前该技术已实现让 1 万亿参数的 Kimi K2.5 模型在 MacBook Pro 上运行，甚至在 iPhone 上跑通了 Qwen3.5-397B 模型。该方法有望进一步降低大模型本地运行的硬件门槛。

8.7

#2 OpenAI 将关闭 Sora AI 视频应用

据《好莱坞报道》(The Hollywood Reporter)消息，OpenAI 决定关闭其旗下的 Sora AI 视频应用。该项目此前备受关注，此举标志着 OpenAI 在 AI 视频创作领域的策略调整。

8.5

#3 LangSmith Fleet 引入两种智能体授权机制

LangSmith Fleet 发布后，引入了两种智能体授权模式：Assistants 模式基于终端用户权限执行任务；Claws 模式则使用固定的预设凭据。通过区分「代表用户执行」(on-behalf-of) 与「使用代理独立凭据」，该机制支持更灵活的智能体部署与权限管理，并配合「人在回路」(human-in-the-loop) 机制保障敏感操作安全。

8.2

#4 LiteLLM 库遭遇恶意篡改，请勿更新

LiteLLM 的 PyPI 版本 1.82.8 被发现遭受恶意篡改，其中包含名为 litellm_init.pth 的文件，该文件利用 Base64 编码窃取用户凭据并具备自我复制能力，可能对本地开发环境造成严重安全风险。专家警告称，这种攻击方式比传统身份盗窃更危险，可能导致敏感信息泄露。

7.9

#5 Modular 宣布开源其 AI 模型及全部 GPU 内核

Modular 公司宣布不仅开源其所有 AI 模型，还将公开全部 GPU 内核。这些内核旨在支持多供应商的消费级硬件运行，并鼓励开发者参与改进。公司对此充满信心，认为即便竞争对手追赶上来，凭借其 Mojo 编程语言的优势，Modular 依然处于行业领先地位。

7.9

#6 FastMCP 开发框架发布

FastMCP 是一个旨在简化 Model Context Protocol (MCP) 服务器开发过程的框架。它提供了一套易于使用的工具和接口，帮助开发者更高效地构建与 AI 模型交互的服务器端应用。

7.6

#7 OpenAI 强调 Sora 2 与 Sora App 的安全性构建

针对尖端视频模型及社交创作平台带来的潜在风险，OpenAI 宣布在 Sora 2 和 Sora App 的设计基础中植入多项具体的安全防护机制，旨在从源头应对新型安全挑战。

6.9

#8 使用 Claude Agent SDK 构建工具的建议

使用 Claude Agent SDK 构建只读工具时，开发者应标记「readOnlyHint: true」。该设置告知 Claude Code 工具无副作用且可并行执行，从而避免因被视为「序列化障碍」而导致其他工具无法同时运行。

6.9

#9 Google IO 征集 AI Studio 应用案例

Google 正在为 Google IO 筹备特别内容，现邀请开发者提交使用 AI Studio 构建的应用，并附上一句简短的描述，分享开发过程及其背后的动机与灵感。

6.7

#10

#10 Sam Altman 辞去 Helion 董事会职务

Sam Altman 宣布辞去 Helion 董事会职务。此举旨在避免因 Helion 与 OpenAI 展开大规模合作而产生的潜在利益冲突，使双方能更紧密地合作，共同推动零碳安全电力的普及。

6.5

#11

#11 Gstack 测试意外修复代码库 Bug

开发者在运行 gstack 端到端(e2e)测试时，由于测试环境沙盒配置不当，测试过程意外修复了代码库中的漏洞。负责监控测试的 Claude Code 发现了这些变动并确认其为有效的修复。这一意外情况展示了自动化测试与 AI 辅助开发的有趣交互。

6.5

#12

#12 探讨 Replit 在开发领域的应用潜力

用户分享了使用 Replit Agent 3 的体验，称其为一种高效的「随心编程」(vibe-coding) 工具，无需深究底层代码即可快速构建项目。该平台不仅适合开发者简化流程，也是向孩子教授 Web 开发的良好途径。

6.3