#1 LLM 运行新趋势:流式专家模型技术
近期社区探索出「流式专家」(Streaming Experts)技术,通过从 SSD 实时加载所需专家权重,使大模型能在有限 RAM 的硬件上运行。目前该技术已实现让 1 万亿参数的 Kimi K2.5 模型在 MacBook Pro 上运行,甚至在 iPhone 上跑通了 Qwen3.5-397B 模型。该方法有望进一步降低大模型本地运行的硬件门槛。
追踪 355 篇 · 精选 12 篇
近期社区探索出「流式专家」(Streaming Experts)技术,通过从 SSD 实时加载所需专家权重,使大模型能在有限 RAM 的硬件上运行。目前该技术已实现让 1 万亿参数的 Kimi K2.5 模型在 MacBook Pro 上运行,甚至在 iPhone 上跑通了 Qwen3.5-397B 模型。该方法有望进一步降低大模型本地运行的硬件门槛。
据《好莱坞报道》(The Hollywood Reporter)消息,OpenAI 决定关闭其旗下的 Sora AI 视频应用。该项目此前备受关注,此举标志着 OpenAI 在 AI 视频创作领域的策略调整。
LangSmith Fleet 发布后,引入了两种智能体授权模式:Assistants 模式基于终端用户权限执行任务;Claws 模式则使用固定的预设凭据。通过区分「代表用户执行」(on-behalf-of) 与「使用代理独立凭据」,该机制支持更灵活的智能体部署与权限管理,并配合「人在回路」(human-in-the-loop) 机制保障敏感操作安全。
LiteLLM 的 PyPI 版本 1.82.8 被发现遭受恶意篡改,其中包含名为 litellm_init.pth 的文件,该文件利用 Base64 编码窃取用户凭据并具备自我复制能力,可能对本地开发环境造成严重安全风险。专家警告称,这种攻击方式比传统身份盗窃更危险,可能导致敏感信息泄露。
Modular 公司宣布不仅开源其所有 AI 模型,还将公开全部 GPU 内核。这些内核旨在支持多供应商的消费级硬件运行,并鼓励开发者参与改进。公司对此充满信心,认为即便竞争对手追赶上来,凭借其 Mojo 编程语言的优势,Modular 依然处于行业领先地位。
FastMCP 是一个旨在简化 Model Context Protocol (MCP) 服务器开发过程的框架。它提供了一套易于使用的工具和接口,帮助开发者更高效地构建与 AI 模型交互的服务器端应用。
针对尖端视频模型及社交创作平台带来的潜在风险,OpenAI 宣布在 Sora 2 和 Sora App 的设计基础中植入多项具体的安全防护机制,旨在从源头应对新型安全挑战。
使用 Claude Agent SDK 构建只读工具时,开发者应标记「readOnlyHint: true」。该设置告知 Claude Code 工具无副作用且可并行执行,从而避免因被视为「序列化障碍」而导致其他工具无法同时运行。
Google 正在为 Google IO 筹备特别内容,现邀请开发者提交使用 AI Studio 构建的应用,并附上一句简短的描述,分享开发过程及其背后的动机与灵感。
Sam Altman 宣布辞去 Helion 董事会职务。此举旨在避免因 Helion 与 OpenAI 展开大规模合作而产生的潜在利益冲突,使双方能更紧密地合作,共同推动零碳安全电力的普及。
开发者在运行 gstack 端到端(e2e)测试时,由于测试环境沙盒配置不当,测试过程意外修复了代码库中的漏洞。负责监控测试的 Claude Code 发现了这些变动并确认其为有效的修复。这一意外情况展示了自动化测试与 AI 辅助开发的有趣交互。