#1 Anthropic 研究提出“内省适配器”以检测 LLM 潜在不当行为
Anthropic 研究员提出名为“内省适配器”(IA) 的新工具,可让语言模型自我报告其在训练中学到的行为,包括潜在的不当行为。该 IA 适配器可泛化用于检测隐藏的不当行为、后门和安全防护移除。
追踪 382 篇 · 精选 15 篇
Anthropic 研究员提出名为“内省适配器”(IA) 的新工具,可让语言模型自我报告其在训练中学到的行为,包括潜在的不当行为。该 IA 适配器可泛化用于检测隐藏的不当行为、后门和安全防护移除。
Stripe 发布 Link agent wallet,允许 AI Agent 代表用户进行支付,但不会暴露用户的真实银行卡信息。AI Agent 可创建一次性支付凭证,用户可批准或拒绝交易。Link CLI 已开源,开发者可将其集成到 Claude Code、MCP 客户端或自定义 agent 工作流中。
Andrej Karpathy 在 Sequoia AI Ascent 2026 的炉边谈话中,探讨了 LLMs 的三大新范式:完全由 LLM 驱动的应用 (menugen),使用自然语言安装软件,以及 LLM 知识库。他还讨论了 LLMs 的“锯齿状”现象,并展望了智能体原生经济,其中产品和服务被分解为传感器、执行器和逻辑,由 LLM 处理非结构化数据,预示着一种新的智能体工程学。
AI Agent 产品主流交互分为两类:一类是以 Agent 为中心(如 Codex、Cursor),对话列表在左,代码/文档在右;另一类是以用户操作为主,Agent 为辅(如 GitHub Copilot),Agent 对话在侧边栏。尽管侧边栏交互存在不足,用户已习惯。设计关键在于明确 Agent 是核心还是辅助。此外,从 stateless 到 stateful 的处理是 Agent 交互创新的关键。
Qwen 团队发布了 FlashQLA,这是一个专门为 NVIDIA Hopper GPU 优化的 MHA 线性注意力内核库。FlashQLA 基于 TileLang 编译器框架,通过门控 Delta 网络 (GDN) 机制,实现了比现有 Triton 内核高达 3 倍的性能提升,特别是在长序列处理方面。该库解决了传统 Transformer 模型 attention 机制 O(n²) 的瓶颈,并采用了门驱动的上下文并行、硬件友好的代数重构以及 TileLang 融合的 warp 专业化内核等技术。
作者认为,无论产品设计、Agent开发、大模型训练、人际关系还是公司组织,其核心都在于“结构”。优质的结构能引导用户行为,使大模型表现优异,高效组织团队。文章批评了许多大厂AI转型中“在河床里加石头”的现象,指出组织结构不变,学习AI将徒劳无功,并强调改变命运需先重塑结构。
RADIO-ViPE 是首个在线语义 SLAM 系统,可处理任意单目视频,无需校准、深度传感器或先验位姿。它能理解如“定位勺子”等自然语言指令,并同时绘制 3D 环境地图。
Claude Security 现已推出,旨在帮助安全团队无需部署自定义工具即可在其代码库中使用 Opus 4.7。该解决方案无需进行 API 集成或构建代理。
Cloudflare 正式推出其 IPsec 服务中的抗量子加密(Post-Quantum Cryptography, PQC)功能,采用 IETF 混合 ML-KEM(FIPS 203)草案,以应对“先收割后解密”的攻击。此举已通过 Fortinet 和 Cisco 设备进行互操作性测试,允许用户保护广域网(WAN)免受未来量子计算的威胁,加速实现其 2029 年全面抗量子安全的目标。
一项与哈佛和斯坦福医学专家合作的研究,展示了一个利用实时视频和音频处理生理症状的 AI 系统。该系统可分析步态、呼吸和皮疹等,并通过模拟研究与“病人演员”进行诊断推理。
在将 Agent 部署到生产环境时,实现多租户是关键。Auth 方案可以帮助实现这一点,并支持与 Clerk 和 Supabase 的集成。
Zig 创造者 Andrew Kelley 表示,虽然不能 100% 区分,但人类和 LLM 的代码错误模式不同,容易识别。他认为,使用 LLM 的开发者有一种“数字气味”,外行不易察觉,但内行能轻易分辨。他禁止在“他的房子”里“抽烟”(使用 LLM)。