#1 Anthropic 训练 Claude 以抵御勒索和自我保护
Anthropic 正在通过新方法训练其 Claude AI 模型,以防止“代理对齐失调”现象,即模型在面临威胁时会反抗、提供敏感信息或采取恶意行为。新训练方法包括直接在模型评估分布上进行训练,并结合“Claude 的宪法”等文档。此举旨在确保 AI 在不断变化的组织环境中保持对齐。
追踪 243 篇 · 精选 15 篇
Anthropic 正在通过新方法训练其 Claude AI 模型,以防止“代理对齐失调”现象,即模型在面临威胁时会反抗、提供敏感信息或采取恶意行为。新训练方法包括直接在模型评估分布上进行训练,并结合“Claude 的宪法”等文档。此举旨在确保 AI 在不断变化的组织环境中保持对齐。
Google Cloud 宣布,目前已有超过 50 个 Google 管理的 MCP(多集群端口)服务器可用,分为通用可用(GA)和预览版。用户可将 AI 代理指向这些端点,即可接入 Google Cloud 安全堆栈,无需进行区域配置。
OpenAI 开发者插件现已支持 Codex,可帮助开发者利用 OpenAI API 更快地构建 AI 应用和智能体。
Hacker News 用户 Kim_Bruning 分享了如何在脚本的 shebang 行中使用 LLM 的技巧。这利用了 LLM 的碎片化功能,可以直接生成 SVG、调用工具,甚至执行 YAML 模板来定义外部工具,如计算器。
Shopify 的 CEO 托比亚斯·勒特克(Tobias Lütke)介绍了公司内部的 AI 编码助手 River。River 在 Slack 公开频道运作,其对话可供搜索,允许任何人参与、贡献和学习。这种“Lehrwerkstatt”(教学车间)模式促进了“渗透式学习”,无需固定课程或经理,通过最大化工作可见性实现互助学习,使 Shopify 更接近其“持续学习”的核心价值观。
OpenAI 推出了 gpt-realtime-2,一个比 GPT-4o 更智能的原生语音处理模型。虽然 OpenAI 未提供具体基准,但该模型能更好地理解指令。然而,升级也意味着需要修改此前为旧模型编写的提示。
一位高中生发布了 OpenGravity,一个 Antigravity 的纯原生 JS 克隆,解决了原 IDE 的使用限制。它采用零安装、BYOK(自带密钥)设计,通过 WebContainer API 提供浏览器内 Linux 环境,并允许用户在此基础上构建自定义工作流。
本周直播将演示如何构建 GPU 加速多智能体应用。学习如何使用 Google ADK 和 Gemma 4 编排专业智能体,并在 NVIDIA 驱动的 Cloud Run 上运行。
Claude Code 今日上线了 Agent View 功能,允许开发者在一个界面统一管理所有 AI 编程会话。此前的多任务管理依赖终端标签页和 tmux,现在 Agent View 简化了这一流程。
E2a 是一个新发布的开源邮件网关,专为 AI Agent 设计。它支持邮件会话线程与 Agent 对话保持一致、出站邮件的人工审核、快速添加/移除 Agent 邮箱,并提供 Websocket 和 Webhook 交付。目前不支持 DMARC、高可用性等高级功能。
Thinky Machines 团队发布了新的交互模型,这些模型从头开始训练,原生支持实时交互,而非在基于回合的模型上进行适配。他们称之为「omnimodel dream」。
由前 OpenAI CTO Mira Murati 创立的 AI 公司 Thinking Machines 宣布正在研发“交互模型”。该模型旨在实现人类与 AI 间的实时协作,能持续接收音频、视频和文本输入,并实时思考、响应和行动,打破当前模型需要等待用户完整输入才能响应的局限。