#1 OpenMOSS发布MOSS-Audio:开源音频理解基础模型
OpenMOSS发布了MOSS-Audio,一个开源的音频理解基础模型,整合了语音、环境声、音乐识别、音频问答等多种能力。该模型支持进行复杂推理,克服了以往需要多个独立系统才能完成的任务。发布了MOSS-Audio-4B和MOSS-Audio-8B的Instruct和Thinking两个版本。
追踪 291 篇 · 精选 14 篇
OpenMOSS发布了MOSS-Audio,一个开源的音频理解基础模型,整合了语音、环境声、音乐识别、音频问答等多种能力。该模型支持进行复杂推理,克服了以往需要多个独立系统才能完成的任务。发布了MOSS-Audio-4B和MOSS-Audio-8B的Instruct和Thinking两个版本。
Applied Intuition 的 Qasar Younis 和 Peter Ludwig 探讨了从自动驾驶模拟工具发展到价值 150 亿美元的“物理AI”公司的历程。他们认为,“物理AI”不同于 LLM,真正的瓶颈在于将模型部署到性能受限的硬件上,并提出未来自动驾驶可能走向“万物互联的Android”模式,而非一次性演示。讨论聚焦于物理AI的可靠性需求、从工具到平台的演进、AI操作系统、验证挑战及部署现实。
AI 应用和代理需要访问现有企业数据以避免“幻觉”。Nvidia CEO 黄仁勋称结构化数据为 AI 的“真实依据”。pgEdge 联合创始人 Phillip Merrick 认为 Postgres 是一个理想的数据存储和访问平台,原因包括其开源模式、易用性、可扩展性,以及通过 pgvector 扩展支持向量数据库功能。这使得 Postgres 成为处理结构化、非结构化数据及向量数据的一站式解决方案,并能通过 pgEdge Agentic AI Toolkit 等工具支持 RAG 等 AI 应用开发。
斯坦福大学等机构的研究人员发现,自2022年底以来创建的新网站中,约有35%是AI生成或AI辅助的。研究发现AI使网络变得更积极,但并未证实其导致虚假信息增加或减少了内容来源的多样性。
新推出的 Bot-to-Bot Communication 功能允许 Bot 之间直接对话,特别适合多 Agent 协作流程。例如,一个 Bot 负责写代码,另一个 Bot 进行审查,它们可以在群聊中互相沟通并进行修改。
Choco 客户案例分享:如何利用 OpenAI API 自动化食品分销,提高生产力并实现增长,展示了 AI 在现实世界中的影响。
作者就 AI 领域提出了一系列开放性问题,旨在招聘一名核心研究员。问题涵盖:AI 算力垄断是否会挤压普通用户从中受益;改进 AI 模型能力的关键在于数据还是算法;当前模型在长时程编码上的突破是什么;模型在样本效率与内存占用之间为何存在权衡;以及在 AI 生成内容成为主流时,其对未来模型训练数据价值的影响,并探讨了持续学习在 AI 发展中的潜力。
Google Cloud Next 上展示的 marathon planning system 现已开源。该系统展示了包括 memory 和 MCPs 在内的多智能体联合架构,用户可在本地或云端运行。源代码已发布在 GitHub 仓库。
Clicky AI 推出全新应用,提供极其简便的界面以与 AI 互动并创建代理。该应用能构建 Mac 应用,辅助寻找 Instagram 微网红,并能与 Apple Notes、Calendar、Reminders 等原生应用集成,用户无需任何配置即可使用。
一名开发者发布的开源(OSS)Agent 在 TerminalBench 基准测试中获得 65.2% 的高分,超越了 Google 的 Gemini-3-flash-preview(47.8%)和闭源模型 Junie CLI(64.3%)。作者强调该 Agent 未使用任何作弊手段,并符合排行榜的运行规范。由于维护者响应不及时,该 Agent 的相关 Pull Request 已提交 8 天仍未被合并。
Google Earth AI 旗下的 Roads Management Insights (RMI) 将推出新的数据功能,包括「道路中断」及「车辆计数」。这些功能旨在为公共和私营部门提供及时的路况信息,帮助车队管理、优化路线规划,并识别潜在的安全风险。
据称 GPT-5.5 比 Opus 4.7 便宜约 39%。尽管 GPT-5.5 的输出 token 成本更高,但其输入 token 成本较低(缓存写入免费),且 token 效率更高,能将相同文本映射到更少的 tokens。