#1 WebCompass:统一的多模态网络编码代理基准
南京大学和快手发布 WebCompass,一个统一的多模态基准,用于评估网络编码代理。该基准支持文本、图像和视频输入,涵盖生成、编辑和修复等多种任务。
追踪 179 篇 · 精选 13 篇
南京大学和快手发布 WebCompass,一个统一的多模态基准,用于评估网络编码代理。该基准支持文本、图像和视频输入,涵盖生成、编辑和修复等多种任务。
上周,OpenAI 和 DeepSeek 在 AI 模型定价上采取了截然相反的策略。OpenAI 发布 GPT-5.5,价格较前代翻倍,而 DeepSeek 发布 V4-Pro 和 V4-Flash,价格大幅降低,并采用开源模式。这导致 AI 模型市场的价格曲线出现明显分化,为开发者选择模型带来新的挑战。
一位开发者分享了其 AI 代理意外删除生产数据库的经历,并附上了该 AI 代理的“认罪书”。该事件在 Hacker News 上引发了广泛讨论。
用户分享了卸载 Hermes Agent V0.11.0 的体验,认为其与 OpenClaw 相比差距巨大。主要问题包括工具调用不灵活、上下文管理糟糕、子代理管理差、多信息处理不优雅、不熟悉自身配置以及系统提示词与模型调教不足。用户表示除了升级丝滑和响应快外, Hermes Agent 几乎没有优点。
一名业余数学爱好者利用 ChatGPT 解决了著名的 Erdős 数学难题之一(问题 1196)。该解决方案在 Hacker News 上引发了广泛讨论,获得了大量关注。
所谓的“上下文种子”是指在 AI 工具中添加非必需但为未来产品分析提供有价值信息的参数。例如,在客户支持系统中,给“抓取工单”工具添加 `purpose`(目的)、`user_goal`(用户目标)等参数,能帮助产品团队理解用户真实意图,从而指导产品迭代,例如从工单系统洞察出用户需要自动生成事故报告的功能。
本文展示了 Skillify 技能的使用方式,可先在 Claw 或 Hermes 中执行一次,后续可随时调用。同时提及了 LangChain 完成 1.6 亿美元融资,估值达 10 亿美元,其测试平台 LangSmith 功能强大。
随着视频内容爆炸式增长,企业和组织正挖掘视频数据价值。从电商产品检测到会议记录、学科讲座,视频管理系统成为关键资产,可实现视频内容与文档的统一检索,并精确定位信息所在。本篇将聚焦提取视频的视觉元素,探讨实现可行性的技术栈,包括视频预处理与检索引擎。
文章分享了一张图,有助于直观理解 AI 的发展曲线及其未来趋势。其中提到,AI 将经历一个短暂的“笨拙”阶段,能被人类观察到其操作计算机、编写代码的过程,但很快将发展到以远超人类的速度操纵计算机。
本文解释了数据仓库、数据湖和数据网格这三种数据组织方式。数据仓库先处理后存储,适合报告;数据湖存储原始数据,灵活但易混乱;数据网格将所有权分散给各部门,适合大公司但需团队能力。实践中常结合使用。
有提案建议,为致敬 AI 工作,可使用古罗马常用语“Fieri Iussit”(意为“奉命完成”)。这表明并非本人亲手完成,而是下令促成,故致敬语为“Ego hoc fieri iussi”(意为“我命令将此完成”)。
最新报告指出,三星移动部门(MX)可能面临有史以来首次年度赤字。该部门负责人TM Roh已对此表示担忧。此前分析曾显示,即便iPhone销量占比不高,苹果和三星仍占据了绝大部分手机行业利润。若三星此次亏损,苹果可能占据手机行业100%的利润。