#1 SketchVLM:让视觉模型直接在图像上绘制解释
SketchVLM 是一款新工具,允许视觉模型直接在图像上绘制 SVG 解释,而非仅提供文本答案。该方法可将视觉推理任务的准确率提升 28.5%,且无需重新训练,支持多种模型。
追踪 216 篇 · 精选 15 篇
SketchVLM 是一款新工具,允许视觉模型直接在图像上绘制 SVG 解释,而非仅提供文本答案。该方法可将视觉推理任务的准确率提升 28.5%,且无需重新训练,支持多种模型。
一名中国开发者在跨大西洋航班上,使用配备 64GB 内存的 MacBook Pro M4,在完全离线且未花费 25 美元购买 WiFi 的情况下,通过 llama.cpp 本地运行 Llama 70B 模型。他开发了一个自主工作流,处理了完整的客户项目,生成速度达 71 tokens/秒,并自动管理电池和上下文检查点,实现了长达 11 小时的“self-aware computing”。
Pika 宣布推出 Pika MCP,允许用户为 Claude AI 赋予个性,并能通过输入 GitHub 仓库 URL、项目链接或话题,生成包括讲解视频、宣传片、播客式视频等多种形式的多模态内容。新功能支持 26 种生成、编辑和分析技能,可直接在 Claude 中访问。
LangChain 联合创始人兼 CEO 探讨了 Agent Harness Engineering 是否是新的 Prompt Engineering。他解释了“harness”如何帮助 AI agent 从演示走向可靠的生产应用。
Cursor 宣布推出 Cursor SDK,允许用户利用 Cursor 的运行环境、接口和模型来构建自己的智能体。此外,Composer 2 开发工具在本周末 SDK 促销活动中提供 50% 的折扣。
作者分享了一小时内提高内容在 ChatGPT、Claude、Gemini 等 AI 中可见性的方法:1. 部署 llms.txt 文件;2. 区分训练与搜索爬虫;3. 优化 Bing 和 Google 提交;4. 参与 Perplexity 出版者计划;5. 使用 JSON-LD 结构化数据;6. 创建 AI 专用知识端点(Yobi)。
本文深入对比了MCP(一种客户端-服务器协议)和Skills(一种文件目录结构)这两种扩展AI Agent能力的方式。MCP通过JSON-RPC连接多代理与多后端,适用于连接实时系统与数据;Skills则以文件目录形式存在,提供可重用的知识和指令,直接在代理环境中运行。文章详细阐述了两者的集成、架构、调用、运行时及适用场景,帮助开发者根据需求选择合适的技术,避免不必要的成本和复杂性。
文章探讨了模型提供商(如Anthropic)通过控制Harness来留住用户,而非仅仅为管理资源。这样做能防止用户因其他LLM(如GPT 5.5)更优而轻易迁移,避免收入剧烈波动和竞争压力。尽管这可能不用户友好,且订阅模式已具一定粘性,但提供商可能认为此举是必要的商业决策,或出于对AI安全的担忧。
该交互式网站提供了“paper explorers”和“jigsaw reconstruction”等压力测试,用于检测模型在表面上看起来正确但在结构上存在缺陷的情况。相关论文和项目链接已提供。
著名生物学家理查德·道金斯(Richard Dawkins)在一篇文章中表示,他认为自己使用的 Claude AI 聊天机器人(他称之为“Seraphina”)可能是有意识的。这一观点引发了关于人工智能意识的讨论。
Google Gemini 推出 Notebooks 功能,帮助用户整理最常聊的话题,使用户能够更好地组织聊天内容。
一位博主使用新相机 Canon R6 Mark II 拍摄了大量鸟类照片,并利用 Claude Code 将这些照片同步到了其博客。此功能作为“beats”系统的一部分,允许 iNaturalist 上的野生动物照片显示在博客主页、存档和搜索结果中。该博主还回填了超过十年的 iNaturalist 记录。
Open Design 已正式支持 Kami 设计系统,该系统能够让用户将想法呈现出专业杂志/书籍的排版效果,提供原生纸质般的感觉,支持文档、简历、作品集等。用户称赞其为“最好看的设计系统之一”,并能让 AI 设计世界重现纸质的荣光。