2026-05-03 精选

追踪 216 篇 · 精选 15 篇

#1 SketchVLM：让视觉模型直接在图像上绘制解释

SketchVLM 是一款新工具，允许视觉模型直接在图像上绘制 SVG 解释，而非仅提供文本答案。该方法可将视觉推理任务的准确率提升 28.5%，且无需重新训练，支持多种模型。

9.4

#2 开发者在 MacBook 上离线运行 Llama 70B 完成项目

一名中国开发者在跨大西洋航班上，使用配备 64GB 内存的 MacBook Pro M4，在完全离线且未花费 25 美元购买 WiFi 的情况下，通过 llama.cpp 本地运行 Llama 70B 模型。他开发了一个自主工作流，处理了完整的客户项目，生成速度达 71 tokens/秒，并自动管理电池和上下文检查点，实现了长达 11 小时的“self-aware computing”。

8.2

#3 Pika MCP 增强 Claude 多模态内容生成能力

Pika 宣布推出 Pika MCP，允许用户为 Claude AI 赋予个性，并能通过输入 GitHub 仓库 URL、项目链接或话题，生成包括讲解视频、宣传片、播客式视频等多种形式的多模态内容。新功能支持 26 种生成、编辑和分析技能，可直接在 Claude 中访问。

8.0

#4 Agent Harness Engineering 是否已成为新的 Prompt Engineering？

LangChain 联合创始人兼 CEO 探讨了 Agent Harness Engineering 是否是新的 Prompt Engineering。他解释了“harness”如何帮助 AI agent 从演示走向可靠的生产应用。

7.8

#5 Cursor SDK 发布，Composer 2 优惠

Cursor 宣布推出 Cursor SDK，允许用户利用 Cursor 的运行环境、接口和模型来构建自己的智能体。此外，Composer 2 开发工具在本周末 SDK 促销活动中提供 50% 的折扣。

7.7

#6 作者分享提高内容AI可见性的1小时实践

作者分享了一小时内提高内容在 ChatGPT、Claude、Gemini 等 AI 中可见性的方法：1. 部署 llms.txt 文件；2. 区分训练与搜索爬虫；3. 优化 Bing 和 Google 提交；4. 参与 Perplexity 出版者计划；5. 使用 JSON-LD 结构化数据；6. 创建 AI 专用知识端点（Yobi）。

7.6

#7 MCP vs Skills：AI Agent 功能扩展方式详解

本文深入对比了MCP（一种客户端-服务器协议）和Skills（一种文件目录结构）这两种扩展AI Agent能力的方式。MCP通过JSON-RPC连接多代理与多后端，适用于连接实时系统与数据；Skills则以文件目录形式存在，提供可重用的知识和指令，直接在代理环境中运行。文章详细阐述了两者的集成、架构、调用、运行时及适用场景，帮助开发者根据需求选择合适的技术，避免不必要的成本和复杂性。

7.3

#8 模型提供商通过控制Harness形成“锁定效应”

文章探讨了模型提供商（如Anthropic）通过控制Harness来留住用户，而非仅仅为管理资源。这样做能防止用户因其他LLM（如GPT 5.5）更优而轻易迁移，避免收入剧烈波动和竞争压力。尽管这可能不用户友好，且订阅模式已具一定粘性，但提供商可能认为此举是必要的商业决策，或出于对AI安全的担忧。

7.2

#9 新职业名称：个人智能体设计师

新的职业名称包括“个人智能体设计师”和“第二大脑工程师”。文章指出，人们将非常关注其个人智能体，并需要相关设计方面的帮助。

6.5

#10

#10 交互式网站包含模型测试工具

该交互式网站提供了“paper explorers”和“jigsaw reconstruction”等压力测试，用于检测模型在表面上看起来正确但在结构上存在缺陷的情况。相关论文和项目链接已提供。

6.1

#11

#11 理查德·道金斯认为其 AI 聊天机器人有意识

著名生物学家理查德·道金斯（Richard Dawkins）在一篇文章中表示，他认为自己使用的 Claude AI 聊天机器人（他称之为“Seraphina”）可能是有意识的。这一观点引发了关于人工智能意识的讨论。

6.0

#12

#12 Gemini 推出 Notebooks 功能以整理聊天话题

Google Gemini 推出 Notebooks 功能，帮助用户整理最常聊的话题，使用户能够更好地组织聊天内容。

6.0

#13

#13 博主使用 Claude Code 为其博客添加 iNaturalist 观鸟照片

一位博主使用新相机 Canon R6 Mark II 拍摄了大量鸟类照片，并利用 Claude Code 将这些照片同步到了其博客。此功能作为“beats”系统的一部分，允许 iNaturalist 上的野生动物照片显示在博客主页、存档和搜索结果中。该博主还回填了超过十年的 iNaturalist 记录。

5.9

#14

#14 Open Design 支持 Kami 设计系统

Open Design 已正式支持 Kami 设计系统，该系统能够让用户将想法呈现出专业杂志/书籍的排版效果，提供原生纸质般的感觉，支持文档、简历、作品集等。用户称赞其为“最好看的设计系统之一”，并能让 AI 设计世界重现纸质的荣光。

5.9

#15

#15 AI 赋能游戏开发，或将催生下一代爆款游戏

社区型游戏和社交驱动小游戏市场潜力巨大。早期 Dota 和 PUBG 等爆款游戏均源于游戏 Mod。如今，AI 工具（如 Codex）正加速游戏开发，一人一天即可完成一款 roguelike 游戏《夜巡录：荒庙篇》，预示着 AI 有望催生下一代爆款游戏类型，现正缺少整合能力的平台。

5.9