Rover 是什么
Rover 是一个 AI 驱动的每日科技文章精选。
它的后台 Pipeline 每 3 小时自动从 25 个 RSS 源和 45+ Twitter 账号抓取文章,使用 AI 对每篇文章进行 8 个维度的评分(0-10 分),然后在每天北京时间 10:00 自动生成当日精选。
绝大多数文章的得分在 3-6 分之间。只有少数文章能获得高分。如果某天没有足够重要的内容,精选列表会很短——这是刻意的设计。
数据来源
目前追踪 25 个 RSS 源和 45+ Twitter 账号,涵盖科技媒体、AI / ML 资讯、技术博客、中文社区以及行业从业者的 Twitter 动态。所有来源每 3 小时自动抓取一次,确保信息的时效性。
工作流程
- 采集 — 每 3 小时从 RSS 和 Twitter 并发抓取最新内容
- 过滤 — 排除广告、招聘等噪音,过滤过短的内容
- 去重 — 使用 Gemini Embedding 生成语义向量,基于余弦相似度去除重复报道(同日阈值 0.72,跨日阈值 0.85)
- 评分 — AI 从 8 个维度独立打分,加权计算综合得分
- 精选 — 按话题聚类、控制来源多样性(每个来源最多 2 篇)、设置质量断层检测,选出 5-15 篇最佳文章
- 生成 — 为每篇文章生成中英双语标题和摘要
- 推送 — 通过 Telegram 发送摘要,同时更新网站
评分维度
每篇文章由 Gemini 从以下 8 个维度进行评估,各维度独立打分(0-10),再按权重加权得出综合分:
- 相关性 (35%) — 与关注领域的匹配程度
- 规模 (10%) — 事件影响的广度
- 影响力 (10%) — 产生的实际效果强度
- 新颖性 (10%) — 信息的独特和意外程度
- 潜力 (10%) — 未来 6-12 个月的持续影响
- 里程碑 (10%) — 是否可能成为历史转折点
- 可信度 (10%) — 来源的权威性和可靠性
- 积极性 (5%) — 平衡媒体的负面偏见
为什么需要「积极性」维度?
媒体天然有负面偏见——负面新闻更容易获得关注和传播。这个维度的权重很低(仅占总分的 5%),不会显著改变整体分布,但会在高分区间带来明显差异:没有它,高分文章几乎全是战争和灾难;有了它,科学发现和技术突破也能获得应有的排名。
关注领域
「相关性」是权重最高的维度(35%),它衡量文章与以下关注领域的匹配程度:
AI & LLMCrypto/Web3前端工程产品设计独立开发与创业互联网产品开源IoT
精选逻辑
评分只是第一步。最终精选还经过以下处理:
- 话题聚类 — 同一话题的多篇报道会被聚类。多来源覆盖的话题会获得「热度加成」(最高 1.4 倍),但前提是相关性评分 ≥ 7
- 来源多样性 — 每个来源最多入选 2 篇,避免单一来源垄断
- 质量断层 — 选够 5 篇后,如果下一篇与当前最低分的差距超过 2.5 分,自动停止选择
- 内容平衡 — 确保至少包含 2 条 Twitter 内容,保持信息来源的多样性