#1
#1 NVIDIA Star Elastic:单一模型实现30B/23B/12B推理模型
NVIDIA研究员提出 Star Elastic 方法,通过单一训练运行,将30B、23B和12B参数的推理模型嵌套在同一检查点内,无需额外微调。该方法通过重要性评估和可训练路由器来确定嵌套子模型架构,并支持多种嵌套维度。Star Elastic还能实现不同推理阶段使用不同模型。
追踪 195 篇 · 精选 6 篇
NVIDIA研究员提出 Star Elastic 方法,通过单一训练运行,将30B、23B和12B参数的推理模型嵌套在同一检查点内,无需额外微调。该方法通过重要性评估和可训练路由器来确定嵌套子模型架构,并支持多种嵌套维度。Star Elastic还能实现不同推理阶段使用不同模型。
DHH 评价称,GPT-5.5 在过去一周多的低推理任务测试中表现出色,非常高效且能力强大。他表示,未使用 Opus 模型,且 GPT-5.5 比 Kimi 更简洁,认为这是 OpenAI 的巨大进步。
Gemini Enterprise Agent Platform 的 Agent Runtime 专为速度而构建,具备亚秒级冷启动和快速配置能力,可支持复杂的生产工作负载,让用户能够自信地扩展。
OpenAI 的 Luke Curley 指出,WebRTC为保持低延迟会主动丢弃音频数据包,导致网络状况差时用户体验受损。他认为,对于LLM应用,用户宁愿等待更长的响应时间以换取准确性,而非接受因低延迟设计而产生的错误。