01 [机器人] CBCT 告诉你组织曾在哪里,超声告诉你组织现在在哪里
介入导航依赖 CBCT 提供三维解剖上下文——但 CBCT 只是一张快照。一旦呼吸导致器官移位,或探针使软组织变形,这张快照便已失效。外科医生所参照的地图,早已与实际地形不再吻合。
该框架使用机器人超声探针作为连续形变传感器,以实时更新 CBCT 地图。以校准初始化对齐配合基于 LC2 的刚性精配准,建立超声与 CBCT 坐标空间之间的初始多模态对应关系。在此基础上,USCorUNet——一种轻量级的基于相关性的 UNet——从实时超声帧中追踪术中组织运动,并将这些形变反向传播至 CBCT 体积,实时更新切片,无需重新采集 CT。核心思路在于:超声并非取代 CBCT 的解剖分辨率,而是弥补 CBCT 的时间盲区。
难点在于集成摩擦。机器人超声在本已拥挤的介入手术室中增加了一件物理器械,而”实时”能否实现,取决于 USCorUNet 推理延迟在实际手术室条件下是否稳定——这两点均尚未经过临床试验验证。对于正在构建肝脏、肾脏或腹部介入导航系统的团队——这些场景中呼吸运动通常超过 10–20mm——该形变代理架构值得密切关注。
核心要点:
- USCorUNet 从实时超声中提取术中形变,并将其反向传播至静态 CBCT 切片,将一次性扫描转化为持续更新的解剖参考
- 软组织漂移导致的导航误差并非成像的根本限制,而是一个时间更新问题,超声的实时帧率足以弥合这一差距
- 构建软组织目标术中导航系统的团队,应在投资更频繁的术中 CT 重采集之前,评估机器人超声作为形变代理的可行性
来源:Robotic Ultrasound Makes CBCT Alive
02 [评估] RLVR 因错误原因奖励了正确答案——CLIPO 修复了这一机制
RLVR 通过奖励正确的最终答案来训练模型进行推理。问题在于:一次推理过程可能经由有缺陷的中间步骤得到正确答案——抄写答案、跳过逻辑、幻构一个看似合理的推理链。标准 RLVR 无法区分这些情况。它奖励结果,同时强化了有问题的路径。
CLIPO 在成功推理轨迹上添加对比损失。它不将每条正确轨迹独立处理,而是同时对多条正确推理路径进行优化,迫使模型学习这些路径共有的不变结构——即在正确解法中始终出现的逻辑操作,而非恰好得到正确答案的表面模式。过程错误但结果正确的推理轨迹会受到惩罚,因为即便其最终 token 相同,其内部结构与真正正确的轨迹存在偏差。这是跨轨迹正则化,而非逐样本结果评分。
难点在于:该方法需要每道题有多条正确推理轨迹才能计算出有意义的对比信号——这意味着在正确轨迹稀疏的场景下(恰恰是奖励稀疏问题最突出的困难题目场景),该方法更难应用。对于在高 Pass@K 问题上运行 RLVR 流水线的团队,这是一个直接可用的改进插件。对于低 Pass@K 场景,请先解决探索问题。
核心要点:
- RLVR 的仅结果奖励信号,在中间步骤错误但最终答案正确时,会主动强化幻觉和答案抄写行为;对成功轨迹施加对比损失,通过惩罚轨迹结构偏差(而非仅输出 token)来揭示这一问题
- 仅用结果奖励训练的模型,其学到的策略比基准数字所显示的更嘈杂、泛化性更差——泛化差距是结构性的,而非偶然性的
- 进行推理强化学习微调的团队,在假设结果奖励已足够之前,应先审查训练推理轨迹中过程错误但结果正确的样本;当 Pass@K 足够高、能为每道题生成多条正确轨迹时,CLIPO 值得评估
来源:CLIPO: Contrastive Learning in Policy Optimization Generalizes RLVR
03 [图像生成] 缺失的脑部扫描不需要重新采集——它们可以被生成
临床阿尔茨海默症数据集几乎总存在模态缺失。一位患者有 MRI 但没有 PET 扫描,另一位有 FDG-PET 但没有淀粉样蛋白成像。常规做法是丢弃这些受试者或进行粗略插补。ACADiff 将缺失的扫描作为生成目标来处理。
其机制为:三个专用扩散生成器处理 sMRI、FDG-PET 和 AV45-PET 之间的双向合成。每个生成器在潜空间中去噪,同时关注推理时实际可用的模态。两个设计选择承担了核心功能。其一,自适应融合根据推理时存在哪些输入,动态重新配置条件通路——同一模型无需重训练即可处理任意模态存在与缺失的组合。其二,临床元数据(年龄、MMSE 评分、诊断阶段)通过 GPT-4o 编码为语义提示嵌入,引导合成朝向临床上合理的解剖结构。模型并非随意幻构一张脑部扫描,而是根据患者病历所描述的预期状态来生成。
难点在于:评估在 ADNI 数据集上进行,这是一个相对干净的研究队列。真实临床数据噪声更大,不同扫描仪的采集协议各异,而 GPT-4o 提示编码引入了外部依赖,对稀疏或非标准临床记录的处理行为可能难以预测。对于构建阿尔茨海默症诊断流水线的团队,其实际价值不在于替代成像,而在于挽救那些因采集不完整而本会被排除在多模态分析之外的受试者。
核心要点:
- 动态条件的自适应融合使单一模型能够从任意可用模态组合合成任意缺失模态,无需针对特定模态重新训练。
- 编码为语义提示的临床元数据对合成过程产生有意义的约束——生成问题部分受结构化患者信息监督,而非纯粹的图像到图像转换。
- 从事多模态医疗 AI 的团队,应在纳入排除标准削减队列规模之前,将此方法作为数据增强层加以评估。