字节跳动、香港中文大学、香港大学、莫纳什大学联合推出全新开源视频生成模型 OmniShow,专为人 - 物交互场景打造,凭借统一全模态输入框架,在开源领域实现能力跃升。
它不只是 Demo,而是在多项 benchmark 上拿下 SOTA 的工业级成果,尤其适合电商广告、AI 短剧、数字人交互等高价值场景。
一、模型定位:人 - 物交互视频专用生成框架
OmniShow 聚焦 HOIVG(Human-Object Interaction Video Generation),核心目标是用一个模型统一所有多模态输入条件,支持文本、参考图像、音频、姿态四种信号联合驱动,输出高真实感人 - 物交互视频。
研发团队堪称产学研顶配:
-
字节跳动
-
香港中文大学
-
香港大学
-
莫纳什大学
二、核心亮点:全模态统一,四大生成模式
1. 真正全模态统一架构
通过通道级条件注入机制,把文本、参考图、音频、姿态四种输入无缝融合,不拆分模型、不切换流程,信息利用率大幅提升。
2. 一模型支持 4 种生成范式
-
R2V:参考图像 → 视频
-
RA2V:参考图像 + 音频 → 视频
-
RP2V:参考图像 + 姿态 → 视频
-
RAP2V:参考图像 + 音频 + 姿态 + 文本 → 视频
其中 RAP2V 是当前开源圈罕见的四模态混合生成模式。
3. 深度优化人 - 物交互逻辑
专门解决人手抓取、接触、操作物体的物理合理性问题:
-
减少物体穿透、穿模
-
提升接触稳定性
-
运动更符合物理规律
4. 原生支持 10 秒长镜头
支持最长 10 秒连续视频生成,动态流畅、无明显崩坏,满足短视频、广告、数字人内容生产需求。
三、关键能力特性
-
高保真保留:完美保持参考图中人、物体的外观特征
-
自然运动动态:动作连贯、过渡顺滑
-
精准音画同步:音频驱动场景下同步率极高
-
强身份一致性:人脸 / 物体特征稳定不飘
-
场景丰富:数字人播报、物体替换、视频 remix 等
四、性能表现:多项 benchmark 达 SOTA
团队构建了专用评测集 HOIVG-Bench,包含 135 个精细样本与专项指标,结果显示:
-
R2V 任务
OmniShow 在 NexusScore、AES、VQ、MQ 等关键指标全部第一。
-
RA2V 任务
音视频同步指标 Sync-C / Sync-D 大幅领先,综合表现力最强。
-
RP2V 任务
NexusScore、PCK 显著优于对比模型,交互真实性突出。
整体而言,OmniShow 是目前唯一支持完整 RAP2V 模式的开源模型,综合实力领跑同赛道。
五、适用场景
-
电商产品展示视频(人 - 商品交互)
-
AI 短剧、漫剧、短视频生成
-
音频驱动数字人
-
视频内容编辑 / Remix / 物体替换
-
虚拟直播、交互演示
六、总结
OmniShow 为人 - 物交互视频生成提供了全新的端到端方案,统一多模态、强物理合理性、长镜头支持、工业级效果,让它成为 2026 年视频生成领域最值得关注的开源新作之一。
目前项目已开放论文与项目页,代码即将完全开源,有望快速成为视频生成、数字人、内容创作的主流基座。
项目地址:https://correr-zhou.github.io/OmniShow/
GitHub:https://github.com/Correr-Zhou/OmniShow
要不要我继续帮你处理下一篇文章的改写润色?
https://mp.weixin.qq.com/s/hOvOLuOfsfM0Tm2zV9TGzQ 下一个是这个
Claude 彻底进化!Anthropic 官宣 Routines:AI 化身全自动 7×24 小时开发助手
2026 年 4 月 15 日,Anthropic 正式发布 Claude Code 重磅新功能 ——Routines(例程),目前已开放研究预览。
这一次,Claude 真正从 “交互式助手” 变成可以独立值守、自动触发、云端后台运行的全自动智能体,你关电脑睡觉,它照样帮你改 Bug、修代码、合 PR、处理告警。
一、Routines 到底是什么?
简单说:一次配置,永久自动执行。
你只需要设置一次:提示词 + 代码仓库 + 工具连接器,Claude 就可以在云端自动运行,不需要你开电脑、开终端、挂进程。
它把之前的 /loop 和 /schedule 能力彻底整合升级,变成更强大的全自动工作流。
二、三大触发模式:时间 / API / Webhook
Routines 最核心的升级,是支持三种可组合的触发方式,覆盖几乎所有自动化场景:
1. 定时触发(Schedule)
-
按小时 / 每天 / 每周自动执行
-
旧版
/schedule任务自动升级,无需迁移 -
经典场景:凌晨 2 点自动拉取最高优先级 Bug → 修复 → 提交 PR 草稿
2. API 触发(最大亮点)
-
每个 Routine 自带独立 HTTP 接口 + Token
-
任何系统发 POST 请求即可唤醒 Claude
-
调用后返回会话 URL,可实时查看执行过程
-
适用场景:监控告警(Datadog/Sentry)、部署钩子、内部系统自动报修
3. GitHub 事件触发(Webhook)
-
订阅 GitHub 仓库事件:PR、Issue、Push 等
-
支持精细过滤:分支、标签、作者、文件路径
-
同一个事件可在同一会话持续跟进(CI 失败、评论回复)
-
适用场景:自动 Code Review、安全检查、文档同步校验
组合使用
一个 Routine 可同时绑定:
GitHub 事件 + 每日定时复查 + 部署后 API 触发,实现全天全自动覆盖。
三、典型使用场景(官方真实案例)
-
每晚自动扫描 Issue,打标签、分派负责人、发群总结
-
每周检查已合并 PR,自动补齐缺失文档并提 PR
-
Python SDK 合码后,自动迁移等价逻辑到 Go SDK
-
监控告警自动拉取日志与代码,给出修复方案并开 PR
这些原本需要手动搭建的 Agent 工作流,现在开箱即用。
四、使用入口(全平台互通)
-
网页:claude.ai/code/routines → Create routine
-
桌面端:Scheduled → New task → New remote task
-
终端:直接输入
/schedule
官方已提供常用模板:
-
每日邮件 / 日历简报
-
系统健康巡检
-
PR 审查摘要
-
Issue 自动分类
-
依赖更新安全扫描
五、额度与权限说明(重要)
-
额度限制:
-
Pro:每日 5 个
-
Max:每日 15 个
-
Team/Enterprise:每日 25 个
-
-
权限:云端全自动执行,默认不弹窗二次确认
-
身份:所有操作以你的账号身份执行
-
消耗:正常扣减订阅额度
六、总结
Routines 的发布,标志着 Claude 从 “对话式 AI” 正式迈入自主智能体时代。
它不需要你看守、不需要你在线、不需要你反复下指令,真正成为可以7×24 小时帮你干活的全自动开发伙伴。
对于开发者、运维、团队管理者来说,这是一次效率范式的升级 ——以后重复性工作,真的可以交给 AI 自己跑了。

