拖拽下图像就能生成视频,中科大、微软等DragNUWA属实惊艳
机器之心报道
编辑:小舟
【资料图】
随着 ChatGPT、GPT-4、LLaMa 等模型的问世,人们越来越关注生成式模型的发展。相比于日渐成熟的文本生成和图像生成,视频、语音等模态的 AI 生成还面临着较大的挑战。
现有可控视频生成工作主要存在两个问题:首先,大多数现有工作基于文本、图像或轨迹来控制视频的生成,无法实现视频的细粒度控制;其次,轨迹控制研究仍处于早期阶段,大多数实验都是在 Human3.6M 等简单数据集上进行的,这种约束限制了模型有效处理开放域图像和复杂弯曲轨迹的能力。
基于此,来自中国科学技术大学、微软亚研和北京大学的研究者提出了一种基于开放域扩散的新型视频生成模型 ——DragNUWA。DragNUWA 从语义、空间和时间三个角度实现了对视频内容的细粒度控制。本文共一作殷晟明、吴晨飞,通讯作者段楠。
论文地址:https://arxiv.org/abs/2308.08089
以拖动(drag)的方式给出运动轨迹,DragNUWA 就能让图像中的物体对象按照该轨迹移动位置,并且可以直接生成连贯的视频。例如,让两个滑滑板的小男孩按要求路线滑行:
还可以「变换」静态景物图像的相机位置和角度:
方法简介
该研究认为文本、图像、轨迹这三种类型的控制是缺一不可的,因为它们各自有助于从语义、空间和时间角度控制视频内容。如下图 1 所示,仅文本和图像的组合不足以传达视频中存在的复杂运动细节,这可以用轨迹信息来补充;仅图像和轨迹组合无法充分表征视频中的未来物体,文本控制可以弥补这一点;在表达抽象概念时,仅依赖轨迹和文本可能会导致歧义,图像控制可以提供必要的区别。
DragNUWA 是一种端到端的视频生成模型,它无缝集成了三个基本控件 —— 文本、图像和轨迹,提供强大且用户友好的可控性,从语义、空间和时间角度对视频内容进行细粒度控制。
为了解决当前研究中有限的开放域轨迹控制问题,该研究重点关注三个方面的轨迹建模:
使用轨迹采样器(Trajectory Sampler,TS)在训练期间直接从开放域视频流中采样轨迹,用于实现任意轨迹的开放域控制; 使用多尺度融合(Multiscale Fusion,MF)将轨迹下采样到各种尺度,并将其与 UNet 架构每个块内的文本和图像深度集成,用于控制不同粒度的轨迹; 采用自适应训练(Adaptive Training,AT)策略,以密集流为初始条件来稳定视频生成,然后在稀疏轨迹上进行训练以适应模型,最终生成稳定且连贯的视频。实验及结果
该研究用大量实验来验证 DragNUWA 的有效性,实验结果展示了其在视频合成细粒度控制方面的卓越性能。
与现有专注于文本或图像控制的研究不同,DragNUWA 主要强调建模轨迹控制。为了验证轨迹控制的有效性,该研究从相机运动和复杂轨迹两个方面测试了 DragNUWA。
如下图 4 所示,DragNUWA 虽然没有明确地对相机运动进行建模,但它从开放域轨迹的建模中学习了各种相机运动。
为了评估 DragNUWA 对复杂运动的精确建模能力,该研究使用相同的图像和文本对各种复杂的拖动(drag)轨迹进行了测试。如下图 5 所示,实验结果表明 DragNUWA 能够可靠地控制复杂运动。
此外,DragNUWA 虽然主要强调轨迹控制建模,但也融合了文本和图像控制。研究团队认为,文本、图像和轨迹分别对应视频的三个基本控制方面:语义、空间和时间。下图 6 通过展示文本(p)、轨迹(g)和图像(s)的不同组合(包括 s2v、p2v、gs2v、ps2v 和 pgs2v)说明了这些控制条件的必要性。
感兴趣的读者可以阅读论文原文,了解更多研究内容
关键词:
相关阅读
-
拖拽下图像就能生成视频,中科大、微软...
现有可控视频生成工作主要存在两个问题:首先,大多数现有工作基于文本 -
ai顶部属性栏不见了怎么调出来 ai顶部...
ai是一种应用于出版、多媒体和在线图像的工业标准矢量插画的软件,然而 -
美债收益率飙至16年来新高!全球央行年...
在本周杰克逊霍尔全球央行年会开幕前,由于担心美联储主席鲍威尔保持甚 -
《大征服者2:战国时代》开发者日志(一...
当我们考虑做“日本战国时代”主题的游戏的时候,其实也是有过顾虑... -
三亚济南七夕“携手”,探索经济发展新天地
8月22日恰逢我国传统七夕节,我国首个科创金融改革试验区济南、我国改 -
辽宁省出台食品安全工作重大事项督促落...
为进一步建立更为严格的食品安全工作责任制和责任追究制度,防范食品安 -
港股逆势反弹 分析人士:底部仍未确立
8月23日,在A股继续走低的背景下,港股市场迎来逆势反弹。其中,恒生指 -
国内成品油再上调 加满一箱50升92号汽...
8月23日24时,国内成品油价格微幅上调。据国家发改委消息,国内汽、柴 -
深圳地铁4号线着火?官方回应来了
据港铁深圳官方微博消息,8月22日上午8时10分左右,地铁4号线往福田口 -
(经济观察)为何8月中国房贷利率之“锚...
中新社北京8月21日电 (记者 庞无忌)21日最新公布的8月中国贷款市 -
华能清远燃机热电一期2×120MW工程相关...
中国华能集团有限公司电子商务平台发布华能清远燃机热电一期(2×120MW -
新莱福(301323.SZ):正在进行透明射线防...
格隆汇8月23日丨有投资者向新莱福301323SZ提问公司的防辐射服主要应用 -
电池概念股早盘普跌,电池ETF基金连跌8天
24小时财经资讯平台,依托新锐财经日报《每日经济新闻》(NationalBusin -
降费降佣多措并举 头部券商在行动
日前,证监会发布了一揽子活跃资本市场的政策举措,包括将降低证券交易 -
瑞丰银行2023年上半年净利7.3亿 同比增加16.8%
挖贝网2023年8月22日,瑞丰银行(601528)近日发布2023年半年度报,报告 -
科笛-B(02487):局部外用利多卡因丁卡因...
智通财经APP讯,科笛-B(02487)发布公告,CU-30101,一种用于皮肤表皮手 -
六年间山东取消各类实体证明1560余类 ...
海报新闻记者梁雯济南报道“法治是最好的营商环境。”8月22日上午,... -
宣城广德:深融长三角 养老发展“可圈...
近年来,宣城广德市紧抓长三角一体化发展机遇,深化长三角区域养老服务 -
c和a的区别 数学c和a的区别
基金c和a的区别:1、基金a不会收取投资者的销售服务费,基金c会收取;2 -
河南省首笔“节水贷”落地
【大河财立方记者席韶阳通讯员郑薇常双双】近日,河南省水利厅举办...