Diffutoon
Diffutoon简介
Diffutoon 是一项突破性的卡通着色进步,植根于扩散模型,可将逼真的视频无缝地转变为动漫视觉风格。该方法将卡通着色挑战分解为四个可辨别的方面:风格化、一致性增强、结构指导和着色。其主要卡通着色管道由植根于动漫风格扩散原理的多模块去噪模型推动,拥有令人印象深刻的渲染详细、高分辨率和长时间视频的能力。编辑分支的合并有助于根据提供的提示进行内容操作。通过闪存注意力的战略集成巧妙地缓解了 GPU 内存限制,从而实现高达 1536 x 1536 的分辨率。
Diffutoon 能够以动漫风格渲染出细致、高分辨率、以及延长时间的视频。它还可以通过额外的分支编辑内容。Diffutoon 的有效性通过数值指标和人类评估进行评估。值得注意的是,Diffutoon 在我们的实验中超越了开源和闭源基线方法。
Diffutoon 的主要功能:
将真实感视频转换成各种动漫风格
根据用户提示编辑视频内容,例如改变颜色或添加特效。
详细保留了光照、头发和姿势等细节,同时保持了与动画风格密切相关的视觉效果。
保持视频内容的一致性,避免闪烁和失真。
能够生成高分辨率、长时间的视频。
Diffutoon 的主要特点:
高分辨率输出:Diffutoon 可以处理超高分辨率的视频,使其适合专业级动画和视频项目。
一致性增强:它确保跨帧的风格化一致,这对于保持动画序列的视觉连贯性至关重要。
可编辑内容:该方法允许根据提示进行内容编辑,为创作过程提供灵活性。
结构指导和着色:Diffutoon 结合了结构指导和着色,以增强风格化输出的视觉吸引力和准确性。
Diffutoon 应用:
动画制作:Diffutoon 可用于动画创作,将真人镜头或其他类型的视频转换为动画风格的动画。
视频编辑:它能够根据提示编辑视频内容,这使其成为希望将动漫美学融入其项目的视频编辑者的强大工具。
创意项目:艺术家和创作者可以使用 Diffutoon 在其视频内容中尝试不同的风格和效果。
论文:https://arxiv.org/pdf/2401.16224
Github:https://github.com/modelscope/DiffSynth-Studio
项目:https://ecnu-cilab.github.io/DiffutoonProjectPage/