CogView4:全球首个支持生成汉字的开源文生图生成模型

CogView4是什么?

CogView4是由智谱AI于2025年3月4日发布的首个支持中英双语提示词的开源文生图ai模型,也是全球首个支持生成汉字的开源文生图模型,尤其擅长理解和遵循中文提示词,能在画面中生成汉字,非常适合做广告、短视频创作等。

CogView4-logo.webp

CogView4主要特点

  • 支持中英双语输入:CogView4能够处理任意长度的中英文提示词,并生成高质量图像。

  • 汉字生成能力:该模型可以将汉字自然融入图像中,特别适合广告、短视频等创意领域。

  • 任意分辨率图像生成:支持生成512×512到2048×2048范围内的任意分辨率图像。

  • 强大的语义对齐能力:在DPG-Bench基准测试中,CogView4的综合评分排名第一,展现了其在复杂语义对齐和指令跟随方面的卓越性能。

  • 技术优化:采用二维旋转位置编码(2D RoPE)和多阶段训练策略,包括基础分辨率训练、泛分辨率训练、高质量数据微调以及人类偏好对齐训练。

  • 显存优化与高效推理:通过模型CPU卸载和文本编码器量化等技术,显著降低了显存占用。

  • 开源与生态支持:遵循Apache 2.0协议,后续将支持ControlNet、ComfyUI等生态集成,并推出完整的微调工具包。

CogView4.webp

CogView4技术

  • 架构:基于扩散模型结合Transformer架构,使用60亿参数。

  • 文本编码器:采用双语GLM-4编码器,通过中英双语图文对进行训练。

  • 显存优化:通过模型CPU卸载和文本编码器量化等技术,降低显存占用,提升推理效率。

CogView4应用场景

CogView4特别适合需要中文创意的领域,例如广告设计、短视频制作、海报创作等,能够将中英文字符自然融入画面。

  • 广告创意:生成带有特定文字的海报、文案配图等。

  • 短视频制作:根据视频脚本或创意描述生成相应画面。

  • 艺术创作:辅助艺术家和设计师生成具有特定风格和意境的图像。

  • 教育领域:生成与教学内容相关的图像,如古诗文意境图。

  • 游戏开发:根据游戏剧情和角色设定生成游戏画面和角色形象。

  • 其他创意领域:如漫画创作、插画设计、品牌宣传等。

CogView4使用

1. 在线体验

  • HuggingFace:https://huggingface.co/spaces/THUDM-HF-SPACE/CogView4

  • ModelScope:https://modelscope.cn/models/ZhipuAI/CogView4-6B

2. 本地部署

如果需要在本地使用CogView4,可以通过以下步骤进行部署:

  • 获取模型代码:访问CogView4的GitHub仓库,地址是:https://github.com/THUDM/CogView4。

  • 硬件要求:CogView4模型需要较高的显存,最低推荐使用12GB显存的GPU。

  • 安装依赖:根据GitHub仓库中的说明,安装必要的Python依赖和环境。

  • 运行模型:按照仓库中的指南启动模型,输入提示词生成图像。

3. 模型微调

智谱计划推出CogView4的微调工具包,用户可以根据自己的需求对模型进行定制化训练。例如,可以针对特定的广告风格或品牌需求进行微调,以生成更符合需求的图像。

4. 通过Hugging Face使用

Hugging Face模型库地址:https://huggingface.co/THUDM/CogView4-6B。

收藏
#文生图
最新工具
选品酷BigTracker
选品酷BigTracker

一款由BQool比酷尔科技公司开发的专为寻找亚马逊爆款的卖家量身...

云知改写
云知改写

一个基于先进深度语义分析、智能 AI 及文本处理技术开发的论文查...

Remove.photos
Remove.photos

一款免费的图片背景去除工具,能 00% 自动在3秒内去除图片背景...

VideoIdeas Ai
VideoIdeas Ai

一个为 YouTube博主量身定制的视频内容生成工具。它能在短时...

OnePPT
OnePPT

一款创新型AIPPT智能生成工具,提供智能写作、PPT生成、模板...

Hugo
Hugo

一个使用 Go 语言开发的开源静态网站生成器,速度快,灵活性高。...

企鹅读伴
企鹅读伴

腾讯SSV数字支教实验室推出的AI阅读教育产品,由腾讯混元大模型...

Krillin AI
Krillin AI

一款本地的视频翻译、配音和语音克隆的工具,适用于哔哩哔哩、小红书...

Lovart AI
Lovart AI

一个全球首个适用于设计目的的自适应设计AI智能体平台,能将创意转...

ByeCode
ByeCode

一个新一代AI无代码开发平台,通过可视化拖拽组件,用户无需编码即...