CogView4:全球首个支持生成汉字的开源文生图生成模型
CogView4是什么?
CogView4是由智谱AI于2025年3月4日发布的首个支持中英双语提示词的开源文生图ai模型,也是全球首个支持生成汉字的开源文生图模型,尤其擅长理解和遵循中文提示词,能在画面中生成汉字,非常适合做广告、短视频创作等。
CogView4主要特点
支持中英双语输入:CogView4能够处理任意长度的中英文提示词,并生成高质量图像。
汉字生成能力:该模型可以将汉字自然融入图像中,特别适合广告、短视频等创意领域。
任意分辨率图像生成:支持生成512×512到2048×2048范围内的任意分辨率图像。
强大的语义对齐能力:在DPG-Bench基准测试中,CogView4的综合评分排名第一,展现了其在复杂语义对齐和指令跟随方面的卓越性能。
技术优化:采用二维旋转位置编码(2D RoPE)和多阶段训练策略,包括基础分辨率训练、泛分辨率训练、高质量数据微调以及人类偏好对齐训练。
显存优化与高效推理:通过模型CPU卸载和文本编码器量化等技术,显著降低了显存占用。
开源与生态支持:遵循Apache 2.0协议,后续将支持ControlNet、ComfyUI等生态集成,并推出完整的微调工具包。
CogView4技术
架构:基于扩散模型结合Transformer架构,使用60亿参数。
文本编码器:采用双语GLM-4编码器,通过中英双语图文对进行训练。
显存优化:通过模型CPU卸载和文本编码器量化等技术,降低显存占用,提升推理效率。
CogView4应用场景
CogView4特别适合需要中文创意的领域,例如广告设计、短视频制作、海报创作等,能够将中英文字符自然融入画面。
广告创意:生成带有特定文字的海报、文案配图等。
短视频制作:根据视频脚本或创意描述生成相应画面。
艺术创作:辅助艺术家和设计师生成具有特定风格和意境的图像。
教育领域:生成与教学内容相关的图像,如古诗文意境图。
游戏开发:根据游戏剧情和角色设定生成游戏画面和角色形象。
其他创意领域:如漫画创作、插画设计、品牌宣传等。
CogView4使用
1. 在线体验
HuggingFace:https://huggingface.co/spaces/THUDM-HF-SPACE/CogView4
ModelScope:https://modelscope.cn/models/ZhipuAI/CogView4-6B
2. 本地部署
如果需要在本地使用CogView4,可以通过以下步骤进行部署:
获取模型代码:访问CogView4的GitHub仓库,地址是:https://github.com/THUDM/CogView4。
硬件要求:CogView4模型需要较高的显存,最低推荐使用12GB显存的GPU。
安装依赖:根据GitHub仓库中的说明,安装必要的Python依赖和环境。
运行模型:按照仓库中的指南启动模型,输入提示词生成图像。
3. 模型微调
智谱计划推出CogView4的微调工具包,用户可以根据自己的需求对模型进行定制化训练。例如,可以针对特定的广告风格或品牌需求进行微调,以生成更符合需求的图像。
4. 通过Hugging Face使用
Hugging Face模型库地址:https://huggingface.co/THUDM/CogView4-6B。