CogView4:全球首个支持生成汉字的开源文生图生成模型

CogView4是什么?

CogView4是由智谱AI于2025年3月4日发布的首个支持中英双语提示词的开源文生图ai模型,也是全球首个支持生成汉字的开源文生图模型,尤其擅长理解和遵循中文提示词,能在画面中生成汉字,非常适合做广告、短视频创作等。

CogView4-logo.webp

CogView4主要特点

  • 支持中英双语输入:CogView4能够处理任意长度的中英文提示词,并生成高质量图像。

  • 汉字生成能力:该模型可以将汉字自然融入图像中,特别适合广告、短视频等创意领域。

  • 任意分辨率图像生成:支持生成512×512到2048×2048范围内的任意分辨率图像。

  • 强大的语义对齐能力:在DPG-Bench基准测试中,CogView4的综合评分排名第一,展现了其在复杂语义对齐和指令跟随方面的卓越性能。

  • 技术优化:采用二维旋转位置编码(2D RoPE)和多阶段训练策略,包括基础分辨率训练、泛分辨率训练、高质量数据微调以及人类偏好对齐训练。

  • 显存优化与高效推理:通过模型CPU卸载和文本编码器量化等技术,显著降低了显存占用。

  • 开源与生态支持:遵循Apache 2.0协议,后续将支持ControlNet、ComfyUI等生态集成,并推出完整的微调工具包。

CogView4.webp

CogView4技术

  • 架构:基于扩散模型结合Transformer架构,使用60亿参数。

  • 文本编码器:采用双语GLM-4编码器,通过中英双语图文对进行训练。

  • 显存优化:通过模型CPU卸载和文本编码器量化等技术,降低显存占用,提升推理效率。

CogView4应用场景

CogView4特别适合需要中文创意的领域,例如广告设计、短视频制作、海报创作等,能够将中英文字符自然融入画面。

  • 广告创意:生成带有特定文字的海报、文案配图等。

  • 短视频制作:根据视频脚本或创意描述生成相应画面。

  • 艺术创作:辅助艺术家和设计师生成具有特定风格和意境的图像。

  • 教育领域:生成与教学内容相关的图像,如古诗文意境图。

  • 游戏开发:根据游戏剧情和角色设定生成游戏画面和角色形象。

  • 其他创意领域:如漫画创作、插画设计、品牌宣传等。

CogView4使用

1. 在线体验

  • HuggingFace:https://huggingface.co/spaces/THUDM-HF-SPACE/CogView4

  • ModelScope:https://modelscope.cn/models/ZhipuAI/CogView4-6B

2. 本地部署

如果需要在本地使用CogView4,可以通过以下步骤进行部署:

  • 获取模型代码:访问CogView4的GitHub仓库,地址是:https://github.com/THUDM/CogView4。

  • 硬件要求:CogView4模型需要较高的显存,最低推荐使用12GB显存的GPU。

  • 安装依赖:根据GitHub仓库中的说明,安装必要的Python依赖和环境。

  • 运行模型:按照仓库中的指南启动模型,输入提示词生成图像。

3. 模型微调

智谱计划推出CogView4的微调工具包,用户可以根据自己的需求对模型进行定制化训练。例如,可以针对特定的广告风格或品牌需求进行微调,以生成更符合需求的图像。

4. 通过Hugging Face使用

Hugging Face模型库地址:https://huggingface.co/THUDM/CogView4-6B。

收藏
#文生图
最新工具
GenAI_Agents
GenAI_Agents

一个专注于生成式AI Agents技术的开源项目,GenAI_A...

GPTBots AI
GPTBots AI

GPTBots是一个无需编写代码就能构建AI Agent的平台。...

SwiftChat
SwiftChat

一款基于React Native开发的快速、安全、跨平台聊天应用...

Duck AI
Duck AI

DuckDuckGo推出的免费、匿名AI聊天机器人,用户可以放心...

Glean AI Agent
Glean AI Agent

Glean推出的企业级实用平台,能借助自然语言创建并部署AI代理...

Awesome LLM Apps
Awesome LLM Apps

一个精选的LLM(大型语言模型)应用集合,汇集了使用OpenAI...

Browser-use
Browser-use

一个开源的Python库,它把AI技术和浏览器自动化功能结合起来...

NotaGen
NotaGen

由中央音乐学院、北京航空航天大学和清华大学等机构联合开发的一款 ...

Stagetimer.io
Stagetimer.io

一款由Lukas Hermann开发的远程控制倒计时计时器工具,...

MetaGPT
MetaGPT

一个开源的多智能体框架,由DeepWisdom团队开发,在202...