首页 > Ai资讯 > Ai产品

CogView4：全球首个支持生成汉字的开源文生图生成模型

映技派于2025-03-04发布在Ai产品

CogView4是什么？

CogView4是由智谱AI于2025年3月4日发布的首个支持中英双语提示词的开源文生图ai模型，也是全球首个支持生成汉字的开源文生图模型，尤其擅长理解和遵循中文提示词，能在画面中生成汉字，非常适合做广告、短视频创作等。

CogView4主要特点

支持中英双语输入：CogView4能够处理任意长度的中英文提示词，并生成高质量图像。
汉字生成能力：该模型可以将汉字自然融入图像中，特别适合广告、短视频等创意领域。
任意分辨率图像生成：支持生成512×512到2048×2048范围内的任意分辨率图像。
强大的语义对齐能力：在DPG-Bench基准测试中，CogView4的综合评分排名第一，展现了其在复杂语义对齐和指令跟随方面的卓越性能。
技术优化：采用二维旋转位置编码（2D RoPE）和多阶段训练策略，包括基础分辨率训练、泛分辨率训练、高质量数据微调以及人类偏好对齐训练。
显存优化与高效推理：通过模型CPU卸载和文本编码器量化等技术，显著降低了显存占用。
开源与生态支持：遵循Apache 2.0协议，后续将支持ControlNet、ComfyUI等生态集成，并推出完整的微调工具包。

CogView4技术

架构：基于扩散模型结合Transformer架构，使用60亿参数。
文本编码器：采用双语GLM-4编码器，通过中英双语图文对进行训练。
显存优化：通过模型CPU卸载和文本编码器量化等技术，降低显存占用，提升推理效率。

CogView4应用场景

CogView4特别适合需要中文创意的领域，例如广告设计、短视频制作、海报创作等，能够将中英文字符自然融入画面。

广告创意：生成带有特定文字的海报、文案配图等。
短视频制作：根据视频脚本或创意描述生成相应画面。
艺术创作：辅助艺术家和设计师生成具有特定风格和意境的图像。
教育领域：生成与教学内容相关的图像，如古诗文意境图。
游戏开发：根据游戏剧情和角色设定生成游戏画面和角色形象。
其他创意领域：如漫画创作、插画设计、品牌宣传等。

CogView4使用

1. 在线体验

HuggingFace：https://huggingface.co/spaces/THUDM-HF-SPACE/CogView4
ModelScope：https://modelscope.cn/models/ZhipuAI/CogView4-6B

2. 本地部署

如果需要在本地使用CogView4，可以通过以下步骤进行部署：

获取模型代码：访问CogView4的GitHub仓库，地址是：https://github.com/THUDM/CogView4。
硬件要求：CogView4模型需要较高的显存，最低推荐使用12GB显存的GPU。
安装依赖：根据GitHub仓库中的说明，安装必要的Python依赖和环境。
运行模型：按照仓库中的指南启动模型，输入提示词生成图像。

3. 模型微调

智谱计划推出CogView4的微调工具包，用户可以根据自己的需求对模型进行定制化训练。例如，可以针对特定的广告风格或品牌需求进行微调，以生成更符合需求的图像。

4. 通过Hugging Face使用

Hugging Face模型库地址：https://huggingface.co/THUDM/CogView4-6B。

#文生图

DiffRhythm:全球首个基于扩散模型的端到端音乐生成工具

Llasa:一款基于Llama的文本转语音（TTS）,生成效果自然流畅富有感情

文生图模型Ideogram 2A：更快的生成速度和更

文生图模型Ideogram 2A：更快的生成速度和更

2025-02-28

有哪些好用的AI文生图工具

有哪些好用的AI文生图工具

2024-08-31

云界AI新手教程| 玩转AI文生图so easy,简

云界AI新手教程| 玩转AI文生图so easy,简

2023-12-08

Giiso写作机器人的重大升级：AI文生图功能正式上

Giiso写作机器人的重大升级：AI文生图功能正式上

2023-11-02

最新工具

选品酷BigTracker

一款由BQool比酷尔科技公司开发的专为寻找亚马逊爆款的卖家量身...

云知改写

一个基于先进深度语义分析、智能 AI 及文本处理技术开发的论文查...

Remove.photos

一款免费的图片背景去除工具，能 00% 自动在3秒内去除图片背景...

VideoIdeas Ai

一个为 YouTube博主量身定制的视频内容生成工具。它能在短时...

OnePPT

一款创新型AIPPT智能生成工具，提供智能写作、PPT生成、模板...

Hugo

一个使用 Go 语言开发的开源静态网站生成器，速度快，灵活性高。...

企鹅读伴

腾讯SSV数字支教实验室推出的AI阅读教育产品，由腾讯混元大模型...

Krillin AI

一款本地的视频翻译、配音和语音克隆的工具，适用于哔哩哔哩、小红书...

Lovart AI

一个全球首个适用于设计目的的自适应设计AI智能体平台，能将创意转...

ByeCode

一个新一代AI无代码开发平台，通过可视化拖拽组件，用户无需编码即...

用户登录