首页 > Ai资讯 > Ai产品

LiveCC：字节跳动和新加坡国立大学合作开发的能实时解说的视频大语言模型

映技派于2025-04-25发布在Ai产品

LiveCC是什么？

LiveCC是字节跳动和新加坡国立大学合作开发的视频大语言模型，能实时解说视频内容。它用自动语音识别（ASR）转录本训练，成本低，效率高。研究人员还开发了新的流训练方法和数据生产管道，构建了Live-CC-5M和Live-WhisperX-526K两个数据集。即使没有经过高质量监督微调，LiveCC-7B-Base模型在视频问答和实时解说上表现也很出色。经过LiveSports-3K基准测试评估，最终的LiveCC-7B-Instruct模型在实时解说质量上超过了72B的先进模型，在VideoMME和OVOBench等视频问答基准测试中也取得了顶尖成绩。

LiveCC核心特点

模型训练方法

创新训练方式：提出一种新颖的视频 - ASR 流训练方法，根据时间戳将 ASR 单词和视频帧紧密交织，符合 ASR 的流特性，使模型能学习时间对齐、细粒度的视觉语言建模。
数据生产与数据集构建：引入数据生产管道处理 YouTube 视频及其字幕（CC，等同于 ASR），构建了用于预训练的Live-CC-5M数据集和用于高质量监督微调（SFT）的Live-WhisperX-526K数据集。

模型训练方法.webp

模型性能

LiveCC-7B-Base 模型：即便未进行 SFT，该模型在通用视频问答任务中就展现出有竞争力的性能，还具备实时视频解说的新能力。
LiveCC-7B-Instruct 模型：通过精心设计的LiveSports-3K基准测试（使用 LLM 作为评判标准衡量自由形式解说）评估，该模型在实时模式下的解说质量超越先进的 72B 模型（如 Qwen2.5-VL-72B-Instruct、LLaVA-Video-72B）。在流行的视频问答基准测试（如 VideoMME 和 OVOBench）中，在 7B/8B 规模上取得了最先进的成果，证明了方法的广泛通用性。

LiveCC应用.webp