首页 > Ai资讯 > Ai产品

微软推出了两款新模型：Phi-4-Multimodal多模态模型和Phi-4-Mini文本模型

映技派于2025-02-27发布在Ai产品

微软近期推出了两款新模型，分别是Phi-4-Multimodal和Phi-4-Mini。

这两款模型虽然设计得比较小巧，但功能可不容小觑。Phi-4-Multimodal是微软首个多模态模型，它能把语音、视觉和文本处理等功能集成在一起，参数量有56亿。Phi-4-Mini则专注于文本任务，参数量为3.8亿。这两款模型都着重优化了在设备端以及边缘计算平台下的性能，能有效降低计算成本和延迟。

微软推出了两款新模型：Phi-4-Multimodal多模态型和Phi-4-Mini文本模型.webp

Phi-4-Multimodal

Phi-4-Multimodal是什么？

Phi-4-Multimodal是一款参数为5.6亿的多模态模型，主要负责处理文本、视觉以及语音/音频数据。它运用了一种叫LoRA（Low-Rank Adaptation）的创新技术，再搭配上特定模态的路由器，这样就能在不扩大模型整体规模的前提下，很好地处理和推理多种模态的数据。

技术特点

Phi-4-Multimodal使用了SigLIP - 400M图像编码器和MLP投影器，能让视觉信息与文本的表示空间相匹配。而且它还有动态多裁剪策略，不管是什么分辨率的图像，都能处理得很不错。在语音相关任务里，虽然语音/音频模态的LoRA组件规模不大，但在OpenASR排行榜上，它的词错误率（WER）达到了6.14%，排名第一，可见它在自动语音识别上的表现相当出色。

功能特点

多模态处理能力：Phi-4-Multimodal是微软首款集成语音、视觉和文本处理的统一架构多模态语言模型，参数量达56亿。它能够处理多种类型的数据，例如文本、图像、语音等，并将这些不同模态的信息融合起来，挖掘其中的关联信息。
语音处理：在自动语音识别（ASR）和语音翻译（ST）方面，Phi-4-Multimodal超越了WhisperV3和SeamlessM4T-v2-Large等专业语音模型，表现优异。
视觉处理：在文档理解、图表理解、光学字符识别（OCR）和视觉科学推理等任务中，Phi-4-Multimodal与Gemini-2-Flash-lite-preview和Claude-3.5-Sonnet等流行模型相媲美甚至超越。
文本处理：在文本推理、数学计算、编程、指令遵循和函数调用等任务中，Phi-4-Multimodal表现出色。

应用领域

Phi-4-Multimodal不光在视觉和语音任务中表现出色，在语音问答、文档理解、光学字符识别以及科学推理等方面也很有竞争力。不过在一些知识密集型的问答上，它和更大规模的模型相比，可能稍微差一点。