微软推出了两款新模型:Phi-4-Multimodal多模态模型和Phi-4-Mini文本模型

微软近期推出了两款新模型,分别是Phi-4-Multimodal和Phi-4-Mini。

这两款模型虽然设计得比较小巧,但功能可不容小觑。Phi-4-Multimodal是微软首个多模态模型,它能把语音、视觉和文本处理等功能集成在一起,参数量有56亿。Phi-4-Mini则专注于文本任务,参数量为3.8亿。这两款模型都着重优化了在设备端以及边缘计算平台下的性能,能有效降低计算成本和延迟。

微软推出了两款新模型:Phi-4-Multimodal多模态型和Phi-4-Mini文本模型.webp

Phi-4-Multimodal

Phi-4-Multimodal是什么?

Phi-4-Multimodal是一款参数为5.6亿的多模态模型,主要负责处理文本、视觉以及语音/音频数据。它运用了一种叫LoRA(Low-Rank Adaptation)的创新技术,再搭配上特定模态的路由器,这样就能在不扩大模型整体规模的前提下,很好地处理和推理多种模态的数据。

技术特点

Phi-4-Multimodal使用了SigLIP - 400M图像编码器和MLP投影器,能让视觉信息与文本的表示空间相匹配。而且它还有动态多裁剪策略,不管是什么分辨率的图像,都能处理得很不错。在语音相关任务里,虽然语音/音频模态的LoRA组件规模不大,但在OpenASR排行榜上,它的词错误率(WER)达到了6.14%,排名第一,可见它在自动语音识别上的表现相当出色。

功能特点

  • 多模态处理能力:Phi-4-Multimodal是微软首款集成语音、视觉和文本处理的统一架构多模态语言模型,参数量达56亿。它能够处理多种类型的数据,例如文本、图像、语音等,并将这些不同模态的信息融合起来,挖掘其中的关联信息。

  • 语音处理:在自动语音识别(ASR)和语音翻译(ST)方面,Phi-4-Multimodal超越了WhisperV3和SeamlessM4T-v2-Large等专业语音模型,表现优异。

  • 视觉处理:在文档理解、图表理解、光学字符识别(OCR)和视觉科学推理等任务中,Phi-4-Multimodal与Gemini-2-Flash-lite-preview和Claude-3.5-Sonnet等流行模型相媲美甚至超越。

  • 文本处理:在文本推理、数学计算、编程、指令遵循和函数调用等任务中,Phi-4-Multimodal表现出色。

应用领域

Phi-4-Multimodal不光在视觉和语音任务中表现出色,在语音问答、文档理解、光学字符识别以及科学推理等方面也很有竞争力。不过在一些知识密集型的问答上,它和更大规模的模型相比,可能稍微差一点。

  • 智能助手领域:在智能家居控制方面,Phi-4-Multimodal可以根据用户的语音指令和室内摄像头拍摄的画面,更精准地执行任务。

  • 教育领域:对于在线教育中的多媒体学习资料,Phi-4-Multimodal可以分析视频中的图像、讲解音频对应的文本等,为学生提供更全面的学习辅助。

微软推出了两款新模型:Phi-4-Multimodal多模态型和Phi-4-Mini文本模型.webp

Phi-4-Mini

Phi-4-Mini是什么?

Phi-4-Mini是一款专门针对文本任务设计的高效模型,有3.8亿参数。它在语言理解和生成任务上的表现,比它的参数规模所预期的要好很多,甚至在某些方面能和更大的模型相提并论。

技术特点

Phi-4-Mini采用了32层Transformer结构,隐藏状态大小设定为3,072,还引入了Group Query Attention(GQA)机制,这样就能更好地处理长上下文信息。另外,分数RoPE维度的运用,也让它在处理长序列时效率更高。

功能特点

轻量化设计:Phi-4-Mini模型专注于文本任务,参数量为38亿。它采用了分组查询注意力机制(GQA)和输入/输出嵌入绑定技术,优化了长上下文生成时的资源利用。

高效文本处理:在文本推理、数学计算、编程、指令遵循和函数调用等任务中,Phi-4-Mini表现优异,超越了多款流行的大型语言模型。

应用场景

移动应用:在手机APP中,Phi-4-Mini可以为用户提供便捷的语言交互服务,快速回答关于景点信息、当地交通等问题。

物联网设备:对于智能音箱等物联网设备,Phi-4-Mini可以在本地设备上进行一些简单的语音交互处理,减少对云端的依赖,提高响应速度和保护用户隐私

性能表现

Phi-4-Mini虽然规模不大,但在推理、数学、编程等任务上,比同类的大型模型表现还要好,充分证明了它在特定任务上的高效性和准确性。

模型下载:https://huggingface.co/collections/microsoft/phi-4-677e9380e514feb5577a40e4

收藏
最新工具
GenAI_Agents
GenAI_Agents

一个专注于生成式AI Agents技术的开源项目,GenAI_A...

GPTBots AI
GPTBots AI

GPTBots是一个无需编写代码就能构建AI Agent的平台。...

SwiftChat
SwiftChat

一款基于React Native开发的快速、安全、跨平台聊天应用...

Duck AI
Duck AI

DuckDuckGo推出的免费、匿名AI聊天机器人,用户可以放心...

Glean AI Agent
Glean AI Agent

Glean推出的企业级实用平台,能借助自然语言创建并部署AI代理...

Awesome LLM Apps
Awesome LLM Apps

一个精选的LLM(大型语言模型)应用集合,汇集了使用OpenAI...

Browser-use
Browser-use

一个开源的Python库,它把AI技术和浏览器自动化功能结合起来...

NotaGen
NotaGen

由中央音乐学院、北京航空航天大学和清华大学等机构联合开发的一款 ...

Stagetimer.io
Stagetimer.io

一款由Lukas Hermann开发的远程控制倒计时计时器工具,...

MetaGPT
MetaGPT

一个开源的多智能体框架,由DeepWisdom团队开发,在202...