Google推出下一代模型:Gemini 1.5
在推出Gemini(谷歌希望将其带到ai行业的顶峰)仅两个月后,该公司已经宣布了新的版本。谷歌今天推出了 Gemini 1.5,并在即将推出全面的消费者版之前将其提供给开发人员和企业用户。
Gemini 1.5具有100万token的上下文理解能力,是目前最强!Gemini 1.5具有跨模态理解和推理:能够对文本、代码、图像、音频和视频进行高度复杂的理解和推理。允许分析1小时视频、11小时音频、超过30,000行代码或超过700,000字的文本。
Gemini 1.5 的介绍:
1、性能提升:Gemini 1.5在多个维度上展现出显著的性能提升,特别是在处理长上下文信息的能力上实现了重大突破,可以连续处理高达100万个标记(tokens),拥有迄今为止所有大型基础模型中最长的上下文窗口。
2、高效架构:Gemini 1.5 采用新的专家混合 (MoE) 架构进行设计,使其训练和服务更加高效。同时在维持类似于1.0 Ultra模型的质量的同时,减少了计算需求。
在对一组文本、代码、图像、音频和视频评估进行测试时,Gemini1.5 Pro 在LLM的基准测试中 以87% 的评分优于 Gemini 1.0 Pro。并与最大模型1.0 Ultra在性能上大致相当。
3、上下文学习能力:这一特点允许Gemini 1.5处理并分析大量信息,比如1小时的视频、11小时的音频、超过30,000行代码的代码库或超过700,000字的文本。
当Gemini 1.5 Pro被给予一个关于Kalamang语言的语法手册时,它能够从提供的信息中学习新技能,并且能够执行从英语到Kalamang的翻译任务,其翻译水平与从相同内容学习的人类相似。
Kalamang是一种全球不到200名说话者的小众语言!
这一成就凸显了Gemini 1.5 Pro处理罕见或小众语言的能力,同时也证明了其在理解和应用长篇复杂文本信息方面的强大性能。这种能力对于语言学习、自然语言处理、以及跨文化交流的应用具有重要意义。
4、跨模态理解和推理:Gemini 1.5能够对不同模态的内容(包括文本、代码、图像、音频和视频)进行高度复杂的理解和推理,例如,分析44分钟的默片并准确捕捉情节要点和细节。
5、增强性能:在文本、代码、图像、音频和视频评估的综合面板上测试时,能够对文本、代码、图像、音频和视频进行高度复杂的理解和推理。Gemini 1.5可以精准分析44分钟默片中的情节要点,展现对不同媒介内容的深入理解。
Gemini 1.5 工作原理:
MoE技术:通过将模型划分为较小的“专家”神经网络,并根据输入类型选择性激活最相关的专家路径,MoE技术大大提高了模型的效率。通过一系列机器学习创新,Gemini 1.5能够处理和分析前所未有的信息量,为开发者和企业客户提供全新的能力,帮助他们的模型和应用。这一长上下文窗口的能力特别适用于需要处理大量数据和复杂情境的应用场景,如深度分析大型文档、视频内容理解、复杂代码分析和多模态数据融合等。
谷歌目前正在进行一场激烈的竞赛,以构建最好的人工智能工具,因为世界各地的企业都在试图弄清楚自己的人工智能战略,以及是否与OpenAI、谷歌或其他公司签署开发者协议。就在同一天Google在发布Gemini Pro 1.5 的2小时后,OpenAI 宣布了文字生成视频模型:Sora,该模型旨在允许网络用户仅通过文本提示生成高质量的 AI 视频。