Project Astra: Google DeepMind 研发的一个具备视频理解能力的原型

Project Astra 是由 Google DeepMind 研发的一个研究原型,它具备视频理解能力,并且能够通过用户的设备摄像头和麦克风提供日常生活的帮助。在 Google I/O 2024 大会上,Google DeepMind 的首席执行官 Demis Hassabis 宣布了 Project Astra。

GNkbt6AWAAAzeqI.jpg

Project Astra 是 Google 推出的一个多模态 ai 项目,旨在开发一个能够实时解释用户摄像头画面中物品的 AI 助手

Project Astra 的功能特征:

多模态交互:Project Astra 允许用户通过语音、文本、绘图、拍照和视频等多种方式与之交互,提供了一个全面的交互体验。

实时识别与记忆:Astra 能够在不间断的视频中识别物品,并回忆起物品的位置。例如,它能够识别眼镜并指出它在桌子上的位置(靠近一个红苹果)

代码解释:Astra 还能够解释屏幕上的代码,这表明它能够处理和理解复杂的视觉信息

本地运行:Project Astra 基于 Gemini,可以本地运行在 Pixel 手机上,这表明它具有较高的处理速度和较低的延迟

增强现实和人机交互:Project Astra 在增强现实和人机交互方面取得了重大进步,它让设备不仅仅是获取信息的工具,而是能够理解和参与我们日常生活的伙伴

企业级存储和数据服务:值得注意的是,Project Astra 也被用作 NetApp 的一个项目名称,该项目旨在为 Kubernetes 提供企业级存储和数据服务平台

与 OpenAI 的竞争:Google 的 Project Astra 与 OpenAI 的 GPT-4o 有相似之处,两者都在 AI 助手领域有相似的愿景,并且都在争夺相同的市场

未来展望:Project Astra 的目标是将技术嵌入到手机和可穿戴设备中,成为我们日常生活中无处不在的助手。尽管目前 Astra 还处于原型阶段,但它已经展示了其在实时交互和多模态理解方面的潜力

Project Astra 使用用户设备上的摄像头和麦克风,通过持续处理和编码视频帧和语音输入,创建事件的时间线并缓存信息以便快速回忆。这使得 AI 能够识别物体、回答问题,并记住它曾经看到过但已经不在摄像头视野中的事物。

Google 表示,尽管 Project Astra 目前仍处于早期阶段,并且没有具体的发布计划,但该公司暗示,这些能力中的一些可能会在今年晚些时候集成到像 Gemini 应用这样的产品中(以一个名为 "Gemini Live" 的特性),这将是开发有用 AI 助手的重要一步。Google CEO Sundar Pichai 表示,这是为了创造一个具有“代理性”的代理,能够“代表你思考、推理和规划”。

收藏
最新工具
Awesome LangGraph
Awesome LangGraph

一份精心整理的 LangGraph 资源合集,涵盖了基础介绍、入...

VDSpeak
VDSpeak

一个专注于为YouTube视频提供多语言翻译和配音服务的在线工具...

PydanticAI
PydanticAI

一个Pydantic 团队开发的Python代理框架,可以通过生...

AutoGLM沉思
AutoGLM沉思

智谱推出的一款集深度研究与实际操作能力于一体的AI Agent产...

JustAI
JustAI

一款AI文案写作与营销工具,能生成多场景文案,包括小红书笔记、抖...

巧文书
巧文书

原通答AI,一款专为企业打造的AI智能写标书工具,通过AI大模型...

Ai2 Paper Finder
Ai2 Paper Finder

一款由艾伦AI研究所发布的基于LLM的文献搜索系统,Ai2 Pa...

Vivago AI
Vivago AI

北京智象未来科技有限公司面向全球市场推出的一款综合性在线 AI ...

Ghibli AI
Ghibli AI

一款专门用于生成吉卜力风格的AI图像生成器,能够根据用户的文本描...

快出题
快出题

金数据旗下的一款AI驱动的在线考试软件,能够快速生成题库并自动组...