Project Astra: Google DeepMind 研发的一个具备视频理解能力的原型

Project Astra 是由 Google DeepMind 研发的一个研究原型,它具备视频理解能力,并且能够通过用户的设备摄像头和麦克风提供日常生活的帮助。在 Google I/O 2024 大会上,Google DeepMind 的首席执行官 Demis Hassabis 宣布了 Project Astra。

GNkbt6AWAAAzeqI.jpg

Project Astra 是 Google 推出的一个多模态 ai 项目,旨在开发一个能够实时解释用户摄像头画面中物品的 AI 助手

Project Astra 的功能特征:

多模态交互:Project Astra 允许用户通过语音、文本、绘图、拍照和视频等多种方式与之交互,提供了一个全面的交互体验。

实时识别与记忆:Astra 能够在不间断的视频中识别物品,并回忆起物品的位置。例如,它能够识别眼镜并指出它在桌子上的位置(靠近一个红苹果)

代码解释:Astra 还能够解释屏幕上的代码,这表明它能够处理和理解复杂的视觉信息

本地运行:Project Astra 基于 Gemini,可以本地运行在 Pixel 手机上,这表明它具有较高的处理速度和较低的延迟

增强现实和人机交互:Project Astra 在增强现实和人机交互方面取得了重大进步,它让设备不仅仅是获取信息的工具,而是能够理解和参与我们日常生活的伙伴

企业级存储和数据服务:值得注意的是,Project Astra 也被用作 NetApp 的一个项目名称,该项目旨在为 Kubernetes 提供企业级存储和数据服务平台

与 OpenAI 的竞争:Google 的 Project Astra 与 OpenAI 的 GPT-4o 有相似之处,两者都在 AI 助手领域有相似的愿景,并且都在争夺相同的市场

未来展望:Project Astra 的目标是将技术嵌入到手机和可穿戴设备中,成为我们日常生活中无处不在的助手。尽管目前 Astra 还处于原型阶段,但它已经展示了其在实时交互和多模态理解方面的潜力

Project Astra 使用用户设备上的摄像头和麦克风,通过持续处理和编码视频帧和语音输入,创建事件的时间线并缓存信息以便快速回忆。这使得 AI 能够识别物体、回答问题,并记住它曾经看到过但已经不在摄像头视野中的事物。

Google 表示,尽管 Project Astra 目前仍处于早期阶段,并且没有具体的发布计划,但该公司暗示,这些能力中的一些可能会在今年晚些时候集成到像 Gemini 应用这样的产品中(以一个名为 "Gemini Live" 的特性),这将是开发有用 AI 助手的重要一步。Google CEO Sundar Pichai 表示,这是为了创造一个具有“代理性”的代理,能够“代表你思考、推理和规划”。

收藏
最新工具
抖几句
抖几句

一个专为短视频创作者打造的短视频原创剧本交易平台,抖几句提供了剧...

小码至营
小码至营

便捷高效的各类运营辅助工具,提高运营工作效率、让运营效果可衡量,...

Skyo
Skyo

昆仑万维推出的基于天工大模型4.0 4o版的实时语音对话助手,具...

SellerCenter
SellerCenter

专业并且免费的DropShipping爆款选品分析工具,通过监控...

Poly Haven
Poly Haven

基于CC0共享协议的高质量3D模型、纹理贴图资源下载网站,Pol...

THunt.AI
THunt.AI

一个专业且免费的选品分析工具,Thunt为您分析您竞品的销售情况...

抖音AI分身
抖音AI分身

抖音最近推出的一个名为“V项目”的新功能,目的是通过虚拟数字人来...

Firra流程图
Firra流程图

一款由厦门无限飞科技有限公司独立自主研发的简洁、高效的在线流程图...

文叔叔
文叔叔

一款可以将任意文件极速传给你朋友的工具,永不限速的云存储产品,免...

爱传送MFiles
爱传送MFiles

一款跨平台的文件传输、文件管理和剪切板同步工具,爱传送MFile...