服务热线:
产品中心

谷歌最强大模型登场!掀Agent风暴放AI芯片大招深夜突袭OpenAI

发布时间: 2024-12-19 16:58:01 来源:产品中心

详细信息

  本周,谷歌开始在搜索的 AI 概览中测试 Gemini 2.0。1 月份,Gemini 2.0 Flash 将全面上市,同时将推出更多模型尺寸。明年年初,谷歌会将 Gemini 2.0 扩展到更多谷歌产品中。

  谷歌宣布其最强 AI 芯片 Trillium TPU 普遍可用,还详细的介绍了谷歌云 AI 超级计算机架构,包括可集成超过100,000 颗Trillium 芯片的 Jupiter 网络。Trillium 不仅在训练密集型大语言模型、MoE 模型上性能更强,而且 AI 训练和推理性价比更高。亚洲 AI 大模型独角兽AI21 Labs已使用 Trillium 来开发语言模型。

  此外,谷歌发布了一款名为Deep Research(深度研究)的全新 AI 工具。该工具擅长做研究工作,相当于一位 AI 研究生,帮你只用几分钟就能完成原本需要数小时的研究。

  用户输入问题后,它会创建一个多步骤研究计划,在用户修改及批准后开始调用 Gemini 机器人深入分析来自网上的相关信息,并根据其关键发现生成一份详细的综合报告,并列上信息源自链接。用户都能够要求 Gemini 扩展某些领域或调整报告,并将 AI 生成的研究导出到谷歌文档。

  该工具当前仅向 Gemini Advanced 订阅者提供英文版,并将于明年年初在移动 App 中提供。

  一、Gemini 2.0 首款模型发布!多模态输出、原生调用工具、四大 Agent

  除了支持图像、视频和音频等多模式输入外,Gemini 2.0 Flash 现在还支持多模态输出,例如与文本混合的原生生成的图像和可操纵的文本转语音(TTS)多语言音频,还可以原生调用谷歌搜索、代码执行以及第三方用户定义函数等工具。

  为了帮助研发人员构建动态和交互式应用程序,在此基础上,谷歌还发布了具有实时音频、视频流输入以及使用多个组合工具的能力的 Multimodal Live API。

  这是一个全视、全听和全记忆的实验性 AI 助手,展示了通用 AI 助手的未来功能。你通过安卓 App 或原型眼镜来记录看到的世界,AI 助手可以实时处理文本、图像、视频、音频,分析它所看到的内容并回答广泛的问题,还精通多国语言。

  更好的记忆:今年 5 月谷歌展示了早期版本只能记住 45 秒的视频,现在它已经能记忆10 分钟的视频了,可以记住用户与其进行的更多对话和个人偏好,更具个性化。

  更好的对话:能使用多种语言和混合语言进行交谈,还可以更好地理解口音和不常见的单词。

  新工具用途:使用 Gemini 2.0 的内置 Agent 框架,通过文本、语音、图像和视频回答问题并执行任务,在需要时调用谷歌搜索、Lens、地图等应用。

  改善延迟:借助新的流媒体功能和本机音频理解,Agent 以与人类对话相同的延迟理解语言,使对话感觉更自然。

  谷歌正在扩大 Project Astra 的测试范畴,将新的反馈纳入更新中,包括优化其对各种口音及不常见单词的理解、减少延迟、将其集成到一些谷歌产品(如搜索、Lens、地图等)。

  作为研究原型,Project Mariner 能够理解和推理浏览器屏幕上的信息,包括像素和文本、编程、图像和表单等网络元素,然后通过实验性的谷歌扩展程序使用这一些信息完成任务。

  谷歌官方博客显示,根据 WebVoyager 基准做评估,该基准测试 Agent 在端到端真实世界网络任务上的性能,Project Mariner 作为单一 Agent 设置实现了 83.5% 的最佳工作结果。

   在演示中,Project Mariner 可以同时完成获取表单、找到公司官网、联系方式等多步骤任务,Agent 会自动执行在谷歌搜索中查找电子邮件的过程,且这一过程中用户都能够随时点击暂停和停止。同时,用户都能够看到 Agent 每一步行动的推理步骤和计划。

  尽管目前 Project Mariner 执行任务时较慢且并不总是准确,但从技术上讲,这表明了在浏览器中导航慢慢的变成了可能。

  目前,该代理在达成目标时需要人类介入,如 Project Mariner 只能在浏览器的活动选项卡中键入、滚动或点击,并且它会在用户执行某些购买等敏感操作之前要求用户进行最终确认。

  Jules 能解决问题、制定计划并执行它,所有过程都在研发人员的指导和监督下进行。在这一领域,谷歌的长期目标是构建在所有领域(包括编程)都有帮助的 AI Agent。

  4、游戏 Agent:视频游戏导航,根据游戏动作推理、实时对话充当游戏交流

  谷歌使用 Gemini 2.0 构建了游戏 Agent,能够在一定程度上帮助用户在视频游戏的虚拟世界中导航。Agent 可以仅根据屏幕上的动作来推理游戏,并在实时对话中提供下一步操作的建议。

  目前,研究人员在与 Supercell 等游戏开发商合作,探索这些 Agent 从《部落冲突》等策略游戏到《Hay Day》等农业模拟器,在各种游戏中解释规则和挑战的能力。

  未来,谷歌还在试验能够最终靠将 Gemini 2.0 的空间推理功能应用于机器人技术来在物理世界中提供帮助的 Agent。

  三、通用 AI 助手原型升级!能存储 10 分钟视频,开启 Agent 时代

  测试者拿着安装了最新测试版 Project Astra 的 Pixel 手机,在伦敦附近遛弯并来测试。比如收到包含公寓信息的电子邮件,你可以让 AI 助手告诉你门的密码,并记住它。洗衣服时,把衣服标签、机器图标拍给 AI 助手,它会告诉测试者正确的洗衣服方式。

  测试者把推荐列表拍给 AI 助手,它能搜索列表中的地点,给出相应的信息。

  当测试者走在街道上,扫过食物、雕塑或花卉,AI 助手都能为询问作出解答。

  测试者还把朋友在读的书发给 AI 助手,让它推荐符合朋友喜好的礼物,并讨论朋友可能感兴趣的点。

  当偶遇一辆公交车,测试者问 AI 助手 那辆公交车能带我去唐人街附近吗?AI 助手会回复说: 是的,24 路公交车经过莱斯特广场,离唐人街很近。 测试者继续追问路上有什么路标,AI 助手也作出流利地回复: 你可能遇到的著名地标是威斯敏斯特大教堂、大本钟和特拉法加广场。

  除了使用电子设备外,测试者也戴上原型眼镜来使用 Project Astra,并提出让它查看天气预报、询问旁边的公园是什么、查询能否骑自行车进入、这条路是否有超市等问题。

  目前该 AI 助手仍有很多局限性,比如无法访问个人的电子邮件或照片,在嘈杂的环境中难以区分多个声音,并且无法执行设置计时器等操作任务等。

  Project Astra 产品经理 Bibo Xu 说: 它正在融合我们这个时代一些最强大的信息检索系统。

  在安全方面,谷歌在对多个实验原型进行研究的基础上,正通过迭代实施安全培训、与测试人员和外部专家合作,进行广泛的风险评估以及安全和保证评估。

  Gemini 2.0 的推理功能使其 AI 辅助红队方法取得重大进步,包括从简单地检测风险到自动生成评估和训练数据以减轻风险的能力。

  由于 Gemini 2.0 的多模态功能增加了潜在输出的复杂性,其将继续在图像和音频输入和输出方面评估和训练模型,以帮助提高安全性。

  通过 Project Astra,谷歌正在探索针对用户无意中与代理共享敏感信息的潜在缓解措施,并且其已经内置了隐私控制功能,使用户可以轻松删除会话。他们还在继续研究以确保 AI 代理充当可靠的信息源自,并且不会代表您采取意外操作。

  通过 Project Mariner,谷歌正在努力确保模型学会第一先考虑用户指令,而不是第三方的提示注入尝试,以便它可以识别来自外部来源的潜在恶意指令并防止滥用。这可以有效的预防用户通过电子邮件、文档或网站中隐藏的恶意指令等方式受到欺诈和网络钓鱼攻击。

  其相比上一代芯片的优化包括:超过4 倍的训练性能,高达3 倍的推理吞吐量,能效提高67%,每颗芯片峰值计算性能提高4.7 倍,HBM 容量翻倍,单个 Jupiter 网络有10 万颗TPU,高至2.5 倍的每美元训练性能、1.4 倍的每美元推理性能。

  Trillium TPU 是谷歌云 AI 超级计算机的关键组成部分,其架构采用了性能优化的硬件、开放的软件、领先的机器学习框架和灵活的消费级模型的集成系统。谷歌还对开放软件层进行了增强,包括对 XLA 编译器和流行框架的优化,以在 AI 训练、调优和服务方面实现大规模的领先性价比。

  此外,使用大量主机 DRAM(补充 HBM)进行主机卸载等功能,提供了更高的效率。

  每个 Jupiter 网络结构超过100,000 颗Trillium 芯片,具有 13Pbps 的对分带宽,能够将单个分布式训练任务扩展到数十万个加速器。

  以色列 AI 大模型独角兽AI21 Labs已使用 Trillium 来加速开发下一代复杂语言模型。

  Trillium 也为图像扩散模型和密集大语言模型提供了最佳的 TPU 推理性能。其测试表明,与 Cloud TPU v5e 相比,Stable Diffusion XL 的相对推理吞吐量(每秒图像)提高了 3 倍以上,Llama2-70B 的相对推理吞吐量(每秒 token)提高了近 2 倍。

  Trillium 是谷歌在离线与服务器推理用例中性能最高的 TPU。下图显示,与 Cloud TPU v5e 相比,Stable Diffusion XL 的离线推理相对吞吐量(每秒图像数)提高了 3.1 倍,服务器推理相对吞吐量提高了 2.9 倍。

  除了更好的性能,Trillium 还引入了一个新的集合调度功能。这个特性允许谷歌的调度系统做出智能的作业调度决策,从而在一个集合中有多个副本时提高推理工作负载的总体可用性和效率。

  它提供了一种管理运行单主机或多主机推理工作负载的多个 TPU 片的方法,包括通过谷歌 Kubernetes Engine(GKE)。将这些片分组到一个集合中,可以很容易地调整副本的数量以满足需求。

  第三代数据流处理器 SparseCore 更擅长加速动态和数据依赖操作。引入第三代 SparseCore 的 Trillium 将嵌入密集型模型的性能提高了 2 倍,将 DLRM DCNv2 的性能提高了 5 倍。

  通用人工智能(AGI)热战在年末愈演愈烈。从亚马逊、OpenAI、Meta 到谷歌,一系列重磅发布将大模型的竞争格局推向了新的高潮。

  其中谷歌是少有的同时在大模型、云端基础设施、端侧智能方面同时占据优势的头部大模型企业。

  在如火如荼的大模型竞赛中,执掌安卓操作系统的谷歌对端侧智能理解距离最近、理解最深。通过今日的一系列发布,谷歌进一步强化了 Agent(代理)在智能手机、智能眼镜等端侧设备上的诱人前景。在更强大模型加持下,Agent 将能够更广泛地为人类代劳,帮人类了解周围世界,提前进行多步骤思考,并在人类的监督下采取行动。

  但 AI 系统仍具有相当多的不可控性。包括谷歌在内,大模型公司在将世界推向 Agent 时代的同时,必须竭力确保低风险,控制好安全的方向盘。