您现在的位置: 首页 > 动态资讯 > 行业观察
谷歌发布史上最大“通才”AI模型,能看图说话、操控机器人
发布时间:2023-03-09 信息来源:华尔街见闻 字体:

近日,来自谷歌和柏林工业大学的团队重磅推出了史上最大视觉语言模型——PaLM-E(全称Pathways Language Model with Embodied,是一种具身视觉语言模型)。作为一种多模态具身视觉语言模型(VLM),PaLM-E不仅可以理解图像,还能理解、生成语言,而且还能将两者结合起来,处理复杂的机器人指令。此外,通过PaLM-540B语言模型与ViT-22B视觉Transformer模型相结合,PaLM-E最终的参数量高达5620亿。它的强大之处在于,能够利用视觉数据来增强其语言处理能力。(华尔街见闻)

往期推荐

微信

小程序
Produced By CMS 网站群内容管理系统 publishdate:2025-02-25 10:42:54