谷歌发布史上最大“通才”AI模型，能看图说话、操控机器人-

您现在的位置：首页 > 动态资讯 > 行业观察

谷歌发布史上最大“通才”AI模型，能看图说话、操控机器人

发布时间：2023-03-09 信息来源：华尔街见闻字体：【大中小】

近日，来自谷歌和柏林工业大学的团队重磅推出了史上最大视觉语言模型——PaLM-E（全称Pathways Language Model with Embodied，是一种具身视觉语言模型）。作为一种多模态具身视觉语言模型（VLM），PaLM-E不仅可以理解图像，还能理解、生成语言，而且还能将两者结合起来，处理复杂的机器人指令。此外，通过PaLM-540B语言模型与ViT-22B视觉Transformer模型相结合，PaLM-E最终的参数量高达5620亿。它的强大之处在于，能够利用视觉数据来增强其语言处理能力。（华尔街见闻）

往期推荐

友情链接

国新咨询有限责任公司版权所有京ICP备2022033196号-1
联系我们| 法律声明

国新咨询有限责任公司版权所有
京ICP备2022033196号-1
联系我们| 法律声明

微信

小程序