谷歌今年晚些时候推出的Project Gemini有望成为全球迄今为止最强大的AI模型。
与现有模型相比,Gemini的最大优势在于其多模态能力。谷歌在近期的一篇博客文章中介绍说:
我们已经开始着手研发Gemini,这是我们从零打造的下一代模型,具备多模态能力,高效整合工具和API(应用程序编程接口),并为实现未来创新(如记忆和计划)而设计。
尽管Gemini目前仍在训练阶段,但它已经展现出先前模型从未有过的多模态能力。一经精细调整和严格的安全测试,我们将提供不同大小和功能的Gemini模型,就像PaLM 2一样,确保它能够在各种产品、应用和设备上得到应用,造福每个人。
Gemini比GPT强在哪里?
Gemini由谷歌最新组建的Google DeepMind团队开发,最大的亮点就是它的多模态能力。
据悉,Gemini建立在多模态模型的基础上,不仅能够理解和生成文本、代码,还能够看懂和生成图像。相比之下,ChatGPT只是一个纯文本模型,只能理解和生成文本。
这意味着Gemini可以应用于更广泛的任务领域。例如,基于Gemini创建的AI聊天机器人,能够理解和生成文本和图像。
类似地,Bing虽然有一个专门用于图像创建的链接,但在聊天框内生成的内容仍局限于纯文本,因此用户无法要求它生成图像。
与ChatGPT相比,Gemini还可以为更多种类的产品和应用提供支持。例如,Gemini可以用于新的Google搜索引擎,或者用于创建一种新型AI助手。
ChatGPT和Bing都不具备这些能力。但值得一提的是,GPT 5或许可以实现这些功能。
另外,凭借记忆和计划能力,Gemini可以用于创建一种新型的AI应用,这是ChatGPT做不到的。
例如,Gemini可以用于创建一个能记住你的偏好并帮助你规划日常活动的AI个人助手。
但据华尔街见闻此前文章,ChatGPT本周推出的70款插件,基本上能够扮演24小时私人助理的角色,但并不能实现规划这一功能。
AI“高风险功能”将被谷歌开启?
Gemini的能力令外界感到惊讶,同时也感到害怕。
一名昵称为“AI Explained”的Youtube知名科技博主认为,谷歌不顾安全风险,赋予模型自行制定并执行计划的能力,并加速开发这一危险的技术,或加剧AI对人类社会的威胁。
AI Explained发现,“计划”这一能力被谷歌当做Gemini的卖点,但被OpenAI视为一种安全风险。
在GPT 4的技术报告中,有这样一段话:
在更强大的模型中,往往会出现新的引人注目的能力。其中一些能力尤为令人担忧,包括制定和执行长期计划的能力,谋求权力和资源的能力(“谋求权力”),以及展示越来越“主动性”的行为。
谷歌谈到将加速对Gemini的开发,毫无疑问,其刚刚发布的通用大语言模型PaLM 2将是开发加速的地方。可以理解,在这场激烈的全球AI竞赛中,暂时处于下风的谷歌必须加快脚步。
作为对比,GPT 4的技术报告是这样描述的:
OpenAI特别关注的一个重要问题是,竞争可能引发安全标准下降、不良规范的传播以及人工智能时间表的加速,进而加剧与人工智能相关的社会风险。我们在此将其称为“加速风险”。
也就是说,OpenAI是不主张在未能确保安全的情况下加速研究AI技术的,主动“暂停”GPT5的开发符合这一理念。