GPT-4是什么?GPT-4模型是第四代大型语言模型(LLM),Braun将LLM称为“游戏规则改变者”,它们教会机器理解自然语言,意味着人类将不再独享这项技能。
这一模型是通过GPT技术实现的。
GPT全称为Generative Pre-trained Transformer,是一种使用人工神经网络的深度学习技术,能够使机器像人一样聊天交流并进行创作。
而说到GPT-4,就不得不提到它的姐姐GPT-3.5,由该模型开发的聊天机器人ChatGPT一经面世,便引爆AI界的竞赛,也让多年来屈居老二的微软必应获得了赶超谷歌搜索引擎的机会。
因此GPT-4将推进基于GPT-3.5的ChatGPT所使用的技术。
多模态或成最大亮点
3 月 9 日,微软德国 CTO Andreas Braun 在一场名为 “AI in Focus - Digital Kickoff” 的活动中表示,GPT-4 将在下周发布,将提供多模态模型。自 3 月初发布 Kosmos-1 以来,微软正在与 OpenAI 微调多模态这一事实应该不再是一个秘密。
“我们将在下周推出 GPT-4,我们将有多模态模型,提供完全不同的可能性——如视频,”Braun 说。这位首席技术官称大型语言模型是 “游戏规则的改变者”,因为它们教机器理解自然语言,然后以统计学方式理解以前只能由人类阅读和理解的内容。同时,该技术已经发展到了基本上 “适用于所有语言” 的程度。“你可以用德语问一个问题,得到意大利语的回答。通过多模态,微软/OpenAI 将 “使模型变得全面”。
此次 GPT4 转向多模态,未来的输入输出将出现图像、视频等形态,或将在业内产生更具颠覆性的影响。OpenAI 此前推出的 DALL-E 2 和 CLIP 便是一次很好的尝试。
Braun表示,借助多模态,微软(和OpenAI)将使模型变得全面”。这意味着多模态可能成为GPT-4模型的最大亮点。
在活动上,微软AI技术专家Holger Kenn和Clemens Sieber对多模态AI的相关功能进行了介绍。
根据Kenn的说法,多模态AI不仅可以将文本转化成相应的图像、音乐甚至是视频。在微软宣布前,机器学习专家Emil Wallner就在推特上预估,称GPT-4可能具备这种能力。
Sieber则介绍了一些多模态AI产业化的潜在案例,例如多模态AI能够将电话呼叫的语音直接记录成文本。根据估算,该功能能为微软位于荷兰的一家大客户节省500个工作小时/天。
微软会把GPT-4集成到必应里吗?
作为OpenAI的主要投资者之一,微软已经将ChatGPT的技术集成到旗下应用产品中。
其中,ChatGPT版必应仅发布一个月,其日活用户就突破了1亿,为历史上首次。借助ChatGPT版必应,微软正以惊人的速度赶超搜索引擎一哥谷歌。
因此多数分析认为,已经尝到不少甜头的微软将继续把GPT-4集成到必应之中。