免费使用、更加健谈……OpenAI新模型GPT-4o亮相

2024-05-15 07:40 阅读
上观新闻

5月14日,美国开放人工智能研究中心(OpenAI)又给用户带来惊喜。它在当天的春季发布会上宣布推出其最新旗舰生成式AI模型GPT-4o。

与GPT-4 Turbo相比,GPT-4o的价格减半,速度提升2倍,速率限制高出5倍。

除了拥有多种模态的能力,GPT-4o的推出还伴随着一大亮点:免费。据悉,它将在未来几周内分阶段集成至OpenAI的各个产品之中。

功能全部免费

北京时间14日凌晨,OpenAI首席技术官米拉·穆拉蒂在发布会上搬出了新模型GPT-4o、桌面App,并展示了公司的一系列创新之处。

发布会截图

GPT-4o在速度和价格方面都较上一代有显著优势,可以处理50种不同的语言,同时拥有处理文本、图像、音频等多种模态的能力,可以为用户带来更自然、流畅的交互体验。

本次发布会,穆拉蒂主要列举了几个点。

第一,新模型GPT-4o用户不用注册,功能全部免费。

在此之前,ChatGPT的免费用户只能使用GPT-3.5。而更新后,用户可以免费使用GPT-4o,来进行数据分析、图像分析、互联网搜索、访问应用商店等操作。

当然,免费的前提被限制在一定的消息数量上,一旦超过规定数量,免费用户的模型将被切换回GPT-3.5。而付费用户将获得更高的消息数量,至少是免费用户的5倍。

同日, OpenAI首席执行官萨姆·奥尔特曼发推文表示,新的GPT-4o是OpenAI“有史以来最好的模型”。

第二,ChatGPT增设了PC端桌面版本。

在电脑上使用ChatGPT应用

苹果电脑用户将迎来一款为macOS设计的ChatGPT桌面应用,用户可以通过快捷键“拍摄”桌面,然后将截屏同步给ChatGPT并向它提问。这种轻量化的使用体验可以无缝融入用户的工作流程中,减少了登录网页消耗的时间。

ChatGPT在“看图说话”

OpenAI还表示,Windows版本将在今年晚些时候推出。

穆拉蒂表示,这也是他们第一次在易用性上做出改进。

此外,ChatGPT还优化了用户界面,旨在提升用户体验,使交互更加流畅自然,确保用户聚焦于与ChatGPT的高效合作,而非界面操作本身。

发布会后,业界一片哗然。有媒体称这预示着“智能时代的一次进化”,未来移动设备中的互联网可能会被浓缩在一个程序之中,用户可以通过它解决一切需求:发短信、导航、识物、打车等等。

更加健谈

在发布会上,GPT-4o拥有的处理文本、图像、音频等多种模态的能力不断被提及。据介绍,GPT-4o支持文本、音频和图像的任意组合输入,并生成文本、音频和图像的任意组合输出。

早在前几天,奥尔特曼就在一档播客中预告,OpenAI将改进并提升ChatGPT的语音功能质量,并表示相信语音交互是通向未来交互方式的一个重要途径。

而新模型GPT-4o里的“o”就是Omni(全能模型)的缩写,可实时进行音频、视觉和文本推理。

首先,它的响应速度大幅提升。

GPT-4o可以在短至232毫秒、平均320毫秒的时间内响应音频输入,与人类在对话中的反应速度一致。也就是说,它已经可以达到“实时”响应的状态,不再像以前那样,在得到回答前需要尴尬地等上几秒钟。

同时,就像与真人聊天一样,用户可以在GPT-4o回应的过程中打断它,并提出更多的要求,比如转变话题、要求它改变语音语调、甚至用机器人或音乐剧的形式回答。

其次,它对情绪的捕捉显得更敏感细腻。

发布会上,GPT-4o能够从主持人的喘气声中理解“紧张”的含义,并指导他进行深呼吸。当受到称赞后,它还会马上接话:“别说了,你让我脸都红了。”

发布会上,主创团队还展示了GPT-4o各种功能的使用情况,包括实时翻译、教学如何解方程式、识别人物表情等。

目睹了GPT-4o应答如流的过程,不少用户评论这一新模型“显得更加健谈了,有时甚至有些轻浮”。

但GPT-4o的使用呈现也伴随着一些失误。它在现场把主持人的笑脸误认为是一个桌面,还在方程式尚未显示的情况下尝试解题。

消除神秘感

去年,马斯克旗下xAI团队发布的首个人工智能大模型产品Grok,因回答用户问题“无所忌讳”而出圈。xAI团队在介绍该产品时还说:“如果你不喜欢幽默,请不要使用它!”

其实不管是Grok,还是谷歌子公司DeepMind联合创始人苏莱曼开发的AI机器人Pi,都具有鲜明的个性化特点。

有评论称,相较之下,GPT-4o稳定处理文本、图像、音频的能力,让OpenAI在这场人工智能争霸赛中处于领先地位。

有趣的是,穆拉蒂在介绍GPT-4o时将其描述为“神奇的”。但她同时补充,随着产品的推出,公司将“消除这种神秘感”。

有分析指出,GPT-4o实行免费是一大关键,这意味着OpenAI开始加大将大模型推向市场的力度。

近日,苹果公司被曝正与OpenAI敲定一项协议,今年将后者的部分技术引入iPhone。借此苹果将能提供由ChatGPT支持的“聊天机器人”,作为iOS 18中人工智能功能的一部分。

虽然关于OpenAI与苹果合作的传闻一直存在,且都未得到证实。但眼尖的人也发现,在OpenAI发布会的现场,苹果的产品被广泛使用。

与此同时,谷歌2024年I/O开发者大会将于北京时间5月15日1时举行,正好在OpenAI最新发布会的24小时后。据悉,谷歌将在大会上展示其最新的人工智能开发成果,并发布Gemini大模型的最新动态。

去年底,谷歌宣布推出其认为规模最大、功能最强大的人工智能模型Gemini,同样在识别文本、图像、视频上具备强理解和推理能力。

当各大科技巨头都亮出自己的法宝争做王者,公众也很好奇,谁会得到市场和业界更多的青睐。(作者:徐晓语)

 

编辑:李坚  审核:李薇

用户点评
    已显示全部评论
    点击查看更多评论()
    分享到微信朋友圈
    x

    打开微信,点击底部的“发现”,

    使用“扫一扫”即可将网页分享至朋友圈。

    打开APP
    前往,阅读体验更佳
    取消
    ×
    问政江西小程序
    长按进入,阅读更多问政江西内容