现在 ChatGPT 可以响应图像和语音命令。 超级流行的人工智能聊天机器人一直只是一个文本框。 现在他正在学习以新的方式理解你的问题。
OpenAI 对 ChatGPT 所做的许多改变都涉及人工智能驱动的机器人可以做什么:它可以回答的问题、它可以访问的信息以及改进的底层模型。 但这一次,它改变了您使用 ChatGPT 本身的方式。 该公司正在推出新版本的服务,让你不仅可以通过在文本框中输入句子来指挥人工智能机器人,还可以通过大声说话或简单地上传图像来指挥人工智能机器人。 据 OpenAI 称,这些新功能将在未来两周内向那些支付 ChatGPT 费用的人开放,其他人也将在“不久之后”获得它。
语音聊天部分非常熟悉:您点击一个按钮,说出您的问题,ChatGPT 会将其转录并将其输入到大型语言模型中,获得响应,将其转换回语音,然后大声说出响应。 感觉就像与 Alexa 或 Google Assistant 交谈一样,只是——正如 OpenAI 希望的那样——由于先进的底层技术,答案会更好。 似乎大多数虚拟助手都在围绕法学硕士进行重建——OpenAI 处于领先地位。
OpenAI 出色的 Whisper 模型完成了大部分语音转文本工作,该公司正在推出一种新的文本转语音模型,据称该模型可以“仅从文本和几秒钟的样本语音中产生类似人类的声音”。 ” 你可以从五个选项中选择 ChatGPT 的语音,但 OpenAI 似乎认为该模型的潜力远不止于此。 例如,OpenAI 正在与 Spotify 合作,将播客翻译成其他语言,同时保留播客的声音。 合成语音有许多有趣的用途,OpenAI 可能会成为这个行业的重要组成部分。
但事实上,您只需几秒钟的音频就可以创建强大的合成语音,这为各种有问题的用例打开了大门。 该公司在宣布新功能的博客文章中表示:“这些功能带来了新的风险,例如恶意行为者冒充公众人物或实施欺诈的可能性。” OpenAI 认为,正是由于这个原因,该模型不适合广泛使用; 他表示,它将受到更多的控制,并仅限于某些用例和合作伙伴关系。
顺便说一句,视觉搜索有点像谷歌镜头。 您拍下您感兴趣的内容的照片,ChatGPT 会尝试了解您所询问的内容并做出相应的回应。 您还可以使用应用程序的绘图工具,或者随图像说出或写出问题,以帮助澄清您的查询。 这就是 ChatGPT 的来回性质派上用场的地方; 您可以指导机器人并随时完善答案,而不是拨打电话,得到错误答案,然后再拨打另一个电话。 (这与谷歌的多模式搜索非常相似)。
显然,视觉搜索存在潜在的问题。 其中之一是当您向聊天机器人询问一个人时可能会发生的情况。 OpenAI 表示,出于准确性和隐私原因,ChatGPT 有意限制其“分析和直接发表有关人们的言论的能力”。 这是人工智能最科幻的愿景之一,看着某人并问“这是谁?” 这意味着这种说法不会很快发生。 – 意味着它不会很快到来。 这可能是一件好事。
ChatGPT 首次推出近一年后,OpenAI 似乎仍在试图找出如何在不产生新问题和缺点的情况下为其机器人添加更多特性和功能。 通过这些版本,该公司试图通过刻意限制其新型号的功能来走这条路线。 但这种方法不会永远有效。 随着越来越多的人使用语音控制和视觉搜索,ChatGPT 越来越接近成为真正的多模式、有用的虚拟助手,保持护栏畅通将变得越来越困难。
你觉得这个话题怎么样? 不要忘记在评论部分与我们分享您的想法。 对于我们所有的内容 玩家站所有内容
这里讨论的产品是由我们的编辑独立选择的。 如果您购买我们网站上的特色商品,The Gamer Station 可能会获得一部分收入。
文章的原始语言是土耳其语。我们以 18 种不同的语言进行广播。如果您在内容中发现错误的句子或单词,请随时在评论中告知我们!