現在 ChatGPT 可以回應圖像和語音命令。 超級流行的人工智慧聊天機器人一直只是一個文字方塊。 現在他正在學習以新的方式理解你的問題。
OpenAI 對 ChatGPT 所做的許多改變都涉及人工智慧驅動的機器人可以做什麼:它可以回答的問題、它可以存取的資訊以及改進的底層模型。 但這一次,它改變了您使用 ChatGPT 本身的方式。 該公司正在推出新版本的服務,讓你不僅可以透過在文字方塊中輸入句子來指揮人工智慧機器人,還可以透過大聲說話或簡單地上傳圖像來指揮人工智慧機器人。 據 OpenAI 稱,這些新功能將在未來兩週內向那些支付 ChatGPT 費用的人開放,其他人也將在「不久之後」獲得它。
語音聊天部分非常熟悉:您點擊一個按鈕,說出您的問題,ChatGPT 會將其轉錄並將其輸入到大型語言模型中,獲得回應,將其轉換回語音,然後大聲說出回應。 感覺就像與 Alexa 或 Google Assistant 交談一樣,只是——正如 OpenAI 所希望的那樣——由於先進的底層技術,答案會更好。 似乎大多數虛擬助理都在圍繞法學碩士進行重建——OpenAI 處於領先地位。
OpenAI 出色的Whisper 模型完成了大部分語音轉文字工作,該公司正在推出一種新的文字轉語音模型,據稱該模型可以“僅從文字和幾秒鐘的樣本語音中產生類似人類的聲音” 。 ” 你可以從五個選項中選擇 ChatGPT 的語音,但 OpenAI 似乎認為模型的潛力遠不止於此。 例如,OpenAI 正在與 Spotify 合作,將播客翻譯成其他語言,同時保留播客的聲音。 合成語音有許多有趣的用途,OpenAI 可能會成為這個行業的重要組成部分。
但事實上,您只需幾秒鐘的音訊即可創建強大的合成語音,這為各種有問題的用例打開了大門。 該公司在宣布新功能的部落格文章中表示:“這些功能帶來了新的風險,例如惡意行為者冒充公眾人物或實施欺詐的可能性。” OpenAI 認為,正是由於這個原因,該模型不適合廣泛使用; 他表示,它將受到更多的控制,並僅限於某些用例和合作夥伴關係。
順便說一句,視覺搜尋有點像谷歌鏡頭。 您拍攝您感興趣的內容的照片,ChatGPT 會嘗試了解您所詢問的內容並做出相應的回應。 您也可以使用應用程式的繪圖工具,或隨圖片說出或寫出問題,以幫助澄清您的查詢。 這就是 ChatGPT 的來回性質派上用場的地方; 您可以指導機器人並隨時完善答案,而不是撥打電話,得到錯誤答案,然後再撥打另一個電話。 (這與Google的多模式搜尋非常相似)。
顯然,視覺搜尋存在潛在的問題。 其中之一是當您向聊天機器人詢問一個人時可能會發生的情況。 OpenAI 表示,出於準確性和隱私原因,ChatGPT 有意限制其「分析和直接發表有關人們的言論的能力」。 這是人工智慧最科幻的願景之一,看著某人並問“這是誰?” 這意味著這種說法不會很快發生。 – 意味著它不會很快到來。 這可能是件好事。
ChatGPT 首次推出近一年後,OpenAI 似乎仍在試圖找出如何在不產生新問題和缺點的情況下為其機器人添加更多特性和功能。 透過這些版本,該公司試圖透過刻意限制其新型號的功能來走這條路線。 但這種方法不會永遠有效。 隨著越來越多的人使用語音控制和視覺搜索,ChatGPT 越來越接近成為真正的多模式、有用的虛擬助手,保持護欄暢通將變得越來越困難。
你覺得這個話題怎麼樣? 不要忘記在評論部分與我們分享您的想法。 對於我們所有的內容 玩家站所有內容
這裡討論的產品是由我們的編輯獨立選擇的。 如果您購買我們網站上的特色商品,The Gamer Station 可能會獲得部分收入。
文章的原始語言是土耳其語。我們以 18 種不同的語言進行廣播。如果您在內容中發現錯誤的句子或單詞,請隨時在評論中告知我們!