
這是美國(guó)開放人工智能研究中心(OpenAI)發(fā)布GPT-4o的直播視頻截圖
美國(guó)開放人工智能研究中心(OpenAI)13日展示最新版本ChatGPT:與使用者展開語(yǔ)音對(duì)話、識(shí)別圖像并展開討論、翻譯……相比先前版本,它與使用者對(duì)話基本無(wú)延遲,會(huì)傾聽,能嘮嗑,還善于察言觀色,讓人驚呼新版本ChatGPT“更像人”了。新版本ChatGPT取得了哪些突破?能在哪些領(lǐng)域?qū)崿F(xiàn)應(yīng)用?它對(duì)人工智能領(lǐng)域的影響有多大?
有哪些“進(jìn)化”
開放人工智能研究中心13日發(fā)布的人工智能模型名為GPT-4o,編號(hào)中的字母“o”代表“omni”(全能),既能接受文本、音頻和圖像的任意組合輸入,還能生成文本、音頻和圖像的相關(guān)回應(yīng)。
該中心不僅圍繞GPT-4o做了直播演示,還在社交媒體發(fā)布更多視頻“炫技”。
在一段視頻中,GPT-4o聽起來(lái)明顯“更會(huì)聊天了”,還時(shí)不時(shí)拋出幾個(gè)笑話。它的音調(diào)有些許變化,言語(yǔ)間帶著笑意,與它聊天更像與真人交談。
實(shí)時(shí)聊天是ChatGPT的關(guān)鍵技能。相比先前版本,GPT-4o的不同主要表現(xiàn)在:一是使用者可以隨時(shí)打斷聊天機(jī)器人,無(wú)需像從前那樣等它把話說(shuō)完;二是它會(huì)實(shí)時(shí)對(duì)問(wèn)題作出回應(yīng),不再有兩到三秒的時(shí)滯;三是它能感知人的情緒,比如演示者呼吸急促,它會(huì)詢問(wèn)對(duì)方是否需要稍稍穩(wěn)定下情緒。另外,GPT-4o可以生成不同風(fēng)格的聲音。
演示中,GPT-4o利用其視覺(jué)和語(yǔ)音能力,指導(dǎo)演示者在紙上逐步解出一道方程題,而不是直接給出答案。它還展示了英語(yǔ)與意大利語(yǔ)互譯、用自拍照片識(shí)別情緒等能力。當(dāng)一名演示者告訴它,自己正展示它是“多么有用和不可思議”時(shí),它回答道:“哦,快別說(shuō)了,怪害臊的。”
開放人工智能研究中心首席執(zhí)行官薩姆·奧爾特曼在博客中寫道,GPT-4o就像電影中的人工智能技術(shù)。“與電腦交談一直讓我感覺(jué)不自然,現(xiàn)在自然了。”


 
          


