Tavus 推出系列 AI 模型，實(shí)現(xiàn)實(shí)時(shí)人臉交互技術(shù)突破

發(fā)布于：2025-03-07 點(diǎn)擊量：333 來(lái)源：至頂網(wǎng)

Tavus Inc.，一家致力于開(kāi)發(fā)能模擬真人對(duì)話(huà)體驗(yàn)的實(shí)時(shí) AI 技術(shù)的人工智能研究初創(chuàng)公司，今天宣布發(fā)布了一系列突破性的 AI 模型。

該公司表示，正在通過(guò)其"對(duì)話(huà)視頻界面"構(gòu)建一個(gè)人機(jī)交互操作系統(tǒng)，使 AI 能夠自然地感知、理解和回應(yīng)。這種體驗(yàn)就像在 Zoom 或 FaceTime 通話(huà)中與真人交談一樣。Tavus 的使命是讓 AI 不僅能理解面部表情、語(yǔ)氣和肢體語(yǔ)言及其含義，還能通過(guò)自身的表情和語(yǔ)氣來(lái)傳達(dá)意義。

"人類(lèi)在進(jìn)化過(guò)程中形成了面對(duì)面交流的方式。因此，我們希望教會(huì)機(jī)器如何實(shí)現(xiàn)這一點(diǎn)，"首席執(zhí)行官 Hassaan Raza 在接受 SiliconANGLE 采訪時(shí)表示。"如果我們相信未來(lái)會(huì)出現(xiàn) AI 同事、朋友和助手，我們就需要為此構(gòu)建相應(yīng)的接口。"

此次發(fā)布包含三個(gè)模型：Phoenix-3，首個(gè)能傳達(dá)細(xì)微表情的全臉 AI 渲染模型;Raven-0，一個(gè)突破性的 AI 感知模型，能像人類(lèi)一樣觀察和推理;以及 Sparrow-0，一個(gè)先進(jìn)的對(duì)話(huà)輪替模型，為對(duì)話(huà)增添"生命火花"。

Phoenix-3 是公司的旗艦基礎(chǔ)模型，旨在創(chuàng)建"數(shù)字分身"——個(gè)人的高度真實(shí)再現(xiàn)，并具備 AI 驅(qū)動(dòng)的人類(lèi)表情能力。現(xiàn)在的第三代版本提供全臉動(dòng)畫(huà)，能夠克隆人物并準(zhǔn)確表現(xiàn)臉部每塊肌肉，這對(duì)模仿細(xì)微表情至關(guān)重要。Raza 表示，大多數(shù)商用面部動(dòng)畫(huà)模型無(wú)法處理完整的面部，導(dǎo)致上下半部分不匹配，破壞了沉浸感。

"Phoenix-3 是一個(gè)全臉表情模型，具有情感控制功能，是首個(gè)無(wú)需大量數(shù)據(jù)就能實(shí)現(xiàn)這一功能的模型，"Raza 說(shuō)。

最重要的是，Phoenix-3 的高保真度和面部肌肉控制意味著它能準(zhǔn)確模擬"微表情"——那些短暫、不由自主的面部表情，它們是情感反應(yīng)的結(jié)果。通過(guò)添加這一功能，該模型創(chuàng)造了一個(gè)生動(dòng)的視頻模型體驗(yàn)，比簡(jiǎn)單的動(dòng)畫(huà)面孔更加真實(shí)，更具情感和表現(xiàn)力。

為了使 Phoenix-3 能像人類(lèi)一樣做出響應(yīng)，Raven-0 賦予了 AI 觀察和理解場(chǎng)景的能力。它不是拍攝單獨(dú)的快照，而是持續(xù)觀察和理解視頻中事件的上下文，包括識(shí)別用戶(hù)的面部情緒和檢測(cè)環(huán)境變化。

例如，AI 輔導(dǎo)員可以通過(guò)監(jiān)控學(xué)生的表情來(lái)識(shí)別他們是否感到困惑或沮喪，并相應(yīng)地調(diào)整解釋方式。同樣，支持助手可以觀察客戶(hù)使用產(chǎn)品的過(guò)程，并就如何解決問(wèn)題提供指導(dǎo)。

Raza 表示，Sparrow-0 試圖解決許多 AI 都會(huì)犯的錯(cuò)誤。自然對(duì)話(huà)有一種流動(dòng)感，參與者之間有一種給予和接受的關(guān)系，一方等待另一方停止說(shuō)話(huà)后再接話(huà)。

然而，AI 有時(shí)會(huì)過(guò)早插話(huà)——有時(shí)甚至?xí)驍鄬?duì)方。這種突然性發(fā)生是因?yàn)?AI 模型的思考速度比人類(lèi)快，而 AI 模型開(kāi)發(fā)者非常努力地降低延遲，即 AI 模型響應(yīng)所需的時(shí)間。但如果 AI 響應(yīng)太快，就會(huì)顯得不自然。

Sparrow 模型通過(guò)理解語(yǔ)言節(jié)奏來(lái)讓對(duì)話(huà)感覺(jué)自然，知道何時(shí)暫停、何時(shí)說(shuō)話(huà)和何時(shí)傾聽(tīng)。它不會(huì)對(duì)"呃"這樣的填充詞做出反應(yīng)，也不會(huì)等待長(zhǎng)時(shí)間的沉默，而是根據(jù)語(yǔ)氣、節(jié)奏和上下文進(jìn)行調(diào)整。

"如果它確定你正在進(jìn)行快節(jié)奏的友好對(duì)話(huà)，它會(huì)快速回應(yīng)，"Raza 解釋道。"但如果你說(shuō)'讓我想想'，AI 會(huì)給你空間。這樣就使對(duì)話(huà)更自然。"

與其他將技術(shù)拼湊在一起的公司不同，Raza 表示，Tavus 開(kāi)發(fā)了一個(gè)集成系統(tǒng)來(lái)整合這些模型。結(jié)果是一種高度沉浸式的體驗(yàn)，更像是在與真人交談，比其他人形化 AI 系統(tǒng)更自然。

Raza 表示，模型功能還有提升空間，這意味著需要持續(xù)改進(jìn) AI 感知和理解人類(lèi)的能力。

"現(xiàn)在還不是完美的，但它是同類(lèi)最佳，"Raza 補(bǔ)充道。"然而，我們未來(lái)的目標(biāo)是開(kāi)發(fā)出一個(gè)如此深入理解人類(lèi)的模型，除非你特意詢(xún)問(wèn)，否則你不會(huì)知道它是一個(gè)模型。"

【版權(quán)聲明】:本站內(nèi)容來(lái)自于與互聯(lián)網(wǎng)(注明原創(chuàng)稿件除外），如文章或圖像侵犯到您的權(quán)益，請(qǐng)及時(shí)告知，我們第一時(shí)間刪除處理！

上一篇：AI 驅(qū)動(dòng)的卓越運(yùn)營(yíng)：企業(yè)如何通過(guò)人人可及的流程智能提升成功

下一篇：Observe 推出 VoiceAI 智能助手，通過(guò)擬人化語(yǔ)音實(shí)現(xiàn)客服中心自動(dòng)化，避免打斷對(duì)話(huà)

国产做爰_日韩av一区二区在线观看_日本a视频_中文字幕在线第一页_亚洲视频欧美视频_日本中出视频

Tavus 推出系列 AI 模型，實(shí)現(xiàn)實(shí)時(shí)人臉交互技術(shù)突破