omniture

亞馬遜推出全新Nova Sonic語音到語音模型 可深入理解人類對話,捕捉語氣、語調(diào)和節(jié)奏

亞馬遜云科技
2025-04-09 12:22 1209

北京2025年4月9日 /美通社/ -- 亞馬遜宣布推出一款全新的基礎(chǔ)模型Amazon Nova Sonic,將語音理解與語音生成統(tǒng)一于單一的模型中,使AI應(yīng)用程序中的語音對話更貼近真人交流。該模型通過Amazon Bedrock上的新API提供,可簡化語音應(yīng)用開發(fā)流程,例如客戶服務(wù)通話自動化及覆蓋旅游、教育、醫(yī)療、娛樂等領(lǐng)域的跨行業(yè)AI agents。

在過去十余年間,亞馬遜始終引領(lǐng)著語音技術(shù)的發(fā)展,致力于為對話式AI應(yīng)用賦能——從打造全球領(lǐng)先的個人AI助手Alexa,到開發(fā)亞馬遜云科技的各類服務(wù),如Lex、Polly和Connect等。但要讓語音AI為客戶創(chuàng)造更多實(shí)際價值,它必須能夠理解人類對話的微妙與復(fù)雜性。在對話中,文字本身承載意義,但若沒有聲音語境賦予其深度,僅憑文字往往難以傳達(dá)完整信息。如何表達(dá)表達(dá)什么同樣重要,甚至更為關(guān)鍵。從過去直到現(xiàn)在,通過AI實(shí)現(xiàn)這一點(diǎn)仍是巨大挑戰(zhàn)。

一套捕捉語氣、風(fēng)格與節(jié)奏的語音系統(tǒng)

傳統(tǒng)語音應(yīng)用開發(fā)需復(fù)雜協(xié)調(diào)多個模型,例如將語音轉(zhuǎn)為文字的語音識別模型、理解并生成回復(fù)的大語言模型(LLM)、將文字再轉(zhuǎn)為音頻的文本轉(zhuǎn)語音模型。這種分散的方法不僅增加了開發(fā)的復(fù)雜性,同時也難以保留自然對話中至關(guān)重要的聲學(xué)情境和細(xì)微差別,如語氣、語調(diào)韻律和說話風(fēng)格等。

Nova Sonic采用全新方法應(yīng)對這些挑戰(zhàn)。它摒棄了使用多個不同模型的方式,而是將理解與生成功能統(tǒng)一于單一模型中。這種整合使模型能根據(jù)語氣、風(fēng)格等聲學(xué)情境以及口語輸入調(diào)整所生成的語音響應(yīng),從而實(shí)現(xiàn)更自然的對話。Nova Sonic甚至能理解人類對話的細(xì)微之處,包括說話者的自然停頓與猶豫、能在恰當(dāng)時機(jī)做出回應(yīng),并能從容應(yīng)對對話中的插話情況。

基于Amazon Nova Sonic構(gòu)建的旅游AI agent示例:

https://soundcloud.com/amazonblog/amazon-nova-sonic-ai-agent-travel

這段對話展示了客戶與虛擬旅游助手討論夏威夷行程的場景。當(dāng)客戶的語氣從興奮轉(zhuǎn)為擔(dān)憂費(fèi)用時,AI的語調(diào)隨之變得更具安撫性,并實(shí)時調(diào)取相關(guān)價格信息。

該模型還會為用戶語音生成文字轉(zhuǎn)錄,讓開發(fā)者能夠利用這些文本來調(diào)用特定工具與API,從而構(gòu)建語音AI agents。比如在這個示例中,AI旅游代理可以通過獲取最新的航班信息來協(xié)助機(jī)票預(yù)訂。這些功能,加上其超快的推理能力,使Nova Sonic支持的語音應(yīng)用不僅更加自然,而且實(shí)用性更強(qiáng)。

基于Amazon Nova Sonic構(gòu)建的企業(yè)AI助手示例:

https://soundcloud.com/amazonblog/amazon-nova-sonic-ai-agent-travel

此示例展示了企業(yè)客戶如何從Nova Sonic基于公司數(shù)據(jù)生成響應(yīng)的能力中受益。該助手能夠提取報(bào)告并以自然對話的方式傳遞準(zhǔn)確信息,同時主動提出相關(guān)的后續(xù)問題。這種流暢的對話模式支持多輪交互,無需說話者額外設(shè)定對話背景。

Nova Sonic的推出彰顯了亞馬遜在先進(jìn)基礎(chǔ)模型領(lǐng)域的持續(xù)創(chuàng)新,亞馬遜始終致力于為每一位亞馬遜客戶創(chuàng)造實(shí)際價值。

立即通過Amazon Nova開始體驗(yàn)。欲了解更多信息,請?jiān)L問亞馬遜在AI領(lǐng)域的創(chuàng)新

免責(zé)聲明:

本新聞稿中提及的亞馬遜云科技生成式人工智能相關(guān)的服務(wù)僅在亞馬遜云科技海外區(qū)域可用,亞馬遜云科技中國僅為幫助您發(fā)展海外業(yè)務(wù)和了解行業(yè)前沿技術(shù)選擇推薦該服務(wù)。

消息來源:亞馬遜云科技
China-PRNewsire-300-300.png
全球TMT
微信公眾號“全球TMT”發(fā)布全球互聯(lián)網(wǎng)、科技、媒體、通訊企業(yè)的經(jīng)營動態(tài)、財(cái)報(bào)信息、企業(yè)并購消息。掃描二維碼,立即訂閱!
collection