數(shù)字化浪潮下,金融業(yè)的商業(yè)模式與服務(wù)形態(tài)正在重新被定義,價(jià)值潛力也在不斷被挖掘,“虛擬數(shù)字人”日漸成為金融機(jī)構(gòu)打造智能化交互體驗(yàn)的“新寵”。
例如:浦發(fā)銀行和百信銀行相繼發(fā)布的虛擬數(shù)字員工等。不可否認(rèn)的是,作為金融業(yè)數(shù)字化轉(zhuǎn)型的創(chuàng)新產(chǎn)物,活躍于金融場景的虛擬數(shù)字人不僅迎合了金融業(yè)務(wù)降本增效的需求,也為用戶提供了全新的交互體驗(yàn),增強(qiáng)了用戶黏性。
此次,興業(yè)證券攜手火山引擎推出的虛擬數(shù)字人便是打響了新年“第一槍”!與此前諸多的虛擬數(shù)字人不同的是,此次興業(yè)證券推出的虛擬數(shù)字人“小知”,是業(yè)內(nèi)首款以自有員工為原型、集“播報(bào)+服務(wù)”于一體的真人數(shù)字分身。
整體來看,“小知”不僅從外形上深度還原了興業(yè)證券明星投顧的形象,更重要的是其口唇形、微表情與動(dòng)作也都達(dá)到了較高的仿真度與自然度。僅從屏幕上看,這樣的自然度幾乎與真人無異。
這一切的背后均離不開“火山語音”,在打造小知的過程中運(yùn)用了多項(xiàng)業(yè)界領(lǐng)先的核心技術(shù)。作為火山引擎金融虛擬數(shù)字人解決方案的技術(shù)提供方,火山語音通過使用行業(yè)領(lǐng)先的非自回歸模型的唇形生成網(wǎng)絡(luò),合成與輸入文本或語音完全匹配的唇形,準(zhǔn)確率高達(dá)98.55%;基于創(chuàng)新的Motion Graph技術(shù),能讓“小知”可以輕松做到毫秒級動(dòng)作切換延遲且自然無感知。為了讓“小知”的動(dòng)作更加自然,創(chuàng)新引入了style embedding動(dòng)作切換技術(shù),能做到毫秒級動(dòng)作切換延遲,達(dá)到動(dòng)作自然切換無感知。
值得一提的是,“小知”在火山語音業(yè)內(nèi)領(lǐng)先的端到端語音合成技術(shù)加持下,還具有開心、悲傷、驚訝、憤怒、恐懼、厭惡、平和等豐富的情感演繹能力,還可通過控制音色的重音、停頓等,賦予“數(shù)字人”多樣的語氣,實(shí)現(xiàn)笑聲、哭腔等非語言現(xiàn)象建模能力,讓AI演繹更貼近真人的同時(shí)為用戶提供更有溫度的服務(wù)。
據(jù)了解,在火山語音的AI虛擬員工解決方案支持下,火山引擎目前已建立了包括2D、3D卡通和3D超寫實(shí)在內(nèi)的虛擬數(shù)字人產(chǎn)品矩陣;從場景適配出發(fā),包括“播報(bào)型數(shù)字人”和“交互型數(shù)字人”兩種類型。
其中播報(bào)型數(shù)字人,即輸入文本或語音,就可生成自然生動(dòng)的數(shù)字人播報(bào)視頻;交互數(shù)字人作為播報(bào)型數(shù)字人的形態(tài)升級,依托于火山語音長期積累的成熟語音交互技術(shù),可以做到“善聽”、“會說”、“能想”,與用戶面對面實(shí)時(shí)交互。交互數(shù)字人集成了全雙工語音交互鏈路,前向兼容語音以及文本輸入,后向兼容2D與3D數(shù)字人表現(xiàn)力,整體端到端交互延遲在500ms左右,性能效果達(dá)到業(yè)內(nèi)領(lǐng)先水平。
目前該方案已經(jīng)具備標(biāo)準(zhǔn)平臺的快速交付能力,面向金融、大消費(fèi)、泛互等行業(yè)提供涵蓋“金融客服”、“智慧導(dǎo)覽”、“智能助理”、“虛擬直播”等場景細(xì)分解決方案,為用戶帶來全新的互動(dòng)服務(wù)和便捷體驗(yàn)。而且顯然的是,火山語音這樣類似助力興業(yè)證券打造虛擬數(shù)字人的技術(shù)解決方案,未來可以廣泛運(yùn)用到各個(gè)領(lǐng)域之中,不止是金融行業(yè)。