當你在直播平臺上與主播互動、在視頻會議中侃侃而談,亦或是在線K歌與友人對唱時,實時互動(RTE)云服務就在不知不覺中入侵了你的生活。
近日,聲網(wǎng)發(fā)布的首個RTE賽道的全景報告—《實時互動場景創(chuàng)新生態(tài)報告》,報告顯示:實時互動作為一種未來數(shù)字生活的基礎設施,其賽道潛力不亞于人工智能、大數(shù)據(jù)、區(qū)塊鏈等專業(yè)技術(shù)賽道,預計2025年,RTE行業(yè)將是千億規(guī)模市場,5年內(nèi)復合增長率將達40%以上。
實時互動在為參與者提供便捷的遠程服務的同時,亦為行業(yè)注入了新的發(fā)展機遇。
根據(jù)聲網(wǎng)對國內(nèi)幾大應用商店在教育、泛娛樂、購物、金融、醫(yī)療、企業(yè)通訊等行業(yè)的近萬個應用進行統(tǒng)計,2021年實時音視頻滲透率已突破30%。
技術(shù)驅(qū)動實時音視頻爆發(fā)
“賣話筒的都開始拓展音視頻業(yè)務了!币晃恢蹙W(wǎng)友吐槽道。
毋庸置疑,實時音視頻市場正處于一個時代的風口之上。但其實早在2013年,以聲網(wǎng)為代表的玩家就開始探索實時音視頻技術(shù)。只是在此之前,由于網(wǎng)絡技術(shù)、通訊技術(shù)的不成熟,實時音視頻技術(shù)還“不盡人意”,以至于不被大眾所接受。
之后,在2015-2018年期間,PaaS、SaaS公司如雨后春筍般涌出,出現(xiàn)一波創(chuàng)業(yè)熱潮。這種商業(yè)模式的出現(xiàn)一定程度上讓創(chuàng)業(yè)者們發(fā)現(xiàn)了一些類似實時音視頻這樣的“利基市場”。尤其在2015年左右,行業(yè)投融資金額和數(shù)量達到局部高點。其中即購、網(wǎng)易云信、保利威等近40家企業(yè)在這期間入局實時音視頻賽道并先后完成融資。
真正的行業(yè)爆發(fā)得益于市場環(huán)境和技術(shù)發(fā)展的雙重加持。一方面在疫情的影響下,大眾對云辦公、云教育的需求大幅度上漲,短視頻、網(wǎng)絡直播更是成為全民娛樂方式。另一方面5G、AI、音視頻編解碼、IoT等技術(shù)得到了突飛猛進的發(fā)展,讓實時互動在社交、辦公、娛樂、教育、工業(yè)等各行各業(yè)中快速落地,更多的創(chuàng)新場景被解鎖。
在實時互動這樣一個全新的賽道,聲網(wǎng)Agora成為了領域內(nèi)首家且唯一一家上市企業(yè)。根據(jù)第三方國際分析機構(gòu) IDC 最新出爐的《中國視頻云市場跟蹤(2021 上半年)》報告,詳細調(diào)查了在中國音視頻RTC 技術(shù)領域的廠商份額,最終的結(jié)果是:聲網(wǎng) Agora 以 43.4% 的占比蟬聯(lián)市場份額第一,2021 年上半年份額甚至大于 2-8 位廠商的總和!
實時互動賦能行業(yè)場景創(chuàng)新
2021年9月,聲網(wǎng)推出了在線K歌房場景化解決方案,開發(fā)者與企業(yè)可一站式接入海量正版曲庫與K歌組件、場景功能,快速構(gòu)建在線K歌房。
聲網(wǎng)通過對音頻在采集端/播放端以及編解碼等環(huán)節(jié)的延時優(yōu)化,最終實現(xiàn)了低至 64ms 端到端延時的多人實時合唱體驗。作為對比,即構(gòu)為多人合唱提供的方案,端到端延遲是76ms。
最有想象力的還是其場景化設置,聲網(wǎng)通過提供九大場景化功能豐富了K歌的形式,繼而在當前的社交趨勢下延伸出對桌游、語音直播嵌入歌房甚至相親等形式的良好支持,探索了社交的新可能,打破商業(yè)模式單一的尷尬。
但如果你以為實時互動的運用場景只限于此,那就大錯特錯了,實時互動的大手早已伸向各個行業(yè)。
在2021年的RTE大會上,聲網(wǎng)總結(jié)和梳理了 20多個行業(yè)賽道以及超過 200 個行業(yè)場景,并重磅推出“RTE 萬象圖譜”。其中在社交、直播、教育、會議等領域已初步形成成熟場景,并且未來將長期存在。此外,也有大量遠超成熟場景的新萌芽場景,例如線上展會、云演唱會、在線自習室、視頻辦醫(yī)保、互動播客等等。從圖譜中可以觀察到,泛娛樂行業(yè)50+場景、教育行業(yè)30+場景、IoT行業(yè)20+場景,分別成為圖譜中場景數(shù)量最多的前三大行業(yè)。
作為RTE萬象圖譜中場景數(shù)量占比最高的泛娛樂行業(yè),“社交+”場景正不斷拓展,依靠RTE連接原本單一的場景,消費者在虛擬與現(xiàn)實兩大層面都能獲得真切的體驗。比如在游戲中舉辦虛擬演唱會,連接音樂受眾;虛擬KTV,社交、音樂、XR融的跨界融合;線上演藝的發(fā)展等等等等,在生活當中仍有諸多實時互動創(chuàng)新場景可以挖掘。
實時音視頻亟待解決的痛點
在產(chǎn)品與應用之下,實時音視頻的底層技術(shù)主要涉及音頻、視頻與網(wǎng)絡傳輸?shù)取O胍峁﹥?yōu)異的實時音視頻互動能力,技術(shù)廠商就必須要在這些底層技術(shù)上做出改進和創(chuàng)新,站在音視頻技術(shù)發(fā)展的前沿,甚至引領音視頻技術(shù)的發(fā)展。
但對于正處于高速發(fā)展的音視頻賽道而言,發(fā)展過程中也面臨諸多困境。
首先是低延遲,如果要實現(xiàn)比較流暢的實時互動,那么單向的端到端的遲延大概要在400毫秒以下才能保證流暢溝通。但事實上多個階段的數(shù)據(jù)處理、傳輸?shù)倪^程中都會產(chǎn)生延遲,這個數(shù)值很難達到。
在實際環(huán)境中,還要考慮邊緣節(jié)點的部署、主干網(wǎng)絡擁塞、弱網(wǎng)環(huán)境、設備性能、系統(tǒng)性能等問題,所以實際的延時會更大。所以在網(wǎng)絡條件限制下,“低延時”以目前的技術(shù)很難達到最大化。
另外是回聲消除的問題,回聲的產(chǎn)生是揚聲器播放的聲音經(jīng)過環(huán)境反射被麥克風重新采集并傳輸給對方,這樣對方就會一直聽到自己的回聲,整個互動體驗會很差。
設備也會極大的影響回聲消除,比如國內(nèi)某手機廠商,從麥克風采集音頻數(shù)據(jù)到提交中間有將近一百毫秒的延遲,這時回聲消除算法如何適應這么長回聲延遲的手機就很關(guān)鍵。再比如很多用戶在直播中都會用外置聲卡,甚至是模擬器,這無形中也會帶來回聲的延遲。
除了設備,場地同樣存在很大的相關(guān)性,對于普通會議室,設置 40米的回聲延遲可能已經(jīng)足夠了,但一些大會場這種回聲延遲能達到將近上百米,這也是一種挑戰(zhàn)。
除此之外,音視頻賽道目前在流暢性、海量并發(fā)等諸多方面仍存在技術(shù)痛點,亟待解決。