分享到微信
?
科技 作者:鹿鳴財經 2021-01-07 17:44
[億歐導讀]

智能語音的應用場景正在突破常規的想象力,對于久久不能利用音箱業務破局的智能語音企業而言,無疑是打開了另一扇窗,也必將是2021年的重要趨勢。

音箱

題圖來自“公開圖片”

文 | 周有輝

編輯 | 建東

出品 | 鹿鳴財經


智能語音還會是AI時代的入口嗎?

播客《故事FM》曾經在2020年7月份做過一檔與微軟小冰對話的節目,節目中首曝微軟內部版本「小冰F201」。相比于被閹割的公版智能語音,「小冰F201」細膩的語調和音色,與真人不分軒輊的語氣用詞,說話時的抑揚頓挫,足以讓聽眾難辨真假。


未見其人,先聞其聲,自2017年蘋果發布智能音箱以來,語音交互就被認為是AI時代的第一入口,成為京東、百度以及阿里競相追逐的香餑餑,他們指望用低價+補貼的互聯網打法搶占市場。但隨著人工智能發展,語音交互卻不再性感了,就大多數用戶習慣而言,需求仍然局限在家庭和車載場景,難以像iPhone出現伊始那樣,產生革命性的影響。

直到2020年,肇始于新冠疫情的嚴峻形勢,產業再次風起云涌。無接觸交互的要求讓智能語音走向了臺前,而這項技術也隨著疫情常態化愈發成熟,在安靜的近場場景下,語音識別的準確率已經普遍高達98%。

就在新一年的1月3日,沈陽市疾控中心啟用了AI語音撥打問詢系統,對特定時間內進入醫療機構37萬余人的身體狀況和隔離情況進行甄別,AI語音在搜索未隔離的發熱人員任務上不負眾望,共發現新增密接24人,1例陽性感染者。

與此同時,遠程辦公和醫療的場景也催生了會議語音轉寫、專業領域語音助理的特定需求,進而形成了龐大的專業級智能語音市場。

這都讓我們看到,智能語音的應用場景正在突破常規的想象力,對于久久不能利用音箱業務破局的智能語音企業而言,無疑是打開了另一扇窗,也必將是2021年的重要趨勢。

壹 音箱、家居、汽車,智能語音何以落地

過去五年間,智能語音的需求最先在消費級市場爆發,靠著互聯網及智能設備廠商加大語音識別的經費投入,價格補貼戰就像一管強心針扎進了市場。

奧維云網(AVC)數據顯示,2020年H1中國智能音箱市場銷量為1908.6萬臺,同比增長22.7%。阿里、百度、小米三足鼎立,行業集中度態勢明顯,三家企業份額占比高達95.6%,中小玩家的生存空間不斷被壓縮,2019年形成的馬太效應竟延續至今。

2020年H1中國智能音箱市場主要品牌銷量份額

數據來源:奧維云網(AVC)推總數據

2020年初,阿里巴巴將天貓精靈業務升級為獨立事業部;5月,天貓精靈戰略變陣,以期打造內容、服務及AIoT生態。緊鑼密鼓的市場動作,表明阿里對天貓精靈前景的重視,而天貓精靈坐擁渠道資金、眾多合作伙伴等優勢因素。2020年上半年天貓精靈市場占比達到34.7%,持續保持行業領航者的地位。

與從產業切入的阿里不同,小米依托多年布局的生態鏈,激活了龐大的用戶群、海量數據和應用場景,以此初步構建自有IoT生態。

中國智能音箱市場分月度銷量

 數據來源:洛圖科技 單位:萬臺

在20年初,雷軍確定了“手機+AIoT”的雙引擎戰略,把硬件產品放到與手機同等重要的位置上。作為AIoT生態的入口級產品,智能音箱是戰略的先遣隊,借助豐富渠道、生態鏈聯動等優勢,2020年H1小米線上銷量同比增長52.3%。

「All in AI」的百度自然也沒有落下這波浪潮,早在2019年,憑借高品質的硬件產品、相對領先的AI技術實力,百度在智能音箱行業中快速取得話語權。2020年上半年,百度連續發布三款帶屏音箱,繼續鞏固了自身屏幕音箱領域的領先地位。

三家企業互相競爭的底層邏輯并無不同,音箱一度被認為是喚醒智能家居的重要一環,以此聯動整個AI生態。但是,整個行業面臨的痛點至今仍未解決,音箱設計落入了APP式思維的窠臼,由于多個服務平臺鼎足而立,相互掣肘,只能形成局部范圍內的智能家居生態體系。

正如CSHIA(智能家居產業聯盟)所分析,智能家居未能破局的原因在于,一是沒有一家企業可以提供智能家居全系產品,二是沒有統一的互聯互通標準協議。“這顯然束縛了智能語音的使用場景,用戶體驗相當割裂”。

但2020年值得注意的變化是,隨著國產電動汽車的崛起,從車載語音切入成為語音交互落地的新風向標。作為電動車企新勢力之一,CEO何小鵬就曾在小鵬P7發布會上表示,“未來車內最好的交互方式就是語音交互”,正是這個原因,小鵬押注了智能語音助手,與智能語音公司思必馳合作,構建一套相對成熟的語音系統。

資本市場也敏銳地察覺到了這一趨勢。在2020年4月7日,思必馳完成了E輪4.1億元融資,由國調國信智芯領投,北汽產投等跟投。11月初,智能語音行業“元老級”選手云知聲,在資本寒冬中遞交科創板上市招股說明書,計劃沖擊“智能語音第一股”。

據調研機構Research and Markets統計,截至2020年9月,車載語音安裝率達到了64.8%。從價格區間來看,30-50萬元價格的汽車語音普及率較高,2020年前9個月保持在90%以上。

此外,從2020年的供應商格局來看,科大訊飛仍然坐擁市場頭把交椅,占有率超過三分之一。2020年年底,科大訊飛發布更新了智能語音體系,新增多項功能,完善了汽車語音交互的體驗。

在配套政策、市場需求的推動下,多方涌入的車載語音市場不斷擴大,BAT御三家已經開始了車載語音業務。其中,百度的發展速度較快,市場占有率超過5%,并與全球多個知名汽車品牌建立了合作關系。百度車聯網事業部總經理蘇坦認為,汽車智能化時代已經真正到來,未來2-3年,發展和變化會很迅速,這也是相關企業加快動作的原因。

消費級市場的繁榮為智能語音落地找到了更加多元化的場景,從業者都在翹首以待,在供應商和開發者共建產業生態圈的過程中,智能語音與其他軟件功能融合為消費者提供連通式的體驗。那一天將是行業革命的火種。

貳 專業級場景爆發,技術泛用尋求破局

騰訊云技術人員介紹了一個頗令人深思的案例,以一個擁有2000人的小區為例,如果依靠人工的話需要20個調查員,6個小時才能完成,而通過疫情防控聯絡服務1小時即可以完成排查。

的確,今年突發的疫情成功檢驗了智能語音的可靠性和穩定性,通過深度學習和神經網絡技術,智能語音也適應了更多復雜的使用場景,解決了專業級市場用戶的使用痛點。

所謂專業級市場的語音識別產品主要以兩種形式呈現:行業解決方案和平臺化技術輸出。由于后者的平臺建設仍處于燒錢擴張的階段,需要深耕垂直場景的行業解決方案收入占比更高,這其中包括了智慧醫療、智慧教育、司法政務以及智能客服領域。

例如,復工復產期間,為了保證疫后安全,智能語音在政務方面發揮了關鍵作用,如騰訊推出的“AI政務聯絡機器人”,可與轄區居民聯絡,完成政務信息的傳遞工作,彌補由于人力不足導致的疫情防控難問題。

同時,AI在醫療行業也有所助力,智能語音的應用主要有兩種:

①電子病歷語音錄入與轉寫、臨床報告語音錄入與轉寫。語音錄入在提高醫生工作效率和工作質量的同時,醫院方也可以科學管理診療過程和診療信息。

②隨著語音病歷的積累,利用大數據技術和深度學習技術能夠挖掘醫學案例語音資料的價值,實現智能輔助診療。

具體來說,智能語音的底層技術之一NLP(自然語言處理),其發展為研究人員提供了高效的手段處理數據量龐大、數據維度豐富的醫療數據,完善醫患之間智能交互和數據監測。單看2020年變化,大數據管理、語音錄入賽道的頭部企業開始尋求上市。

這條思路同樣在司法系統中得到實踐,基于自然語言處理技術,AI+智能客服對用戶輸入做語義分析,精確識別用戶的實際需求,然后據此在后臺知識庫中尋找最合適的答案。

這意味著,程式化的、重復性的訴訟咨詢工作可以交給智能客服程序自動應對,遇到復雜的用戶提問交轉給人工處理,能夠快速響應、有效回答用戶提問。

細數各個產業的背景不難發現,智能語音的應用思路都有一條大方向的主線,即如何更好地利用AI賦能產業,思考AI能為人帶來什么,而不是關注于AI本身。

事實上,這條主線在2017年國務院發布的《新一代人工智能發展規劃》就有所定調,文件中“開源開放”被確立為基本原則之一,并提出“構建開放協同的人工智能科技創新體系“的重點任務。

在商業環境瞬息萬變,企業間競合加深的大背景下,智能語音技術開放正在形成一個正反饋,場景需求產生數據,數據促進技術迭代,在行業的應用將逐步多樣化。

叁 智能語音還會是AI時代的入口嗎?

縱使智能語音在前述的多個場景得到應用,答案仍然很明確,不再是了。

說原因前,需要先回溯AI語音的上游技術領域,這里是互聯網巨頭逐鹿的戰場。

一個完整的對話交互是由“聽懂——理解——回答三個步驟完成的閉環,其中,“聽懂”需要語音識別技術;”理解“需要自然語言處理技術;“回答"需要語音合成技術。三個步驟環環相扣,相輔相成。語音識別技術是對話交互的開端,是保證對話交互高效準確進行的基礎。

再拋一個相對硬核的技術概念,語音識別解碼包含了兩個部分——聲學和語言模型的識別建模和模型訓練。

運行過程中,訓練數據量和計算量需求極大,傳統處理器往往無法快速單獨完成一個完整的模型訓練,無法滿足海量數據計算的實時性。所以,能提供海量數據處理、存儲以及高性能計算能力的云計算技術成為智能語音行業的應用熱點。

目前,主流智能語音公司的模型訓練和語音識別,基本是靠BAT御三家提供的云計算服務,底層技術的發展決定了未來智能語音的增長曲線。

事實上,在個別應用場景領域中,上游技術領域正在向下延伸,吃掉中游(科大訊飛、云知聲)商業化應用的市場?;谠朴嬎愕闹悄苷Z音技術應用市場,其銷售規模已近乎領先于頭部的基于傳統硬件廠商所服務的市場規模。

原因在于,大多數中小開發商傾向與”御三家“合作,從而在低成本的情況下,在平臺上獲取最前沿的云上智能語音技術和行業語音解決方案。過去一年,已有超過5萬家語音客戶與阿里云智能語音達成合作,覆蓋多行業場景,包括中國移動、中央電視臺、招商銀行在內的傳統行業的大型企業。

技術的迅速融合和多元化場景展現出了智能語音本身的弊端,谷歌交互設計師吳升知曾做過對比,語音控制的優勢在于更加直覺化和帶給用戶情感化的體驗,大大降低用戶學習成本,但線性的語音輸出反而束縛了交互方式本身,因此它無法同時輸出很多內容,這是語音最大的劣勢。

舉個直觀的例子,人們非常不愿意在公共場合與AI對話,因為不符合傳統的社交習俗,即便語音搜索更快,“你愿意在地鐵里用語音讓Siri給你播放喜歡的歌曲嗎”甚至是一句哲學意義上的天問。

從這一點來看,語音交互更多還是應用在家庭、汽車這樣相對私密的空間。行業的一個普遍共識是,交互設計時需要充分利用視覺與聽覺的互補性,智能語音是必不可少的一部分,但使用場景仍然非常有限,不太可能成為單一的AI入口,從目前的發展來看,多模態交互(多種技術融合)才是主導趨勢。

網易有道語音負責人孫艷慶此前接受采訪也談及,目前智能語音處在快速落地階段,除了常規單一技術的直接落地,更多的是深度結合業務場景的定制形態,甚至是多項技術組合的形式。

所以,智能語音是觀察AI商業化發展的一個切入視角,負責開發微軟小冰的沈向洋曾在2016年接受采訪時表示,語音的徹底主流化已經“不是一個需要討論的問題,只是一個時間和習慣轉移的問題”。

他當時預計,計算機語音識別在噪音和非噪音環境下,最多五年便可超越人類的識別率,視覺識別可能要十年左右。

時隔四年,智能語音的技術確實潛移默化地改變了我們的生活。但隨著AI進入更加多元化的生產和消費場景,智能語音已化為一道潛流,將融入即將到來的AI時代,融入到下一個仍在迷霧中的革命性交互體驗。

本文經授權發布,版權歸原作者所有;內容為作者獨立觀點,不代表億歐立場。如需轉載請聯系原作者。