聲學(xué)前端技術(shù)獲突破 聲加科技重新定義智能語(yǔ)音時(shí)代
? 近日, GfK全國(guó)零售監(jiān)測(cè)數(shù)據(jù)顯示:在剛剛過(guò)去的8月份,中國(guó)智能音箱出貨量45萬(wàn)部,盡管已經(jīng)超過(guò)2017同期一個(gè)季度的銷量,但第三季度國(guó)內(nèi)智能音箱市場(chǎng)呈現(xiàn)下跌。而據(jù)GFK預(yù)測(cè),第四季度智能音箱將伴隨“國(guó)慶”“雙十一”“雙十二”等節(jié)日促銷而爆發(fā),最終實(shí)現(xiàn)全年900萬(wàn)部的出貨量,是去年的6倍。?
? ? ?? 作為物聯(lián)網(wǎng)人工智能的入口,智能語(yǔ)音產(chǎn)品已成為全世界最有錢的科技巨頭們的必爭(zhēng)之地。據(jù)中國(guó)語(yǔ)音產(chǎn)業(yè)聯(lián)盟數(shù)據(jù)顯示,目前全球智能運(yùn)營(yíng)市場(chǎng)規(guī)模已達(dá)到105億美元。隨著個(gè)人及家庭用戶的多場(chǎng)景支持,各領(lǐng)域應(yīng)用帶動(dòng)下的智能語(yǔ)音產(chǎn)業(yè)規(guī)模持續(xù)快速增長(zhǎng),預(yù)計(jì)2018年全球智能語(yǔ)音市場(chǎng)規(guī)模將超過(guò)140億美元 。
? ? ? ? 據(jù)聲加科技創(chuàng)始人兼CEO邱鋒海介紹,在萬(wàn)物互聯(lián)的今天,信息交互工具經(jīng)歷了物理手柄按鍵到鍵盤(pán)鼠標(biāo),到觸摸屏,再到麥克風(fēng)等語(yǔ)音設(shè)備的發(fā)展,終于將人類最簡(jiǎn)單自然的交流方式——聽(tīng)和說(shuō),隨處可見(jiàn)地應(yīng)用到了日常工作和生活中。目前隨著深度學(xué)習(xí)的引入以及在此基礎(chǔ)上派生的各類模型的組合,語(yǔ)音識(shí)別準(zhǔn)確率確實(shí)得到了大幅度提升,智能音頻設(shè)備也呈現(xiàn)出多樣化和日常化。這些產(chǎn)品雖然大大普及了公眾對(duì)語(yǔ)音交互的認(rèn)知和使用,但實(shí)際上由于真實(shí)場(chǎng)景使用下的復(fù)雜、不同設(shè)備體積限制對(duì)算力的要求等因素,語(yǔ)音產(chǎn)業(yè)的發(fā)展仍然受技術(shù)瓶頸的限制尚處在起步階段,業(yè)界依然共同面臨許多技術(shù)難題。?
據(jù)了解,智能語(yǔ)音產(chǎn)品完成一次人機(jī)交互,需要經(jīng)過(guò)四個(gè)主要技術(shù)環(huán)節(jié):語(yǔ)音前端處理、語(yǔ)音識(shí)別、自然語(yǔ)言理解以及語(yǔ)音合成,即從聲音的拾取到轉(zhuǎn)換成文字,到理解其含義并作出反饋,再到將反饋說(shuō)出。經(jīng)過(guò)多年的技術(shù)積累,語(yǔ)音識(shí)別和語(yǔ)音合成已經(jīng)獲得突破,目前基本可以滿足商用。而語(yǔ)音前端處理和自然語(yǔ)言理解依然是語(yǔ)音交互的核心瓶頸。?
邱鋒海表示,雖然各項(xiàng)技術(shù)獨(dú)立發(fā)展,但從產(chǎn)品上無(wú)法割裂,同時(shí)需要在其它技術(shù)的配合下,才能形成完整鏈條具備市場(chǎng)化的終端產(chǎn)品。 目前的BAT、小米、京東、華為等巨頭企業(yè),基本是從語(yǔ)音識(shí)別、語(yǔ)義理解應(yīng)用后兩個(gè)環(huán)節(jié)切入。這主要源于語(yǔ)音識(shí)別算法開(kāi)源,技術(shù)相對(duì)普及,而巨頭們的海量數(shù)據(jù)和強(qiáng)大算力支撐有足夠的優(yōu)勢(shì)。但作為流程第一步的聲學(xué)前端處理產(chǎn)品,因?yàn)榻逃h(huán)境下人才的斷層和稀缺(此前工程類項(xiàng)目多在科研院所)而有極高的技術(shù)門(mén)檻,因此,專注這個(gè)環(huán)節(jié)的企業(yè)基本集中在有中科大、聲學(xué)所、自動(dòng)化所等科研背景的初創(chuàng)企業(yè)中。?
聲加科技成立于今年年初,創(chuàng)始人兼CEO邱鋒海本科就讀于清華大學(xué),碩士期間在中科院聲學(xué)所深造,畢業(yè)后長(zhǎng)期在聲學(xué)芯片企業(yè)工作,曾帶領(lǐng)20余人的研發(fā)團(tuán)隊(duì)完成了世界級(jí)知名企業(yè)的音頻處理芯片算法部分的開(kāi)發(fā),對(duì)聲學(xué)算法的工程實(shí)現(xiàn)、算法和芯片的結(jié)合等方面具有豐富的經(jīng)驗(yàn);CTO王之禹,中科院聲學(xué)所博士后,長(zhǎng)期從事語(yǔ)音信號(hào)處理和識(shí)別研究工作,實(shí)現(xiàn)多個(gè)科研項(xiàng)目的產(chǎn)業(yè)化,具有豐富的研發(fā)和企業(yè)合作經(jīng)驗(yàn);首席算法科學(xué)家鄭成詩(shī),聲學(xué)所研究員,德國(guó)埃爾朗根-紐倫堡大學(xué)客座教授,長(zhǎng)期從事語(yǔ)音和音頻信號(hào)處理研究工作,曾作為項(xiàng)目負(fù)責(zé)人帶領(lǐng)團(tuán)隊(duì)完成多個(gè)科研項(xiàng)目,并創(chuàng)新性地提出許多解決方案。?
其核心團(tuán)隊(duì)成員大多師出聲學(xué)所同門(mén),平均在業(yè)界擁有超過(guò)十五年工作經(jīng)驗(yàn),博士以上學(xué)歷人員占比80%以上。在公司成立以前,團(tuán)隊(duì)已有為國(guó)內(nèi)多個(gè)巨頭企業(yè)的智能音箱、智能耳機(jī)等明星產(chǎn)品提供遠(yuǎn)場(chǎng)麥陣模組設(shè)計(jì)方案、智能耳機(jī)麥陣算法、智能耳機(jī)模組等實(shí)戰(zhàn)項(xiàng)目經(jīng)驗(yàn),完全具備市場(chǎng)化營(yíng)運(yùn)能力。隨著公司的成立,將逐漸嘗試將最先進(jìn)的技術(shù)應(yīng)用在新產(chǎn)品上。目前,聲加科技的產(chǎn)品規(guī)劃分三個(gè)階段:第一步,為智能語(yǔ)音交互設(shè)備和通信設(shè)備提供語(yǔ)音前端處理算法。第二步,在之前工作的基礎(chǔ)上,推出語(yǔ)音處理專用芯片。第三步,則是在語(yǔ)音處理專用芯片的基礎(chǔ)上,開(kāi)發(fā)出各類麥克風(fēng)陣列模組,給客戶提供語(yǔ)音前端處理的整體解決方案。當(dāng)前第一階段的算法產(chǎn)品已經(jīng)通過(guò)了一些國(guó)內(nèi)大廠的驗(yàn)證,即將量產(chǎn);芯片和模組產(chǎn)品也在快速推進(jìn)當(dāng)中。同期與國(guó)內(nèi)巨頭合作的二代產(chǎn)品也將在下半年陸續(xù)上市,將成為其瘋狂增長(zhǎng)的生態(tài)鏈中的重要一環(huán)。?
據(jù)邱鋒海和聲加團(tuán)隊(duì)的恩師,我國(guó)空氣聲學(xué)領(lǐng)域著名科學(xué)家、中國(guó)科學(xué)院聲學(xué)研究所研究員/博士生導(dǎo)師李曉東介紹,聲學(xué)前端技術(shù)在語(yǔ)音交互獲得突破之前,一直是冷門(mén)學(xué)科,學(xué)科設(shè)置非常少,全國(guó)每年畢業(yè)的博士總共不超過(guò)20人,每個(gè)博士最多也只專攻某一兩個(gè)細(xì)分的技術(shù)方向。而且聲學(xué)前端技術(shù)屬于應(yīng)用類學(xué)科,需要大量的課題、項(xiàng)目來(lái)積累,培養(yǎng)一個(gè)聲學(xué)方面的專業(yè)人才,往往需要四五年甚至更長(zhǎng)時(shí)間。因此,長(zhǎng)期以來(lái),從事聲學(xué)前端處理技術(shù)的高端人才都集中在國(guó)家相關(guān)科研院所內(nèi)。即使對(duì)于不差錢的巨頭們,組建一個(gè)有實(shí)力的聲學(xué)前端處理技術(shù)的團(tuán)隊(duì)也并非易事。?
李曉東表示,盡管目前市場(chǎng)增勢(shì)良好,但現(xiàn)有聲學(xué)技術(shù)仍然處于商業(yè)初級(jí)應(yīng)用階段,距離用戶滿意還有相當(dāng)大的距離。比如以Siri為代表的近場(chǎng)語(yǔ)音識(shí)別要求必須是低噪聲、無(wú)混響、距離聲源很近的場(chǎng)景,用戶一定要對(duì)著手機(jī)講話才能獲得符合近場(chǎng)語(yǔ)音識(shí)別要求的聲音信號(hào),環(huán)境稍微嘈雜一點(diǎn)語(yǔ)音識(shí)別引擎就失靈了;而以智能音箱為代表的遠(yuǎn)場(chǎng)語(yǔ)音識(shí)別場(chǎng)景下,依然存在誤喚醒,方言、童音識(shí)別不準(zhǔn)以及聲源移動(dòng)中的識(shí)別率低下等問(wèn)題。這些限制都需要聲學(xué)前端處理技術(shù)不斷改善,實(shí)現(xiàn)噪聲抑制、混響去除、人聲干擾抑制、聲源測(cè)向、聲源跟蹤、陣列增益等功能,提升語(yǔ)音信號(hào)處理質(zhì)量,進(jìn)而提高各種環(huán)境下的語(yǔ)音識(shí)別率。這也是聲加團(tuán)隊(duì)要致力突破的方向。?
據(jù)了解,此前聲加科技因其技術(shù)優(yōu)勢(shì)和人才儲(chǔ)備已獲得中科創(chuàng)星千萬(wàn)級(jí)和萬(wàn)魔聲學(xué)數(shù)百萬(wàn)級(jí)的天使輪融資;同時(shí)與萬(wàn)魔聲學(xué)成為戰(zhàn)略合作伙伴,二者會(huì)在智能音頻設(shè)備上持續(xù)聯(lián)創(chuàng)。隨著產(chǎn)品的上市和進(jìn)一步研發(fā)的需要,目前聲加科技正在進(jìn)行下一輪融資。?
萬(wàn)魔聲學(xué)CTO黎懋紘透露,聲加科技提供的語(yǔ)音增強(qiáng)技術(shù)(ENC),在導(dǎo)入產(chǎn)品后很短時(shí)間之內(nèi),便成功在各項(xiàng)指標(biāo)上超越現(xiàn)有產(chǎn)品的水平。這不但幫助萬(wàn)魔在幾項(xiàng)熱點(diǎn)產(chǎn)品上迅速提升市占,也為聲加科技營(yíng)造了新創(chuàng)公司難得的聲勢(shì)和發(fā)展的動(dòng)能。同時(shí)他強(qiáng)調(diào),除優(yōu)秀的技術(shù)實(shí)力之外,聲加科技核心團(tuán)隊(duì)早已經(jīng)過(guò)多年的協(xié)作,志同道合、默契十足,是一支專業(yè)、熱情、高效、有凝聚力的隊(duì)伍。?
最后,邱鋒海從技術(shù)角度對(duì)行業(yè)表達(dá)出期望,“一直以來(lái),人機(jī)交互充滿了想象,未來(lái)甚至可能和機(jī)器視覺(jué)、腦科學(xué)等融合,實(shí)現(xiàn)電影里的酷炫畫(huà)面。目前只有先解決語(yǔ)音識(shí)別的這些技術(shù)瓶頸,才能進(jìn)一步有所作為。”