從“邊罵邊用”到頭部玩家,未來智能完成了艱難的蛻變,團隊深刻總結(jié)出“5+X”法則。
正是憑借在垂直場景的深度耕耘、對藍牙底層協(xié)議的優(yōu)化,以及基于“viaim大腦”的硬件重構(gòu)理念,未來智能在巨頭環(huán)伺中構(gòu)筑起差異化的“護城河”,同時也吸引了資本的目光,該公司已完成包括啟明創(chuàng)投領(lǐng)投的Pre A+輪在內(nèi)的多輪融資。
近期,在世界人工智能大會(WAIC 2025)現(xiàn)場,觀察者網(wǎng)與未來智能CTO王松進行了深度對話。
這場對話,探討了未來智能如何從場景出發(fā),以AI+硬件的深度融合,在激烈的競爭中開辟屬于自己的航道,并堅定看好AI耳機在未來人機交互中的關(guān)鍵地位。
展望未來五年,王松也給出了鮮明判斷:智能眼鏡受限于供應(yīng)鏈成熟度、人體工學(xué)設(shè)計以及開放式耳機在噪音場景的固有短板,短期內(nèi)無法取代具備深度降噪等核心能力的耳機。
以下是對話實錄:
觀察者網(wǎng):眾所周知,硬件是AI落地的重要載體。今天,我們邀請到了國內(nèi)AI會議耳機頭部企業(yè)未來智能的CTO王松,請他與我們共同探討AI終端的未來發(fā)展趨勢。
王松:大家好,我來自未來智能。這是我第二次創(chuàng)業(yè),對我而言,這是一次全新開始。我此前的技術(shù)背景主要集中在軟件領(lǐng)域,這次創(chuàng)業(yè)則讓我踏入了硬件領(lǐng)域,這與我之前的經(jīng)歷形成了鮮明對比。因此,我非常榮幸能受邀與大家分享我的創(chuàng)業(yè)歷程以及行業(yè)最新進展。
觀察者網(wǎng):你們團隊中許多成員都來自軟件領(lǐng)域,之前與科大訊飛也有一定聯(lián)系,為何選擇獨立創(chuàng)業(yè)并進入AI硬件領(lǐng)域?
王松:我們團隊最初在科大訊飛內(nèi)部,最開始做的是一個名為靈犀的語音助手,這是一款純軟件的語音助手,始于2013年。當時,科大訊飛在國內(nèi)語音領(lǐng)域處于領(lǐng)先地位,而Siri自2011年推出后,我們2013年開始做軟件語音助手,也算是較早的嘗試。
在此期間,我們嘗試了通用語音助手,也涉足了多個垂直領(lǐng)域的語音助手,包括點歌、導(dǎo)航,甚至撥打電話等功能,與現(xiàn)在車機中的云助手相似。當時,已有部分用戶在汽車中使用我們的產(chǎn)品,盡管那時汽車行業(yè)尚未像如今的電動車那樣發(fā)達。在這個過程中,我們形成了一個判斷:未來人機交互的主要方式將是語音交互,我們對此深信不疑。
ChatGPT的出現(xiàn)進一步堅定了我們的想法。基于這一判斷,再加上當時科大訊飛已在一些垂直領(lǐng)域,如翻譯機、錄音筆等產(chǎn)品上嘗試用AI賦能硬件,雖然當時還未涉足耳機領(lǐng)域,但我們認為可以嘗試將AI與耳機結(jié)合。此外,耳機本身與語音有著天然的強關(guān)聯(lián),不易被手機替代,甚至我認為它永遠不會被手機取代,或許未來會被眼鏡替代,但那是另一個話題。綜合以上三點,我們最終選擇了AI與耳機結(jié)合的賽道。
觀察者網(wǎng):AI可以跟很多硬件結(jié)合,但你們率先選擇耳機,是不是最看好耳機這個賽道?
王松:這也要從我們團隊經(jīng)歷說起。2017至2018年,我們在科大訊飛內(nèi)部開始著手耳機項目,當時產(chǎn)品名為莫比斯耳機,如今仍可檢索到相關(guān)信息。該項目并不成功,原因在于當時整個供應(yīng)鏈尚未成熟。我們試圖在耳機中集成過多功能,甚至加入了心率傳感器,但受限于當時的技術(shù)條件,導(dǎo)致產(chǎn)品整體不夠成熟。直至2019年,我們才正式開啟iFLYBUDS系列的研發(fā)工作。從那時起,我們便開始積累相關(guān)技術(shù)經(jīng)驗。2019年,我們著手研發(fā)第一代耳機,但實話實說,當時的產(chǎn)品也并不成功,用戶在使用過程中確實提出了很多批評。由于第一代耳機存在諸多基礎(chǔ)性問題,比如藍牙連接不穩(wěn)定、單邊耳機無聲等,用戶體驗并不好。究其原因,我們在耳機研發(fā)方面經(jīng)驗不足,導(dǎo)致這些問題頻發(fā)。然而,耳機所搭載的AI功能卻受到了用戶青睞,因為它切實解決了用戶的一大痛點,讓用戶對其愛不釋手。
用戶在使用過程中,確實是邊用邊罵。因此,從產(chǎn)品本身的角度來看是不成功的。但從驗證使用場景角度來看,它卻非常成功,讓我們清晰地看到了未來的發(fā)展方向。當時,很多用戶在開會時使用這款耳機進行會議錄音,通過第一代產(chǎn)品的驗證,“辦公會議”這一使用場景已經(jīng)變得非常清晰。因此,我們在后續(xù)的產(chǎn)品研發(fā)中,針對這一場景不斷發(fā)現(xiàn)問題并加以改進。
觀察者網(wǎng):當時產(chǎn)品可能并不理想,用戶反饋對你們后續(xù)改進有哪些深刻的影響嗎?
王松:用戶在使用過程中反饋了許多問題,尤其是在開會時使用耳機進行錄音和記錄。在這個過程中,出現(xiàn)了諸如數(shù)據(jù)丟包、藍牙與手機之間的數(shù)據(jù)傳輸鏈路等問題。基于這些反饋,我們判斷這是核心的技術(shù)挑戰(zhàn),因為其他耳機廠商通常不會遇到這種情況,只有我們在嘗試將耳機用于此類場景時才會碰到。因此,我們圍繞這一點進行了深入研究和改進。我們專注于藍牙技術(shù),優(yōu)化藍牙底層通信協(xié)議,并與手機進行更好的配合,調(diào)整手機和藍牙耳機上的編碼解碼方式,以確保數(shù)據(jù)鏈路的高效和穩(wěn)定。通過這些努力,第二代產(chǎn)品在這些問題上取得了顯著改善,變得更加穩(wěn)定,基本解決了第一代產(chǎn)品中出現(xiàn)的丟包、斷聯(lián)、無聲等問題。
觀察者網(wǎng):當時總結(jié)起來還是要先把耳機本身做好?
王松: 我們總結(jié)了一個重要的經(jīng)驗,稱之為“5+X”經(jīng)驗。未來硬件產(chǎn)品都遵循類似的邏輯,只是不同的硬件產(chǎn)品前面的“N”可能不同。對于耳機來說,這五個基礎(chǔ)要素是:音質(zhì)、續(xù)航、降噪、佩戴和設(shè)計,缺少任何一個,耳機都很難在市場上取得成功。后面的“X”是我們所說的AI功能。只有當這五個基礎(chǔ)要素具備后,耳機作為一個基礎(chǔ)產(chǎn)品才能好用。再加上后面的“X”功能,即AI功能的加持,用戶才更有可能買單。
觀察者網(wǎng): 目前許多消費電子巨頭也在開發(fā)AI耳機,比如蘋果、小米等,他們都在將AI技術(shù)與硬件結(jié)合。而且從AI技術(shù)本身來看,很多技術(shù)都是開源的。如果企業(yè)都能輕易地將AI與硬件結(jié)合,那你們?nèi)绾螛?gòu)建自己的護城河?
王松:我也常被投資者問及這個問題。從AI本身來看,大家對AI的共識是存在的。以目前流行的Agent為例,大家對Agent的共識是:大模型作為大腦,需要有記憶功能,并且能夠幫助用戶真正落地完成任務(wù)。但Agent如何應(yīng)用、在哪些場景中應(yīng)用,則是百花齊放的。因為每一家的Agent都不一樣,盡管底層的幾個關(guān)鍵點是共性的。回到AI耳機或AI硬件,邏輯也是一樣的。AI耳機必須具備基礎(chǔ)能力,比如識別、翻譯、合成以及大模型等。但將這些能力應(yīng)用到哪些場景中,每個耳機廠商的做法都不一樣。以我們的耳機為例,主打場景,至少在國內(nèi)甚至全球范圍內(nèi)都沒有競爭對手,因為我們對這些垂直場景的理解是最深的。
我們既沒有護城河,又擁有很深的護城河。說沒有護城河,是因為對于全球任何一家公司來說,現(xiàn)在的技術(shù)都是共通的。大模型這種高深的技術(shù),中國也能迅速趕上,OpenAI前幾年處于領(lǐng)先地位,但如今也被趕超了。作為一家創(chuàng)業(yè)公司,我認為所謂的技術(shù)護城河是不存在的。但我們的護城河又很深,對特定場景的理解,可能大公司不愿意涉足,因為它們太小眾;而對于小公司來說,想要進入又很難,尤其是涉及硬件和對場景的深度理解。我們在藍牙協(xié)議層、通訊層做了很多優(yōu)化工作,要做好這一點其實非常困難。所以,我認為我們的護城河很深。對于AI加硬件,我認為還是要從場景出發(fā),基于場景去做硬件。
觀察者網(wǎng):深耕這些垂直場景,是不是會給你們積累更多經(jīng)驗和數(shù)據(jù),從而為AI在垂直領(lǐng)域的應(yīng)用帶來優(yōu)勢?
王松:是的。雖然現(xiàn)在大模型能力很強,但它所具備的數(shù)據(jù)大多是公開的公域數(shù)據(jù),大模型并不具備私域數(shù)據(jù)。這也是為什么大家都在做垂直領(lǐng)域的大模型。無論是金融、法律還是醫(yī)療領(lǐng)域,這些垂直領(lǐng)域的私域數(shù)據(jù)加上大模型的能力,可以打造一定的數(shù)據(jù)壁壘。未來,數(shù)據(jù)從一定層面上來講是一家公司的核心資產(chǎn)。底層技術(shù)其實都相通,基于這些數(shù)據(jù)再加上大模型,我們?nèi)绾握{(diào)優(yōu)、如何為用戶提供更個性化的服務(wù),這是我們未來需要考慮的問題。
觀察者網(wǎng):目前你們產(chǎn)品底層AI能力是如何構(gòu)建的?現(xiàn)在很多硬件產(chǎn)品都采用端云協(xié)同的路線,你們是如何做的?
王松:我們的底層路線也類似,今年5月的發(fā)布會上提出了“一腦多端”的戰(zhàn)略。我們的產(chǎn)品包括耳機和PC端使用的一個硬件產(chǎn)品Kit,這兩個產(chǎn)品可以聯(lián)動,大腦就是viaim大腦,可以簡單理解為背后的大模型。不同的硬件接入到這個大模型中,端側(cè)收集的數(shù)據(jù),就像我們剛才提到的私域數(shù)據(jù),進入大腦。大腦為各個端的硬件提供統(tǒng)一服務(wù),不同端之間也會聯(lián)動。
比如耳機和Kit,以及未來我們將推出的其他形態(tài)的硬件,它們之間會有許多協(xié)同配合。我舉個例子,現(xiàn)在智能眼鏡很火,但它具備耳機功能,其實是一種開放式耳機。不過,目前眼鏡的續(xù)航、重量、佩戴舒適度等方面還達不到普通眼鏡的標準。所以,是否可以將眼鏡的部分功能,比如開放式耳機功能,與我們的耳機匹配起來?這樣眼鏡本身可以做到更輕,佩戴起來也不會那么難受。我們會從用戶場景和體驗出發(fā),優(yōu)化硬件端的佩戴體驗。
觀察者網(wǎng):是否可以理解為,不應(yīng)該將所有功能集中在一個終端上,未來將是多終端的發(fā)展趨勢?
王松:我認為未來5到10年內(nèi)需要多終端的配合,耳機肯定需要視覺能力的配合。但目前眼鏡的供應(yīng)鏈還不成熟,只能主打某一場景,無法像手機那樣通用。所以,我判斷未來至少在5年內(nèi),穿戴式硬件仍將聚焦于某一場景。但5到10年后,隨著技術(shù)、供應(yīng)鏈的成熟,可能會出現(xiàn)下一代通用的計算平臺,像現(xiàn)在的手機一樣,適用于任何場景。
觀察者網(wǎng):是否可以理解為,眼鏡供應(yīng)鏈現(xiàn)階段還不成熟,所以讓眼鏡做它擅長的事情,耳機做耳機擅長的事情?
王松:很多人問我,未來眼鏡是否會替代耳機?我認為在未來5年內(nèi),這種情況不會發(fā)生。耳機目前具備的一些功能,如降噪功能,是眼鏡目前無法實現(xiàn)的。例如,在地鐵或飛機上,開放式耳機由于其特性,很難讓用戶清晰地聽到聲音。因此,在這些場景下,耳機仍然具有不可替代性。然而,5年之后,隨著供應(yīng)鏈和技術(shù)的成熟,眼鏡可能會通過人體工學(xué)設(shè)計等方式整合耳機功能,從而替代耳機。但至少在短期內(nèi),我認為這種情況不會出現(xiàn)。
觀察者網(wǎng):如何理解viaim大腦的技術(shù)架構(gòu)?與純軟件方案本質(zhì)上有哪些差異?
王松:作為一家硬件公司,在設(shè)計大腦架構(gòu)時,我們更多地從硬件層面出發(fā)。以耳機為例,上一代耳機在硬件結(jié)構(gòu)和算法設(shè)計上,并未考慮AI功能。傳統(tǒng)耳機主要為人耳聽音設(shè)計,只要通話清晰即可。例如,在嘈雜環(huán)境中打電話,只要對方能聽清聲音就行。但AI耳機不同,它是人類與AI交互的入口。以我佩戴的AI耳機為例,它只需讓AI聽清、聽懂我的話,人耳是否能聽清并不重要。從數(shù)據(jù)鏈路、協(xié)議到藍牙協(xié)議層面,都需要做出改變以適應(yīng)AI耳機。以ENC算法為例,它會影響語音識別算法的準確性。如果識別算法不準確,轉(zhuǎn)錄的文字不準確,輸入到大模型中的數(shù)據(jù)也會不準確,從而導(dǎo)致生成的答案不準確。因此,在設(shè)計大腦架構(gòu)時,我們從硬件層面出發(fā),優(yōu)先考慮讓AI能夠聽懂。我們也希望國內(nèi)大廠能推動國際藍牙聯(lián)盟從底層協(xié)議層面做出改變,因為當前的藍牙協(xié)議已不適應(yīng)AI耳機發(fā)展。
觀察者網(wǎng):說到藍牙協(xié)議,國內(nèi)很多企業(yè)正在組成了星閃聯(lián)盟,你們有與他們接觸嗎?
王松:華為的星閃協(xié)議本質(zhì)上是從2.4G鏈路出發(fā),優(yōu)化藍牙和Wi-Fi(兩者均為2.4G協(xié)議)的傳輸效率,但并未從大模型層面思考問題。具體來說,藍牙耳機工作時有兩種狀態(tài):通話狀態(tài)(HFP)和聽歌狀態(tài)(HDP)。我認為還應(yīng)增加第三種協(xié)議,即AI語音協(xié)議。這種協(xié)議從語音數(shù)據(jù)進入耳機開始就不一樣,其數(shù)據(jù)收集方式就應(yīng)與通話和聽歌不同,是從協(xié)議底層開始改變。星閃協(xié)議并未從這一層面出發(fā),而是側(cè)重于優(yōu)化數(shù)據(jù)鏈路本身的傳輸效率,因此與我們的需求有所不同。
觀察者網(wǎng):星閃協(xié)議與藍牙協(xié)議可以說各有優(yōu)勢?
王松:是的,它們各有優(yōu)勢。
觀察者網(wǎng):AI會議耳機可能會涉及一些敏感場景,如商務(wù)辦公可能會涉及商業(yè)機密。在具體應(yīng)用場景中,你們?nèi)绾翁幚硇逝c隱私安全的問題?
王松:隱私問題確實是許多用戶,包括我們自身都非常關(guān)心的。隨著智能設(shè)備時代的到來,大家對隱私關(guān)注度越來越高,無論在海外還是國內(nèi)。未來,穿戴設(shè)備可能會處于“始終在線”的狀態(tài),例如我們的耳機可能會24小時在線,持續(xù)收集周圍的聲音和視覺數(shù)據(jù)。以智能眼鏡為例,其拍攝功能可能在無意識、不知情的情況下侵犯他人隱私。
從隱私保護角度來看,我們主要從兩個層面考慮。首先是技術(shù)層面,我們采用了端到端的加密保護措施。從語音數(shù)據(jù)進入耳機的那一刻起,就會進行加密處理,一直到手機端、云端,再返回耳機,整個鏈路都進行了加密。這是技術(shù)層面的保障,我們也在使用業(yè)內(nèi)先進的加密算法。其次是制度和人性層面。許多用戶會問,使用我們的耳機錄制會議后,員工是否會查看會議數(shù)據(jù),這是一個很自然的問題。但我們認為,用戶對品牌的信任至關(guān)重要。例如,大家在使用騰訊會議或飛書會議時,通常不會擔心騰訊或飛書的員工會查看會議記錄。這是因為用戶對這些大廠已經(jīng)建立了某種信任,相信它們會在制度層面杜絕此類事件的發(fā)生。對于我們來說,我們也需要不斷強化用戶的認知,建立用戶對我們品牌的信任。從公司成立的第一天起,我們就立下規(guī)矩:員工不得觸碰用戶數(shù)據(jù),這是一條紅線。
觀察者網(wǎng):未來你們是否會側(cè)重端側(cè)AI能力,將更多隱私權(quán)交給用戶?
王松:我們最近上線了全離線功能,數(shù)據(jù)都在用戶手機上,只要斷網(wǎng),用戶依然能使用這些功能。手機算力比耳機強很多,至少強100到1000倍。因此,全離線功能可以讓用戶在不聯(lián)網(wǎng)的情況下依然使用AI能力。未來我們會將更多能力離線化,甚至在耳機上也會有一些離線功能,但耳機算力有限,可能需要5年左右才能運行一些小模型。從端到端的加密措施、企業(yè)制度、品牌認知建立以及全離線能力等多維度保護用戶隱私,這非常重要。
觀察者網(wǎng):除了耳機,你們未來是否會進入其他硬件賽道?
王松:一定會。我們目前的產(chǎn)品不僅包括耳機,還有PC端的Kit。我們選擇耳機的初衷是基于語音交互的考慮。未來除了耳機,用戶在辦公場景中可能更多地在辦公桌前,不一定佩戴耳機。因此我們會從場景出發(fā),思考如何將語音交互融入辦公過程。我們會基于這一思路決定開發(fā)哪些硬件。目前,我們已經(jīng)在研發(fā)一些新硬件產(chǎn)品。下半年或明年可能會推出新品,這些產(chǎn)品將圍繞我們的viaim大腦和辦公會議生態(tài),讓用戶辦公更加輕松。
觀察者網(wǎng):除了耳機,您最看好那個AI跟哪個硬件結(jié)合?
王松:我個人比較看好眼鏡的未來。不過,我們現(xiàn)在沒有做眼鏡的原因,是因為目前的供應(yīng)鏈還不成熟,用戶教育也有一定難度。盡管AI眼鏡概念很火,但每年的出貨量其實并不多,可以說是叫好不叫座,所以我們在這一塊相對比較謹慎。但我個人是比較看好眼鏡形態(tài)。眼鏡本身具備視覺和顯示能力,也有聽覺能力,是一個相對比較完整的形態(tài)。
觀察者網(wǎng):現(xiàn)在很多眼鏡是不是處于缺少內(nèi)容和原生應(yīng)用的狀態(tài)?您認為眼鏡的理想狀態(tài)應(yīng)該是什么樣的?
王松:從兩個層面來講,一方面眼鏡的內(nèi)容生態(tài)需要建立,就像最初iPhone的崛起,先是有了硬件,大家覺得硬件好用,然后吸引了眾多開發(fā)者,形成了App Store生態(tài),這是一個螺旋式上升的過程。未來眼鏡也會走類似的路線,前提是硬件一定要好用,先讓硬件普及,才會有更多開發(fā)者加入,生態(tài)才會逐漸建立起來。這是一個循序漸進的過程。未來兩三年后,隨著眼鏡技術(shù)的成熟,它會大幅改進耳機的局限性。耳機可能天生有缺陷,未來可能只是某個輔助或特定場景下的設(shè)備,而眼鏡可能會在更多場景中發(fā)揮主導(dǎo)作用。不排除未來還會有其他形態(tài)的硬件出現(xiàn)。比如之前失敗的AI Pin,它也做了一些很好的嘗試。還有前幾個月泄露的OpenAI與前蘋果設(shè)計總監(jiān)合作研發(fā)的胸前佩戴設(shè)備,也是一種可能的硬件形態(tài)。
觀察者網(wǎng):在“一腦多終端”的戰(zhàn)略下,這些設(shè)備是不是可以協(xié)同起來?
王松:是的,我認為它們不是互相取代,而是協(xié)同。在技術(shù)不成熟的時候,每個設(shè)備在某個場景上都有獨特的優(yōu)勢,可以和其他設(shè)備協(xié)同。未來可能會有一個設(shè)備發(fā)展成像現(xiàn)在手機這樣的通用設(shè)備,但還需要很長時間。
觀察者網(wǎng):眼鏡的發(fā)展不僅需要硬件成熟,也需要AI能力進一步提升。AI耳機的AI能力如果按照智能駕駛的L1到L5級劃分,現(xiàn)在可能處于哪種狀態(tài)?
王松:我認為現(xiàn)在最多只到L1級別。我和內(nèi)部的同事也在討論,之前OpenAI發(fā)布了一個從L1到L5的Agent定義,我認為耳機基本上可以套用那個邏輯。目前耳機還處于比較初級的L1級別,什么時候能到L2或者L3?有可能在未來兩三年內(nèi)會實現(xiàn)。
觀察者網(wǎng):這還需要大模型算法等能力的進一步進化?
王松:大模型算法現(xiàn)在可能已經(jīng)接近極限了,因為某些Agent已經(jīng)發(fā)展得相對比較好了。但如何將這些Agent與耳機結(jié)合,是一個需要探索的點。
觀察者網(wǎng):你們在下半年或未來幾年將著重發(fā)力哪些方面?
王松:首先是AI硬件,其作為人類的“耳朵”和“眼睛”,如何更高效地將周圍數(shù)據(jù)傳輸至AI大腦,這是需要研究的第一點,無論是聽覺還是視覺數(shù)據(jù)。這些數(shù)據(jù)并非為人眼觀看,而是優(yōu)先讓AI理解并處理。其次,由于我們本身不研發(fā)大模型,因此在大模型層面更多依賴業(yè)內(nèi)巨頭的進展。但我們會在大模型基礎(chǔ)上進行開發(fā),如剛才所討論的,將私域數(shù)據(jù)融入大模型體系,為用戶提供更優(yōu)質(zhì)、個性化的服務(wù),這是我們需探索的方向,也是我們的優(yōu)勢所在,必須深耕垂直場景進行優(yōu)化。
觀察者網(wǎng):未來智能在出海方面,目前海外市場的拓展情況如何?
王松:我們從去年開始在海外進行試點,在東南亞的新加坡進行試點,今年則拓展至北美、日本,并計劃下半年進入歐洲。目前,我們正在積極布局海外市場的線上線下渠道,海外市場是我們未來的主戰(zhàn)場。
觀察者網(wǎng):海外與國內(nèi)市場的理想占比大概是多少?
王松:參考業(yè)內(nèi)一些成熟或成功的公司案例,海外市場的比例通常大于國內(nèi)市場。
觀察者網(wǎng):海外市場也存在一些挑戰(zhàn),比如涉及AI方面的法律法規(guī)?
王松:是的,海外對隱私保護特別關(guān)注,包括海外用戶在硬件、軟件使用習(xí)慣上與國內(nèi)用戶存在差異,甚至在模型層面也有一些需要適配和適應(yīng)當?shù)貤l款或習(xí)慣的地方。
觀察者網(wǎng):好的,今天的對話就到這里,謝謝。