酷播亮新聞
最棒的知識補給站

當語音技術從前沿變為基石,未來還有多少想象的可能?

文章摘要: 當語音互動的技術從非常前沿的技術變成基石技術讓你的互動做得非常的像 to C 一樣的體驗

對於馳騁消費電子領域多年的出門問問來說,2018 年是具有里程碑意義的一年。

在五月份舉辦的發佈會上,出門問問釋出了國內首款可量產,並可立即採購的 AI 語音晶片模組「問芯」,這對國內智慧製造產業來說,是具有重要影響的事件,也讓一直以 C 端使用者為主導的出門問問,進一步走向了 B 端。

從 2013 年的出門問問 app,到 2014 年的智慧手錶作業系統 TicWear,到 2015 年軟硬結合的中國智慧手錶 TicWatch,隨後是 2016 年的智慧後視鏡 TicMirror,2017 年的 TicKasa 智慧音箱,到 2018 年年初的智慧無線耳機 TicPods Free,出門問問嘗試通過智慧可穿戴、智慧車載和智慧家居三大場景佈局消費領域,並取得一定成功,這無疑讓這家公司有了更多展示智慧語音技術未來生活的可能,但更進一步,也讓出門問問對於 C 端消費者有了非常深入的瞭解。

對於消費者需求的把控,對於智慧語音行業的觀察,給了出門問問極好的切入 B 端的機會。那麼對於出門問問來說,當語音互動從 C 端走向 B 端,將會產生怎樣的行業創新,智慧語音互動如何深刻影響我們的未來?在 7 月 21 日的極客公園 Rebuild 2018 科技商業峰會現場,出門問問創始人& CEO 李志飛就帶來了他的思考與分享。

以下是李志飛在極客公園 Rebuild 2018 科技商業峰會上的演講實錄(經過極客公園編輯,略有刪減):

出門問問在 2012 年就開始做語音互動相關的東西,那時大家對人工智慧還不是很瞭解,出門問問就做了很多這方面的前沿技術探索。從語音識別技術本身的研發,把聲音轉成文字到怎麼理解這個文字,到後面怎麼跟服務對接,整套系統都是在 2012 年就做了很多研發。在那時候技術非常不成熟,而且大家對這個技術能幹什麼也不是很清楚,所以是屬於非常前沿的技術探索。

爲了把語音互動落地到非常有用的場景裡,我們做了很多探索。早期主要是把語音互動放到消費電子場景下面,比如過去幾年基本每年出一個新的品類,智慧手錶、智慧車載裝置、智慧音箱、智慧耳機,每一個裝置都是作為普通消費者能感受到的未來語音互動的需要。由於今天很多技術的限制,體驗不一定是最優的,但我們認為在未來的消費場景裏面,可穿戴、車載和家裏的場景基本上會覆蓋語音互動。

今天在過去四五年的探索後,我們覺得整個語音互動技術,包括其他行業 AI 的技術,都從前沿的技術變成了一個基石的技術。前沿技術的特色就是大家的認知很不清晰,技術很不成熟,不知道用在什麼地方。但是經過過去幾年的教育也好,嘗試也好,變成了一個基石技術,需求更加清晰了,我相信在座的絕大部分人都用過一些語音互動的裝置,或者是場景。整個技術也稍微成熟一點,這個時候變成基石技術,整個市場會有什麼樣的變化?

當語音互動成為基石技術

首先大家可以看到這是一些諮詢機構的資料,無論是使用者的使用規模,比如語音搜尋,可能從 20%,未來變成 50%,你每搜十次搜索引擎,有 5 次是語音的互動方式。這不一定是在手機上,可能是在音箱上,可能在車裏面,都是用語音互動做。但是做的事情主要是爲了搜尋內容。包括大家非常清楚的智慧音箱這個市場從無到有,現在全球是幾千萬的市場。

從裝置場景的角度去看,語音互動可能有那麼幾大類,一個是 to C,一個是 to B,另外還有一個 to G。To C 前面講了很多,各種各樣的互動裝置,更多的是來變更人與機器的互動方式。比如車裏面和家裏面,當你在路上的時候,今天可能更多是鍵盤和觸控式螢幕,但是未來語音互動也會成為非常重要的互動方式。

To B 更多是幫助企業去提供更好的工具,提高他們的效率。因為工具更加個性化和人性化,就可以幫他們的使用者提供更好的使用者體驗。To G 跟 To B 比較類似,只是行業不太一樣,比如司法、醫療、教育可以有很多應用場景,比如高考的打分,這都是偏政府的行業,是通過語音提供一個更有效率,用機器可以自動完成的事情,或者提供更好的使用者互動的方式。

當語音互動的技術從非常前沿的技術變成基石技術。作為語音互動的創業公司,出門問問在過去一年多時間裏做了一些探索,主要總結來說有兩個方向,上游是跟晶片深度整合,下游是垂直行業深度繫結。

出門問問是全世界全中國少有的面向消費者 to C 的 AI 公司,但現在我們從純 to C 在嘗試一些 to B 的落地,主要的優勢有這麼幾點。第一是 to C 時我們需要提供完整的體驗,這導致我們開發了很多完整的技術鏈。當我再去給一些企業提供服務的時候,比如做一個智慧的客服系統,無論是語音識別還是知識題庫,出門問問都有自己的技術,不需要整合第三方。這樣的好處就是可以做很快的定製,同時我們因為有軟硬結合的產品,這些是一站式的,不需要找多家合作伙伴。

還有一個特別重要的優點,出門問問在過去做 to C 的,使用者體驗是非常重要的。To B 很多服務使用者體驗不是很好,因為 To B 的專案是一單一單的,沒有足夠的人力為單一的專案做出很好的體驗。出門問問過去在 to C 層面做了很多積累,所以即使到 to B 的場景,還是可以提供非常好的使用者體驗。

這裏舉一個例子,我們因為有自己的軟硬結合和演算法基礎,可以很快定製。所以最近跟臺灣遠傳電信聯合釋出了智慧音箱,基本上用三個月的時間就打造了臺灣本地的系統,從硬體到軟體到語音助手。對方之前花了六個月跟三四家合作伙伴,有的做語音,有的做內容整合,有的做硬體一直沒有解決,我們只是三個月就可以快速的達到非常好的體驗,這就前面說的 to C 結合 to B 的優勢。

接下來講一下我們的產品和優勢。首先是我們釋出的問芯,這是 AI 語音晶片模組。解決的問題就是現在的智慧電視不能遠處喚醒。這是和杭州國芯一起合作。但我們把麥克風的技術,訊號處理的技術,包括低功耗的喚醒技術做到晶片裏面去。只要用一個 usb 線跟我們這個晶片連線,智慧電視一下子就成為一個可以遠端語音互動的電視。這樣的合作大概三四個星期就可以把體驗做出來。在以前,如果一個語音軟體方案直接跟智慧電視去整合,可能三四個月都整合不出來,而且效果都非常差。

另外,我們也會發佈一個專門面對 IoT 的裝置控制晶片,比如室內空調、燈泡等等就不需要通過智慧音箱作為控制檯。我們希望未來晶片模組可以直接放在燈泡裏面,回家直接說開燈關燈就可以開啟,而不是現在先要把音箱喚醒才能互動。當然這是還在研發的產品,在未來我覺得非常具有前景。這種裝置可以用非常人性化的,不需要前面的喚醒詞就可以直接喚醒,會帶來非常好的使用者體驗的改進。

智慧語音的深度想象

前面是智慧電視晶片,是在上游提供更好的體驗。接下來是下游場景能做什麼。這裏有一個系統叫問真,是 AI 金融的反欺詐系統,當你找金融機構貸款的時候,很重要一點就是金融機構判斷你是不是你,你說的是不是真話。比如你說你住在地段很貴的地區,比如在北京的國貿,系統要判斷你說的是不是真話。

我們有一個系統根據你說話,它會自動問你一些問題,這個問題不是提前設好的,是根據你說的話來問,系統也知道答案。根據你回答的答案和系統答案是不是一致,就可以判斷是不是真話。這裏面用到很多,還有人臉識別,識別是不是你,還有基於資料庫的對話系統,判斷你是不是真實的,是真實的纔會進行貸款的動作。

這就是根據你提供的一些資訊,然後後臺會自動的根據你的資訊提出一些問題,然後它也知道答案,考覈你說的是不是真的。以前的系統是你填了資訊以後,有一個人專門給你打電話,然後去念一些一樣的問題,然後你答。很大的問題就是因為這個工作非常枯燥,很多時候打給你電話的人問題就是統一的,基本上你一個人問了一遍,另外一個人再去考試,基本上就能夠作弊。

但是像我們這個是完全個性化的系統,根據你的答案不一樣,可能會有不一樣的問題,所以基本上很難作弊。第二由於背後是自動化的系統,具有實時性,也不需要花費人力。在我們看來把語音互動放在這個系統裏面是非常好的創新。

再給大家講的是在保險行業的語音互動例子,保險行業也是 to C 的,我們所做的事情就是利用 to C 的經驗,跟保險後臺資料系統結合起來,最後去提供一個更好的使用者體現,使他們的使用者對他們的服務更加滿意。這個其實大家可以看到是 to C 的,和我們買的智慧音箱的互動是一模一樣的,但可以帶來的就是跟具體的保險業務結合起來,讓你的互動做得非常的像 to C 一樣的體驗。

還有一個例子是我們在智慧家居或者房地產行業跟合作伙伴做的解決方案,也是下游場景的深度應用。那麼回到現在的問題,當語音互動從前沿技術變成基石技術以後,我們到底怎麼進一步落地?我們的答案是往上游整合到晶片裏面,往下游跟場景深度的繫結,這就是我想和大家分享的。

如有侵權請來信告知:酷播亮新聞 » 當語音技術從前沿變為基石,未來還有多少想象的可能?