11月27日是美國(guó)感恩節(jié)后的第一個(gè)星期五,通常都被稱作“黑色星期五”。這一天,紐約時(shí)代廣場(chǎng)上的兩塊大型LED顯示屏上,并沒(méi)有像往常那樣播放路透社和納斯達(dá)克的標(biāo)識(shí)廣告,而是如同接收到外太空信號(hào)一般,不停地滾動(dòng)著手機(jī)號(hào)碼和沒(méi)有任何邏輯聯(lián)系的詞句。 神奇的是,這些是人們撥打888-376-4336后對(duì)著話筒任意說(shuō)出來(lái)的,經(jīng)過(guò)號(hào)碼背后的語(yǔ)音識(shí)別系統(tǒng)處理后會(huì)同步顯示在屏幕上,每個(gè)詞句下面還有似曾相識(shí)的搜索結(jié)果網(wǎng)頁(yè)。 這其實(shí)是谷歌為旗下的語(yǔ)音搜索進(jìn)行的一項(xiàng)別出心裁的推廣活動(dòng)。
千里之外的北京,谷歌全球副總裁維克·甘多特拉(Vic Gundotra)也在向中國(guó)媒體展示該公司剛剛推出的中文版語(yǔ)音搜索。“紐約最好的意大利餐廳!”維克拿出手機(jī)放在耳朵上,操著并不熟練的中文大聲說(shuō)道,然后笑瞇瞇地把手里的手機(jī)轉(zhuǎn)向大家。是的,不到一秒鐘的時(shí)間,屏幕上已經(jīng)顯示出了搜索結(jié)果。
不需要再噼里啪啦地敲擊鍵盤了,一個(gè)并不陌生的語(yǔ)音時(shí)代難道已經(jīng)來(lái)臨?
鍵盤不再是必需品
手機(jī)是這場(chǎng)語(yǔ)音化浪潮的中心。“在小小的手機(jī)鍵盤上輸入文字搜索信息并不容易,”谷歌中國(guó)產(chǎn)品經(jīng)理許裴說(shuō),“一些較長(zhǎng)的詞,鍵盤輸入不僅速度很慢也容易拼錯(cuò),而我們正在開(kāi)車的時(shí)候是沒(méi)有辦法停下來(lái)用手打字的。”據(jù)微軟移動(dòng)高級(jí)總監(jiān)帕祖斯基(Dariusz Paczuski)統(tǒng)計(jì),使用智能手機(jī)搜索一個(gè)餐廳需要按鍵盤超過(guò)20次,發(fā)短信則需要更多下。而只需張嘴的語(yǔ)音搜索則能提供更方便、快速和簡(jiǎn)單的搜索服務(wù),大大降低人們使用手機(jī)搜索的門檻。
手機(jī)的演化也為語(yǔ)音搜索的實(shí)現(xiàn)提供了硬件基礎(chǔ)?,F(xiàn)在幾乎所有手機(jī)都擁有錄音、照相等功能,智能手機(jī)的出現(xiàn)則讓手機(jī)從一個(gè)單純的通話裝置變成一臺(tái)小型的計(jì)算設(shè)備。按維克的話說(shuō),麥克風(fēng)和攝像頭跟互聯(lián)網(wǎng)相連之后,變成了云端的耳朵和眼睛。
越來(lái)越多的公司意識(shí)到,移動(dòng)搜索領(lǐng)域會(huì)呈現(xiàn)與互聯(lián)網(wǎng)搜索截然不同的人機(jī)交互方式。網(wǎng)易有道總裁周楓就曾透露,有道現(xiàn)在和未來(lái)的產(chǎn)品設(shè)計(jì)將不需要用戶手動(dòng)輸入任何文字,而更多采用的是語(yǔ)音搜索、攝像頭搜索等智能化方式。有道搜索的手機(jī)購(gòu)物助手可以利用手機(jī)條形碼掃描為消費(fèi)者提供價(jià)格比對(duì)信息;而有道手機(jī)詞典則可利用手機(jī)攝像頭為用戶提供單詞實(shí)時(shí)翻譯功能等。
谷歌則把重點(diǎn)放在了語(yǔ)音搜索上。去年谷歌在美國(guó)發(fā)布了英文語(yǔ)音搜索服務(wù)Voice Search,應(yīng)用于Android、諾基亞S60、黑莓、iPhone等多個(gè)系列的手機(jī)。其競(jìng)爭(zhēng)對(duì)手微軟也早早地進(jìn)行了布局。2007年,微軟收購(gòu)了領(lǐng)先的手機(jī)語(yǔ)音識(shí)別服務(wù)廠商TellMe,組成了微軟現(xiàn)在的語(yǔ)音團(tuán)隊(duì),TellMe為包括411商務(wù)搜索、1-800-555的信息搜索以及美國(guó)航空在內(nèi)的企業(yè)提供語(yǔ)音平臺(tái)。微軟新的語(yǔ)音團(tuán)隊(duì)最大的任務(wù)就是把語(yǔ)音搜索技術(shù)與Windows Mobile整合起來(lái),移動(dòng)版Bing搜索在三星手機(jī)上已經(jīng)實(shí)現(xiàn)與谷歌類似的語(yǔ)音搜索功能。
手機(jī)將會(huì)成為語(yǔ)音化浪潮的中心
云端的語(yǔ)音搜索
語(yǔ)音搜索是通過(guò)云計(jì)算和機(jī)器的智能分析實(shí)現(xiàn)的。“你說(shuō)的關(guān)鍵詞會(huì)成為聲波,再轉(zhuǎn)換為數(shù)字,然后把它通過(guò)‘云’發(fā)到我們的后端,計(jì)算機(jī)會(huì)基于我們所有的數(shù)據(jù),來(lái)識(shí)別這些語(yǔ)音。”維克說(shuō)。因?yàn)樗械挠?jì)算都是在云端計(jì)算的,所以用戶能在極短的時(shí)間里得到搜索結(jié)果。值得注意的是,聲波里面包含著很多背景雜音,有些背景噪音連人的耳朵都難以分辨,但計(jì)算機(jī)系統(tǒng)能夠識(shí)別出這些背景噪音并進(jìn)行分離和過(guò)濾。 這樣,“無(wú)論大家在出租車還是在街上做語(yǔ)音搜索都可以成功。”維克說(shuō)。
與文字輸入不同的是,準(zhǔn)確性是人們對(duì)于語(yǔ)音識(shí)別最大的擔(dān)心。盡管按照維克的說(shuō)法,谷歌已經(jīng)花了很多的時(shí)間,了解各種口音、各種習(xí)慣的表達(dá)方式,但面對(duì)人類千奇百怪的發(fā)音,語(yǔ)音識(shí)別永遠(yuǎn)不可能做到完美。就在演示現(xiàn)場(chǎng),當(dāng)有人念出類似“清華大學(xué)附近的水煮魚”這樣的句子時(shí),機(jī)器的識(shí)別當(dāng)場(chǎng)便出現(xiàn)了錯(cuò)誤,
然而,就像圖文搜索引擎一樣,語(yǔ)音搜索的優(yōu)勢(shì)在于,其語(yǔ)音識(shí)別模式是基于全球幾十億的搜索請(qǐng)求,搜索引擎的算法會(huì)隨著對(duì)搜索請(qǐng)求的深入分析而變得更加精準(zhǔn)。目前,谷歌在語(yǔ)音搜索的識(shí)別結(jié)果的下拉菜單里,提供了幾個(gè)備選選項(xiàng),用戶可以選擇正確的那個(gè)。這樣,系統(tǒng)就接受了某種“培訓(xùn)”,知道下次再有人這樣說(shuō)話哪個(gè)是正確的選項(xiàng)。中文還有一個(gè)最為考驗(yàn)語(yǔ)音搜索引擎的特點(diǎn),那就是中文有很多同音字,但因?yàn)楹芏嗨阉鞫际且幌盗形淖纸M織起來(lái)的,通過(guò)對(duì)人們搜索的習(xí)慣的認(rèn)知,搜索引擎能夠認(rèn)識(shí)出這些發(fā)音大約指的是哪些字。
“我們就像人一樣,隨著對(duì)世界認(rèn)知的發(fā)展,隨著對(duì)語(yǔ)境認(rèn)知的發(fā)展就能夠更精準(zhǔn)地了解其他人的意思。”維克說(shuō),“如果有著幾百萬(wàn)的說(shuō)中文的用戶能夠使用我們中文語(yǔ)音搜索功能的話,我們系統(tǒng)就會(huì)變得更加聰明。”
無(wú)處不在的語(yǔ)音識(shí)別
手機(jī)上的語(yǔ)音搜索只是一個(gè)開(kāi)始。語(yǔ)音搜索功能將延伸為語(yǔ)音輸入,覆蓋到手機(jī)、電腦等各種終端上。“我們的目標(biāo)是使得人們?cè)谒械牡胤剿袝r(shí)候都能使用這個(gè)應(yīng)用,”維克說(shuō),“但是我們認(rèn)為手機(jī)的應(yīng)用是最急迫的,所以先做了。” 在比爾·蓋茨預(yù)測(cè)的未來(lái)十年最重要的技術(shù)進(jìn)步中,語(yǔ)音識(shí)別技術(shù)位居首位。微軟語(yǔ)音團(tuán)隊(duì)主管Serafin也表示:“語(yǔ)音操作是新的趨勢(shì),是繼鍵盤和觸摸屏之后的必然進(jìn)化方向。”
其實(shí),自電腦誕生以來(lái),讓電腦聽(tīng)懂人們的說(shuō)話,一直是IT從業(yè)者的一大心愿。在單機(jī)時(shí)代,IBM是最早進(jìn)行語(yǔ)音識(shí)別技術(shù)研究的企業(yè),在上個(gè)世紀(jì)90年代就推出可用于聲控打字和語(yǔ)音導(dǎo)航的語(yǔ)音識(shí)別輸入軟件IBM ViaVoice VIA。用戶只要對(duì)著電腦講話即可輸入漢字,輸入速度能達(dá)到150個(gè)漢字,幾乎是鍵盤輸入的2倍、普通手寫輸入的6倍。盡管售價(jià)不菲,但這套軟件在全球已售出100多萬(wàn)套。漢王科技當(dāng)年正是基于這套軟件,開(kāi)發(fā)出了基于語(yǔ)音和手寫識(shí)別的手持設(shè)備。
微軟則從Windows XP開(kāi)始,在操作系統(tǒng)中添加了語(yǔ)音識(shí)別功能,在新推出的Windows 7里這一功能更為完善。不用鍵盤鼠標(biāo),用戶可以通過(guò)語(yǔ)音對(duì)計(jì)算機(jī)進(jìn)行簡(jiǎn)單的控制,如說(shuō)一句“打開(kāi)瀏覽器”,就可以輕松地打開(kāi)IE。剛剛上市的Exchange Server 2010中則有更加先進(jìn)的語(yǔ)音郵件預(yù)覽功能,可以自動(dòng)為語(yǔ)音郵件提供文本預(yù)覽。不方便收聽(tīng)語(yǔ)音郵件的情況下用戶可以先通過(guò)語(yǔ)音郵件預(yù)覽來(lái)了解郵件的大致內(nèi)容,也可以通過(guò)閱讀文本預(yù)覽來(lái)決定郵件的優(yōu)先順序。
而基于Web的云計(jì)算則將這種語(yǔ)音識(shí)別技術(shù)帶入更廣泛的應(yīng)用領(lǐng)域。不僅語(yǔ)音搜索成為現(xiàn)實(shí),前不久谷歌還為YouTube推出一項(xiàng)新的功能,讓用戶利用語(yǔ)音識(shí)別為YouTube視頻添加字幕,這將大大提升YouTube視頻的觀看體驗(yàn)。
古老的鍵盤和鼠標(biāo)會(huì)不會(huì)漸漸從電腦配件的標(biāo)準(zhǔn)列表里消失?或許現(xiàn)在還沒(méi)多少人能接受,但誰(shuí)又能否認(rèn)人們對(duì)語(yǔ)音的想象力呢。
|