學(xué)術(shù)搜索一直是谷歌、微軟、百度等IT巨頭角力的戰(zhàn)場之一。最近,微軟學(xué)術(shù)搜索頻頻發(fā)力,給這一市場又增添了一些變數(shù)。
10月28日,在計算領(lǐng)域大師云集的第十七屆“二十一世紀(jì)的計算”大型學(xué)術(shù)研討會上,微軟與清華共同簽署了“學(xué)術(shù)大數(shù)據(jù)項目”合作備忘錄,力圖將清華在大數(shù)據(jù)領(lǐng)域的研究成果與微軟在搜索方面的豐富經(jīng)驗相結(jié)合,進(jìn)一步完善微軟學(xué)術(shù)搜索的結(jié)果。此前,微軟學(xué)術(shù)搜索剛剛上線了一個新版本,并將之嵌入必應(yīng)搜索引擎。
“與傳統(tǒng)的搜索引擎相比,我們更強(qiáng)調(diào)的是‘智能’。”在接受《中國科學(xué)報》記者采訪時,微軟研究院首席研究員、互聯(lián)網(wǎng)研究中心總監(jiān)王冠三對微軟學(xué)術(shù)搜索的“新氣象”作了這樣的概括。那么,這一“智能”的學(xué)術(shù)搜索又是怎樣的呢?
讓搜索也有“圖書管理員”
“二十一世紀(jì)的計算”大會是微軟亞洲研究院自成立之初便開始舉辦的學(xué)術(shù)盛會,已成為中國及亞太地區(qū)規(guī)模最大、最具影響力的計算機(jī)科學(xué)教育與研究盛會之一。而本屆大會的主題是“人工智能”。
王冠三告訴《中國科學(xué)報》記者,從去年開始,微軟就將人工智能技術(shù)應(yīng)用到了搜索上,這使得必應(yīng)搜索可以利用云計算、大數(shù)據(jù)等技術(shù)變得更加“聰明”,為用戶提供更定制化的服務(wù)。正因為此,目前上線的微軟學(xué)術(shù)搜索新版本,基于必應(yīng)的大數(shù)據(jù)搜索技術(shù)及微軟研究院的先進(jìn)算法,整合了Azure云計算能力,并在產(chǎn)品性能、數(shù)據(jù)更新、使用體驗等方面進(jìn)行了深度優(yōu)化。
“傳統(tǒng)的搜索引擎基本上是依靠關(guān)鍵詞,而我們更強(qiáng)調(diào)的是智能搜索。”王冠三告訴記者。他舉了一個例子,就好像在圖書館里檢索相關(guān)書目,如果知道關(guān)鍵詞是什么,例如書名或者作者,就可以通過檢索索引很快找到相應(yīng)的材料。而當(dāng)你對關(guān)鍵詞不太清楚的時候,則可以尋求圖書管理員的幫助。
“現(xiàn)在我們在做的事情,就是提供類似圖書管理員這樣的‘智能’服務(wù)。”王冠三說。以人工智能(Artificial Intelligence)為例,如果依靠關(guān)鍵詞檢索,那么搜到標(biāo)題中帶有“Artificial Intelligence”詞匯的文章將數(shù)不勝數(shù)。但是,對于一個新人來說,無論是按時間檢索還是按相關(guān)性檢索都無法在短時間內(nèi)對人工智能有比較全面的了解。例如,人工智能的定義是什么?相關(guān)領(lǐng)域有哪些?哪些會議與之密切相關(guān)?這個領(lǐng)域有哪些重要學(xué)者的研究值得關(guān)注?
通過微軟學(xué)術(shù)搜索,則可以得到一個學(xué)術(shù)圖譜式的認(rèn)知。其搜索結(jié)果可以通過對學(xué)術(shù)論文、國際會議、權(quán)威期刊、研究專家及領(lǐng)域等專業(yè)學(xué)術(shù)資源實體的聚合,構(gòu)建出一個學(xué)術(shù)圖譜體系。具體到一些論文,可能這些論文的標(biāo)題中并沒有“人工智能”這四個字,但微軟學(xué)術(shù)搜索可以在了解語義和學(xué)科的情況下作出智慧排序,而這與傳統(tǒng)的搜索有很大不同。
異構(gòu)的網(wǎng)絡(luò)
此次微軟與清華合作后,清華將成立跨學(xué)科研究的科技大數(shù)據(jù)研究中心,而清華大學(xué)計算機(jī)科學(xué)與技術(shù)系副教授唐杰將擔(dān)任這一中心的執(zhí)行主任。
唐杰告訴記者,清華學(xué)術(shù)大數(shù)據(jù)成果主要體現(xiàn)在其研發(fā)的學(xué)術(shù)社會網(wǎng)絡(luò)服務(wù)系統(tǒng)AMiner上。該系統(tǒng)以學(xué)者為中心,利用數(shù)據(jù)挖掘和社會網(wǎng)絡(luò)分析技術(shù),從海量文獻(xiàn)和互聯(lián)網(wǎng)信息中自動獲取研究者相關(guān)信息,如學(xué)者的職位、郵件地址、相關(guān)論文等,以此來分析學(xué)者們的研究領(lǐng)域和成果,將相關(guān)知識點連接起來。
與之相比,微軟的優(yōu)勢則是借助必應(yīng)高效的分布系統(tǒng)抓取并解析大量結(jié)構(gòu)化頁面和論文,獲得更大覆蓋率與高準(zhǔn)確率的數(shù)據(jù)。因此,微軟與清華合作,就可以將知識與學(xué)者關(guān)聯(lián)起來,建立信息和人融合的異構(gòu)網(wǎng)絡(luò),提供更多的搜索功能和知識的服務(wù)。
這一合作對于解決學(xué)術(shù)搜索中受到廣泛關(guān)注的“重名排歧”問題具有重要意義。王冠三告訴記者,微軟與清華合作的內(nèi)容之一,就是充分利用搜索引擎檢索到的所有信息,如社交網(wǎng)絡(luò)上的相關(guān)信息,以讓搜索結(jié)果進(jìn)一步優(yōu)化。“例如,利用現(xiàn)在的微軟學(xué)術(shù)搜索,搜邁克爾·喬丹時,會發(fā)現(xiàn)有五六個人叫這個名字,而我們利用重名排歧的方法,就會給搜索者以提示,你是找醫(yī)生、球星還是某個領(lǐng)域的教授,利用這些輔助信息把準(zhǔn)確的搜索對象檢測出來。”
唐杰坦言,重名排歧是一個很難解決的問題。目前的解決方法主要有機(jī)器學(xué)習(xí)、基于規(guī)則的方法等。“未來我們希望通過眾包的方式,讓大家不僅把自己的論文排歧,還可以排歧導(dǎo)師和朋友的,在排歧過程中得到一些小分值獎勵,而這些小分值可以用來免費下載論文等。這樣就可以把整個生態(tài)系統(tǒng)打通了。”
開放的平臺
記者在必應(yīng)的首頁看到,目前微軟學(xué)術(shù)搜索支持的語言是英語。未來,與清華大學(xué)等國內(nèi)的機(jī)構(gòu)合作后,中文等語言是否也可以加入這一行列呢?
在唐杰看來,搜索語言的擴(kuò)展與內(nèi)容密切相關(guān)。“希望未來有一天搜索的內(nèi)容會變成開放的市場,每一家與科技相關(guān)的出版社、數(shù)字內(nèi)容提供商都可以貢獻(xiàn)出自己的數(shù)字化內(nèi)容,這樣就解決了中文、英文等語言問題。”
王冠三也表示,微軟學(xué)術(shù)搜索將致力于打造開放的平臺,F(xiàn)在,愛思唯爾、湯森路透等內(nèi)容提供商以及美國計算機(jī)協(xié)會(ACM)、電氣與電子工程師學(xué)會(IEEE)等學(xué)術(shù)權(quán)威機(jī)構(gòu)都是微軟的合作對象及客戶。未來他希望會有更多的數(shù)字內(nèi)容提供商參與到這一平臺中來。
搜索到的論文是否能夠全文下載也是學(xué)者們關(guān)注的一個問題。王冠三告訴記者,隨著國際學(xué)術(shù)界開放獲取運動的推進(jìn),以后只要是開放獲取、沒有版權(quán)問題的期刊內(nèi)容,通過微軟學(xué)術(shù)搜索都可以免費下載。而一些不屬于開放獲取范疇的內(nèi)容,微軟學(xué)術(shù)搜索也會按照要求,把用戶帶到出版商的主頁去。如果高;蜓芯繖C(jī)構(gòu)與該出版商簽訂有協(xié)議,學(xué)者們就可以全文下載這些論文。
為防止簡歷投遞丟失請抄送一份至:boshijob@126.com(郵件標(biāo)題格式:應(yīng)聘職位名稱+姓名+學(xué)歷+專業(yè)+中國博士人才網(wǎng))
中國-博士人才網(wǎng)發(fā)布
聲明提示:凡本網(wǎng)注明“來源:XXX”的文/圖等稿件,本網(wǎng)轉(zhuǎn)載出于傳遞更多信息及方便產(chǎn)業(yè)探討之目的,并不意味著本站贊同其觀點或證實其內(nèi)容的真實性,文章內(nèi)容僅供參考。