• Charlesworth

  數(shù)據(jù)收集是科研工作的一項(xiàng)重要內(nèi)容,往往要耗費(fèi)研究者的大量時(shí)間,那么面對如此龐大的數(shù)據(jù)集,如何方便快捷的獲取呢?谷歌的Dataset Search為你解決了這個(gè)問題。

 

數(shù)據(jù)收集工具

  今年9月谷歌推出了Dataset Search,在過去的幾個(gè)月我們一直在觀察,和許多研究者一樣,我們認(rèn)為它是非常實(shí)用的,谷歌科學(xué)家Natasha Noy曾表示:谷歌幫助建立數(shù)據(jù)庫搜索引擎的目標(biāo)是統(tǒng)一數(shù)萬個(gè)不同的在線數(shù)據(jù)庫。

 

  原理

  谷歌 Dataset Search 高度依賴大大小小的數(shù)據(jù)集提供者,利用開放 schema.org/Dataset 標(biāo)準(zhǔn)在自己的站點(diǎn)上添加結(jié)構(gòu)化的元數(shù)據(jù)。元數(shù)據(jù)指定了每個(gè)數(shù)據(jù)集的顯著屬性:名稱和描述、空間和時(shí)間覆蓋、出處信息等。Dataset Search 利用這一元信息,將其與谷歌上的其他可用資源連接,并為這個(gè)豐富的元數(shù)據(jù)語料庫建立索引。建好索引之后就可以開始響應(yīng)用戶檢索,并找出最符合檢索的結(jié)果。

 

  使用

  與谷歌Scholar工作方式類似,不論數(shù)據(jù)集是托管、發(fā)布在哪個(gè)網(wǎng)站、數(shù)字圖書館或個(gè)人網(wǎng)站,都可以輕松的查找與訪問。甚至作者信息、更新時(shí)間、內(nèi)容介紹等信息都會一覽無余,且支持多種語言。

 

 

  例如,如果你想分析每天的天氣記錄,你可以在數(shù)據(jù)集搜索中嘗試輸入daily weather:

 

是不是很贊,趕快試試吧!

分享給你的同事