機器學習的技術不斷進步,推動了出版界自動化進程,現(xiàn)如今有許多可靠的查重軟件幫助作者或期刊對論文進行查重,消除學術不端嫌疑,然而,這類查重軟件是否包含對圖片的檢查呢?答案是否定的,通過計算機算法實現(xiàn)對圖片的查重想法是可行的,但實施起來卻困難重重。
2月26日,《自然》新聞對此進行了一次探討,有三名科學家利用計算機算法,嘗試實現(xiàn)快速檢查大量研究文獻,發(fā)現(xiàn)其中的重復圖片。早在2015年初,該團隊就以PubMed生物醫(yī)學文獻數(shù)據(jù)庫開放獲取子庫中的76萬篇論文為對象,運用一種算法提取了其中的260多萬張圖片,包括細胞與組織及凝膠印跡顯微照片。當時,該算法將重點放在特征最豐富的區(qū)域——顏色和灰度差異最大的區(qū)域——提取每一張圖片最顯著的數(shù)字“指紋”。
團隊剔除箭頭或流程圖要素等圖形后,最終得到了約200萬張圖片。他們只比對第一作者及通訊作者一樣的論文里面的圖片,避免每張圖片都要和所有其它所有圖片進行比對而導致計算負載過大。即使圖片被翻轉、調整大小,對比度或顏色被更改,該算法也能發(fā)現(xiàn)其中潛在的重復圖片。
之后,三人手動檢查了約3750張被算法標記出來的圖片樣本,以確定這些重復圖片是否可疑或是偽造的。根據(jù)檢查結果,他們估計數(shù)據(jù)庫中約1.5%的論文包含可疑圖片,0.6%的論文包含偽造圖片。
該研究結果表明,利用技術手段進行圖片查重是有可能的。這一技術如果成熟將節(jié)省大量人力和時間成本,因為許多期刊在對一些圖片進行檢查時,缺乏自動化的檢查流程,需要投入大量人工和時間,且還需要作者提交未經(jīng)編輯的凝膠圖片用作參考。
然而,要實現(xiàn)機器檢查圖片,關鍵是要各大出版商團結起來建立一個共享數(shù)據(jù)庫,里面收錄所有已發(fā)表出來的圖片,然后以之為基準比對將要發(fā)表的論文里的圖片,此類的合作和嘗試目前也一直存在。可以預想到不久的將來論文圖片查重將會成為出版界通用手段。