長期以來,搜索學術文獻一直是研究人員面臨的挑戰,當他們想要查找概念時,他們會輸入關鍵字在線搜索。加拿大圣瑪麗大學帕特里克·鮑爾圖書館技術服務圖書管理員Peter對人工智能工具如何使學術搜索更容易以及解決概念識別問題產生了興趣。于是提出了以下構思。
在線搜索者希望或者想要在線搜索工具能夠根據幾個簡單的關鍵字找到他們想了解的概念,許多人工智能搜索工具承諾可以做到這一點。游戲搜索引擎 Splore 說過這么一段話:“有了人工智能,搜索引擎可以理解您的意圖和搜索背后的含義,而不僅僅是您輸入的特定單詞?!?
主流的資源語義學者提出了類似但更謹慎的主張:“我們的系統從論文中提取意義并識別關聯,然后將這些見解公之于眾。”
然而,人工智能搜索工具的潛力似乎尚未完全發揮出來。對于搜索者來說,了解人工智能搜索的功能和局限性非常重要。
為了說明“我們希望AI能夠為我們所做的”過程的復雜性,我拿 Luong Thanh BY 等人撰寫的一篇論文舉例,題目是“促進工人使用呼吸防護設備的行為干預”。這些研究人員需要使用關鍵詞來概括“行為干預”、“工人”和“呼吸防護”等概念。
但這里是這篇論文的 Cochrane 評論記錄,顯示了有效解決這些概念所需的數十個精心開發且相互關聯的關鍵詞。
這似乎很好地說明了關鍵字到概念確定過程的復雜性,我們希望AI能為我們做到這一點。
毫無疑問,自然語言處理(NLP)、語義機器學習等人工智能方法與傳統關鍵詞方法相結合,可以有效地從搜索關鍵詞中推導出概念。這是一個或者一組復雜的自動化流程,依賴于每篇文章足夠多的可用信息。這些AI方法將在不久的將來改變學術研究搜索的游戲規則。
但是,人工智能方法的成功取決于一致且足夠的元數據。主題描述性標題、詳細摘要,或者訪問全文,對于可靠的AI概念確定至關重要。
同一類型的主題或期刊分類是提高人工智能搜索成功率的關鍵要素。例如,人工智能方法可能很容易確定主題為“蒸氣危害”或“粉塵消除”的文章涉及“呼吸防護”的概念?!肮I安全”期刊中有關“空氣質量”的文章涉及“呼吸防護”的概念。
有限且不一致的可用元數據限制了人工智能搜索
有限且不一致的元數據限制了人工智能成功確定文章概念的能力。然而,如今人工智能搜索工具可用的元數據存在相當大的限制。
語義學者數據庫提供來自 60 多個來源的200多萬篇文章的元數據,其中包括 PubMed這樣的OA 資源和許多私人出版商。語義學者是許多知名人工智能搜索工具使用的元數據來源。 Research Rabbit、Elicit 的 AI Research Assistant 和其他機構都依賴此來源。
《語義學者》是一個很了不起的資源。但它依賴于來自各種不同來源的元數據,這些來源的細節和質量差異很大。沒有一致的主題標題或期刊分類。這依賴于標題和描述性摘要來確定搜索概念。在我對 語義學者的有限搜索測試中,我發現 25% 到 40% 的文章記錄甚至沒有摘要。所以AI概念判定只能基于標題詞。
由于 PubMed 或 ERIC 等開放資源的詳細且一致的元數據都是免費提供的,因此當前許多 AI 搜索工具的搜索結果偏向于這些 OA 來源中的結果。
營利性搜索索引 Scope us 和 Web of Science 也在加速開發人工智能方法,以增強它們的搜索能力。這些資源具有出色的管理、期刊主題分類和引文背景。但他們也依賴出版商提供的可變元數據。它們依賴于作者指定的關鍵字,而不是一致指定的主題標題。
整個學術元數據格局需要改變
為了發揮出人工智能方法的潛力,需要對整體學術內容格局進行更大的改變。更好的人工智能搜索的努力與其他幾項努力同時進行,包括 Crossref 和 OpenAlex,旨在為所有學術出版物創建更加開放和全面的元數據記錄。
目前,關于學術文章的元數據整體仍然是孤立的,并且不能互操作。沒有全面的學術元數據來源可用于構建人工智能搜索資源。
營利性出版商以及索引數據庫繼續限制對其完整元數據的訪問,而元數據是一種越來越有價值的商業商品。因此,商業模式是更好的人工智能搜索的障礙之一。
值得慶幸的是,整個學術元數據格局正在迅速變化。有幾項進展將使人工智能搜索能力變得更好。
不同學術元數據來源之間需要元數據源互換和交叉比較。 Crossref、OpenAlex 和 ORCID 等元數據資源正在努力與 OA 資源以及許多出版商交換信息。谷歌和微軟在很大程度上還在堅持。
使用人工智能增強元數據的自動化方法正在迅速發展。這些方法從文章引用和參考文獻中添加主題信息,以改進可用的元數據。從關聯論文網絡中對信息進行預搜索挖掘是一個活躍的研究領域。
人工智能使用營利性出版商元數據構建增強的元數據,同時限制對實際專有主題標題和描述的訪問,是正在開發的另一種方法。
本文來自INFOTODAY,由新宇智慧編譯,有刪減。