ChatGPT之類的生成式人工智能為研究人員和創作者提供了無數可能性,但也引發了一些風險,比如侵犯版權的問題。當人工智能從網絡抓取信息來回答用戶的問題時,這些信息實際上屬于其他創作者。這可能給二次使用這些信息的人帶來風險。而且,抓取的信息原本可能是不準確的。今天,我們將探討由人工智能生成的書面內容,以及內容創作者需要了解的事項。
探索新領域:版權
一位名叫Daniel Restrepo的律師指出,在知識產權(IP)和生成式人工智能(generative AI)監管方面存在利益沖突,“版權旨在鼓勵創作者與公眾分享新穎的想法。” 但是,“在推動和促進AI和機器學習的發展可以產生巨大利益。” Restrepo補充說,“除了ChatGPT自身的新穎之處,AI對企業、政府管理和國家安全都具有重要價值。
問題在哪里呢? Restrepo指出:“如果我們不給AI生成的內容,尤其是為AI設計者提供知識產權,那么當內容進入公共領域時,他們面臨的風險將更加顯著。” 另一名律師肯寧頓·格羅夫指出,還有一些其他棘手的問題,比如根據美國版權局最近提供的指南,當AI生成的內容源自未經授權的受版權保護材料時,創作者存在潛在的侵權風險。由于AI系統在互聯網和數字平臺上獲取信息以回應用戶查詢,它們可能無意間使用其他創作者擁有的受版權保護的內容,有時甚至直接照搬了信息。這引發了對AI開發者和依賴AI生成信息的用戶侵權的擔憂。
此外,一篇博客《包含人工智能生成材料的美國版權指南》中提到,版權注冊有一些要求:“在注冊包含人工智能生成材料的作品時,創作者必須在注冊申請中說明使用了人工智能。這個說明有助于版權辦公室評估人類作者在作品中的貢獻。”
當然,登記作品并非強制性的,版權在創作時會自動產生(盡管在侵權情況下,創作者可能無法獲得懲罰性賠償)。然而,生成式人工智能的運作方式并非許多人所想象的那樣簡單。
理解生成式人工智能的工作原理
這就像一個大學生寫論文,老師要求他用自己的話總結幾篇研究,并結合這些資料表達自己的理解。這和在網上購買論文或復制文章的學生有所不同,后者顯然構成了抄襲。因為生成式人工智能的工作方式,解決生成內容的抄襲和版權問題會相當困難。“因為它們是生成新內容,而不是簡單地復制,要證明它們侵犯了別人的權利非常難。”
從理論上來說,生成的內容算是個改編作品。它是從很多很多作品中汲取靈感的,所有這些作品都對最終的輸出有一點點貢獻。這不是說法律手段不能找到一些侵權行為,但風險相當小。” 當然,對于寫作的人來說,有一些工具,比如Grammarly的查重工具或者老師使用的Turnitin,可以識別抄襲。還有一些工具,比如OpenAI的AI文本分類器,可以幫助判斷一段文本是人寫的還是機器生成的。
生成式人工智能準確嗎?
生成式人工智能的風險在于它的表達能力太強了,它輸出的結果看起來就像是一個能力很強的人說出來的,或者是他創造的。這也讓人很容易忽略一些微小的問題。比如說,你用GenAI翻譯患者治療疾病的說明,可能會有一些細節上的錯誤,但因為整體看起來沒問題,所以沒人會注意到。可如果這導致了患者受到傷害,那責任應該落在誰身上呢?目前所有GenAI工具的服務條款都說得很明白,它們的輸出并不提供任何實用性的保證,這就意味著用它們的人要對一切負責。僅僅說“我覺得應該沒問題”是解決不了問題的。已經出現一些關于不準確信息的訴訟案例,但未來很可能會有更多情況,就像因為使用了GenAI卻沒有充分監管而被起訴的組織一樣。
另外,AI系統的固有特性也帶來了不準確性的風險,因為它們是在有限的數據集上訓練的。以ChatGPT為例,是在2021年的數據上訓練的。雖然GPT-4已經提醒了用戶這一點,但系統可能采用已經被證明不正確的舊知識,問題就變得復雜了。比如系統描述某人是一個被定罪的兇手,但在訓練后的某個時間點,該人被證明是清白的。這種風險甚至存在于非人工智能生成的內容中,因為人類在研究時可能會漏掉一些事實。但是,生成式人工智能可能會讓這個問題更加突出。
因此,在探索這項技術時,內容創作者需牢記三個關鍵要點:首先,將生成式人工智能視為輔助寫作的工具,而非替代品;其次,務必仔細核查事實;最后,對于任何依賴生成式人工智能輸出內容的創作,即便只是在很小程度上,都應使用能夠減少潛在侵犯版權風險的工具進行檢查。
本文來自Information Today官網,由新宇智慧編譯,有刪減。