2025年6月12日 星期四

美國Copyright Office的生成式AI與著作權報告(1)

美國版權局:https://www.copyright.gov/

早在2023年美國聯邦記事(federal register March 16, 2023)就已經探討審查與註冊包含以AI技術生成的著作的政策。

到了上個月(May 2025),看到美國版權局發表「著作權與AI」的報告,這裡筆記第三部分 - Generative AI Training (pre-publication)  。


PART 3
Copyright and AI:https://www.copyright.gov/ai/Copyright-and-Artificial-Intelligence-Part-3-Generative-AI-Training-Report-Pre-Publication-Version.pdf


討論議題一:著作權保護的內容如何以及為何用於發展生成式人工智慧模型(generative AI model)?(以下為根據報告內容整理的重點)

I. 建立生成式AI的機器學習
機器學習的基本概念是使用輸入資料與期待的輸出資料形成的訓練集(training data)建立一個數學模型(statistical model),通過數學演算法學習歷史數據的特徵建立的模型能執行預測,經比對實際數據後,調整學習得出的模型,使之預測數據愈來愈接近實際數據。

根據以上簡單描述機器學習的概念,生成式AI是運用"使用神經網路(neural network)建立模型的機器學習演算法"生成的AI模型,神經網路的功能由參數(parameters/結構/數值)描述,用於定義輸入資料與輸出資料之間的映射關係(mapping of inputs to outputs),大量的參數形成神經網路計算高複雜度轉換演算的權重(weights)。(在此一提的是,一開始神經網路中各節點連結關係賦予隨機數值(權重),也不會產生/預測什麼有意義的資訊(與期待輸出值差很大),但隨之反覆地運算並調節權重,改善效能得出使神經網路轉換出貼近期待輸出值的權重值)最終,得出可以反映從訓練集中學習的模式(pattern)的神經網路的權重,並可將訓練好的權重建立的模型應用在產品中,不過其中運用的訓練集也面臨著作權人的檢視。

II. 訓練生成式AI模型所需的資料
所謂「生成式AI/Generative AI」是一種數學模型,以語言模型為例,可以根據「前言」計算出各種「後語」的機率後,從中(機率最高者)決定「後語」,並可依據提示語(prompts)繼續生成一連串內容。

生成式AI的運作是估算出"tokens"(代碼)的機率而決定輸出的文字,其中運用了通過事先賦予數值的字詞,也就是將語言轉換成數值形式,如向量值,所述代碼就是連接著每兩個向量值,通過代碼機率的演算決定/預測轉換輸出的字詞。

然而,生成式AI,如語言模型(language model),訓練過程需要使用大量文字、影像與聲音,如影像模型,訓練過程需要大量的文字與影像。訓練時需要將文字、影像與聲音轉換成代碼(tokens),這些訓練集(training data)引起著作權爭議。

III.訓練模型與訓練資料的關係
可以從各種來源取得訓練集(training data),常見的就是以爬蟲程式(web crawlers)從網路上下載公眾可取得的資料以及原本就存在的資料庫,如wikipedia、專利資料庫等,也包括圖書館、書本的檔案,還有特別經過授權取得的資料。

從各種來源取得的資料需要通過一個組織程序(curation process,包括篩選/filtering、清洗/cleaning與編譯/compiling)預備成為訓練模型的訓練集。

訓練模型的過程包括訓練階段(training phase,還可分為pre-training, post-training, fine-tuning)與記憶階段(Memorization)。

在此一提的是,OpenAI稱在訓練階段耗費最大量的運算與儲存資源,以教導模型語言、文法與推理;在記憶階段並不是複製資料,而模型中的權重僅是大量反映出訓練代碼中資料統計關係的數值串。(不過,新聞與媒體聯盟(News/Media Alliance)認為,如果是這樣,為何AI生成的內容會是逐字一樣的內容,不論其中運算做了什麼,效果與記憶與保存是一樣的。)

當然,生成式AI不可能自己隨意生成內容,一定是訓練過程決定其輸出應為正確且貼近原意,因此生成(同過數值演算、模式/pattern設定)的內容應該要與原本來源一致或接近才對。這也導致了著作權爭議。

IV.在生成式AI系統中部署模型
在實際應用時,使用者不會直接與數學模型互動,這些模型是部署在AI系統中,其提供了軟體工具與使用者介面(如ChatGPT APP/webpage)。

模型輸出與其使用了什麼訓練集有關,並讓模型運作時仍擷取除了原本訓練集以外的內容,如擷取增強生成(retrieval-augmented generation,RAG)技術,許多模型運用搜尋引擎使用RAG,也就是在模型運行時,產生系統執行的查詢(query)將最高排序的結果以擴展的提示語回饋給模型,再輸出給使用者。

舉例來說,當詢問一個問題給生成式AI,生成式AI助理(Claude)即詢問外部搜尋引擎,取得搜尋結果的前幾名,如取自一些網站的文章,生成問題的答案。上述在訓練語部署生成式AI時取得的資料與內容,都是用來強化模型的能力。

基於以上描述為何生成式AI會涉及著作權保護的內容,包括訓練模型用的資料與部署模型時運用的外部資料。

討論議題二:是否有侵權行為?

著作權法(Copyright Act)賦予著作權人的權利包括再製(reproduce)、散布(distribute)、公開展演(publicly perform)與公開展示(publicly display)其創作,並及於衍生的創作(derivative works)(編按,參考我國著作權法:利用衍生著作之人,應取得衍生著作及原著作之著作財產權人之授權)。

建立侵權的表面證據(prima facie case of infringement)有兩個要件:(1)有效著作權的所有人身分(ownership of a valid copyright);(2)複製原創作品的構成要素(copying of constituent elements of the work that are original)。

建立與部署生成式AI的幾個階段中可能會使用"有著作權保護的內容",可能涉及多種侵害他人權利的法規,建立與部署生成式AI的幾個階段包括:(1)資料收集和管理(Data Collection and Curation);(2)訓練(training);(3)擷取增強生成(RAG);(4)輸出(output)。

(1)資料收集和管理(Data Collection and Curation)
在此階段是要建立訓練模型的訓練集(training dataset),包括下載資料、轉換資料成為不同格式的內容,例如向量演算、篩選內容以及修改,將會觸及內容的「重製權(right of reproduction),即便有許多資料在蒐集後會被拋棄(但有可能保留在資料庫),都可能面臨侵權的問題。

(2)訓練(training)
在訓練模型之前,建立的訓練集會有「重製權」的爭議,在訓練過程中,其中內容同樣會被批次(in batches)重製,或有一段時間持有被著作權保護的內容,面臨著作權侵權的疑慮;訓練過程也將迭代地更新模型的權重(weights)以優化效能,權重會涵蓋訓練集中有著作權保護的內容,因此最終使用這些權重的人(如OpenAI的企業客戶)都有可能涉及著作權爭議。

舉例來說,生成式AI會根據使用者輸入的提示語(prompts)而生成圖案,即便生成式AI再厲害,也不會無中生有(有學者提出:"a model is not a magical portal that pulls fresh information from some parallel universe into out own."),因此這些圖案可能與訓練過程中使用的訓練集中的影像一致,也就觸及著作權侵權的議題。


另外有人主張,很多數位檔案是被加密與壓縮儲存的,這些內容不會被直接理解,因此直接侵權的內容應該是固定的、可被理解、重製或被傳遞的。

進一步地,模型中的"權重"記憶從訓練集的特定表示式(經過抽象化/abstraction或是轉換),因此有人主張模型中的權重並不直接包含訓練集的內容,而是通過抽象化過程從資料集學習/萃取資訊,不能表示被保護原始內容,但這樣仍可能侵害「衍生著作權(derivative work right)」。

在案例"Kadrey v. Meta Platforms"中,法院認為Llama模型侵犯衍生著作的主張是沒有意義的,但是,這是因為法院認定模型中運用的資料是經過抽象化的資訊,而此案例中的原告並沒有主張模型"可能會"吐出(spit out)被著作權保護的真實內容,或是輸出與原始著作權保護內容足夠相似的內容

在案例"Andersen v. Stability AI"中,法院否決了第三方(非原告或被告)提出撤銷訴訟的請願,此第三方並未參與模型的訓練過程,但下載並使用已經被訓練好的模型模型中事實上具有以特定格式存在的原始內容的副本或被保護的元件,因此,此案法院的判斷並同於上述Kadrey案中認為訓練與操作存在實質差異的決定。

USPTO基於以上法院意見,認為,判斷模型的權重是否涉及「重製權」或是「衍生著作權」,需要判斷是否模型保存或是記憶從原始內容得出實質可被保護的表示內容("substantial protectable expression from the work at issue"),從以上意見可知,在準備訓練集時使用的內容以及訓練模型都涉及"重製權",而使用最終得出的權重中僅實質相似的內容則會侵害著作權。

(3)擷取增強生成(RAG)
基本上,RAG會有兩種工作方式,第一種是AI開發者複製內容到擷取資料庫(retrieval database),生成式AI系統會存取資料庫以取得需要的內容,並隨著使用者的提示語(prompts)提供給AI模型;第二種則是生成式AI系統從外部來源(搜尋引擎或網站)取得內容。如此,RAG同樣會涉及著作權中的重製權。

RAG是許多的AI產品重要的特徵,如此,RAG的使用將涉及內容擁有者的利害關係,也就是有侵害著作權的疑慮。

(4)輸出(output)
生成式AI會輸出與原始著作權保護內容相似的內容,使用者也可以證明生成式AI可以產生接近電影內容的畫面、角色或是文字,這樣輸出的內容可能侵害重製權以及衍生著作權。

有些人認為,基於輸出內容的形式與其受眾,生成式AI將涉及公眾展示與演示的權利。

(後續將繼續筆記正當使用/合理使用/fair use)
判斷是否合理使用的幾個因素:
(1) the purpose and character of the use, including whether such use is of a commercial nature or is for nonprofit educational purposes;
(2) the nature of the copyrighted work;
(3) the amount and substantiality of the portion used in relation to the copyrighted work as a whole; and
(4) the effect of the use upon the potential market for or value of the copyrighted work.

Ron

沒有留言: