2025年12月29日 星期一

訓練AI模型不一定會影響原著的潛在市場 - Kadrey v. Meta (N.D. Cal. June 25, 2025)

訓練AI模型不一定會影響原著的潛在市場 - Kadrey v. Meta (N.D. Cal. June 25, 2025) 

  

案件資訊: 

原告:Richard Kadrey, et al. 

被告:Meta Platforms, Inc. 

判決日期:June 25, 2025 

  

本案是由13個小說作者對Meta提出著作權侵權告訴,控告Meta從線上圖書庫下載他們的書籍訓練Llama大型語言模型,爭議就是Meta的行為是否是合理使用? 

  

原告主要提出兩個Meta侵權(影響市場)的事實,第一是,Llama會重製書籍中的片段;第二是,Meta並未獲得允許使用它們的書籍訓練AI模型,也就削弱書籍作者們可以授權訓練AI的能力。 

  

討論的主題是Meta的行為是否是合理使用,同樣地,判斷合理使用考量的4個因子: 

1. The purpose and character of the use, including whether such use is of a commercial nature or is for nonprofit educational purposes;(使用的目的與特性,是商業本質或是非營利教育目的) 

2. The nature of the copyrighted work;(使用受著作權保護作品的本質) 

3. The amount and substantiality of the portion used in relation to the copyrighted work as a whole; and(使用受到著作權保護的作品的量與實質性) 

4. The effect of the use upon the potential market for or value of the copyrighted work.(對於受著作權保護的作品的潛在市場的影響) 

  

參考前篇「Bartz v. Anthropic PBC (N.D. Cal. June 23, 2025)」法院判決,基於使用的目的與特性來判斷是否合理使用的第一個因子,法院同意訓練AI模型屬於”transformative”(變形),書籍本身的存在是提供閱讀,但是Meta所萃取的型態(pattern)與統計資訊是用以強化文字產生器(如LLM),本案法官判定這類從書籍中萃取出資訊以訓練AI模型,屬於合理使用。 

  

(編按,根據美國版權局發布的生成式AI與著作權報告,其中提到本案,法院認為Llama模型侵犯衍生著作的主張是沒有意義的,這是因為法院認定模型中運用的資料是經過抽象化的資訊,而此案例中的原告並沒有主張模型"可能會"吐出(spit out)被著作權保護的真實內容,或是輸出與原始著作權保護內容足夠相似的內容。) 

  

Factor One: 

本篇判決對於Factor One的解釋可以參考:第一因子判斷二次使用是否是”transformative”,也就是判斷新的著作僅是取代原著,或是以特定目的或是不同性質而加了新事物?(the first factor focuses on whether the secondary use is “transformative”—that is, on whether and to what extent “the new work merely supersedes the objects of the original creation (supplanting the original), or instead adds something new, with a further purpose or different character.” 

  

明顯地,Meta使用原告書籍是用於特定目的以及使其具有不同的性質,也就是Meta使用具有”transformative”,因此Meta在此判斷下符合合理使用。 

  

Factor Two: 

本篇判決對於Factor Two的解釋是,有些作品是更接近著作權要保護的對象,使得其被複製時更難認定是合理使用”some works are closer to the core of intended copyright protection than others, with the consequence that fair use is more difficult to establish when the former works are copied.” 

  

本案原告的作品-書籍,多半是小說、回憶錄與戲劇,這類屬於高度表現力的作品,這正是著作權想要保護的對象,並且著作權還保護這些作者的表達方式”manner of expressing” 

  

因此,當Meta訓練AI模型時使用了這類作品,並不容易被判定是合理使用。其中,根據Meta自己的說法,在訓練LLM時,學習的是這些作品中文字與概念的"統計關係/statistical relationships”,如文字的順序、使用頻率、文法與語法(syntax)等。 

  

但是,法院明察秋毫,既使Meta認為其取得的內容並非屬於文字表達的資訊,認為其行為是一種 intermediate copying”(中間複製),但法院同意原告說法,Meta侵權事實是使用了原告的書籍副本,建立的資料庫也是讓使用者可以搜尋到他們的書籍,並且Meta想要訓練的是高品質的LLM,因此需要高品質的訓練數據,也就需要如原告他們的高品質的表達方式。 

  

在此判斷下,Meta並非合理使用。(不過法官認為用這個判斷因子斷定合理使用的影響很小) 

  

Factor Three: 

本篇判決對於Factor Three的解釋是:使用的部分的量與實質性是與複製的目的有合理關聯(“asks whether ‘the amount and substantiality of the portion used’” are “reasonable in relation to the purpose of the copying.” 

  

(法官表示本案與此因子關係不大) 

  

Factor Four: 

本篇判決對於Factor Four的解釋是:此因子是要查被控侵權者的特定行為造成著作權人利益損害的程度,以及是否會對原著的潛在市場造成實質不利影響?(”This factor looks to both the “extent of market harm caused by the particular actions of the alleged infringer” and to “‘whether unrestricted and widespread conduct of the sort engaged in by the defendant . . . would result in a substantially adverse impact on the potential market’ for the original.”” 

  

在此一提的是,上述因子或許證明了Meta的使用產生了”transformative”,但是Meta仍可能非合理使用,主要的理由是因為Meta(超大搜尋引擎)與使用者的接觸會影響原著的市場。 

  

本案原告主張被告已經侵害其潛在市場,主要理由是,(1)Meta訓練的模型會輸出與原著實質相似的內容;(2)原告們可將其作品授權用於AI訓練,並且使用未授權副本訓練AI也傷害原著的市場;(3)即便模型不會重製他們的作品,或是產生實質相似的內容,但模型可以產生足夠相似的內容而可能與原著競爭,或是間接取代原著。 

  

法院認為原告們多慮了,因為認為Llama並不會讓使用者產生任何原著書籍中有意義的片段。其中,本案經專家證人測試,即便提供原告提供的提示詞(這裡用語是”adversarial prompting”Llama無法從原告的任一本書產出超過50個字,顯見無法從Llama取得足夠多的書籍內容。 

  

(編按,據此證明Meta訓練AI模型Llama時只萃取書中用以強化LLM的型態(pattern)與統計資訊,而複製實質的內容。另外,本案判決也順便提到Google Books,曾有法院(Second Circuit)判決Google Books的二次使用(讓使用者看到頂多16%內容的原著)並沒有威脅到著作權人的任何實質利益,如版權收益。) 

  

整篇來說,Factor Four才是最重要的討論議題,本案例原告要主張的,以及法官的判決依據,主要是基於合理使用的第四個因子是否”Meta的使用影響了原著作的潛在市場? 

  

判決提到,如果要判斷是否有市場稀釋(market dilution),最恰當的比較不是比對一個沒有LLM的世界,而使比較一個沒有使用受到版權保護的作品訓練的LLM。如果LLM的訓練僅是基於一般公眾領域的作品,LLM仍可能會快速產生大量可以與版權書籍競爭的作品。當複製書籍作為AI訓練數據不是合理使用時,AI的開發者會找出授權他們想要使用的內容的方式。如果書對Meta訓練AI而言是好的,他們會付費取得授權。 

  

但是,原告並沒有證明其市場被稀釋,明顯地法官認為Meta使用原告著作的方式為高度變化(highly transformative),並沒有影響原著的潛在市場,因為AI產生的內容並不是原本著作內容;換句話說,法官認為,即便被告以某種方式複製原告作品,並不代表可以替代原作品,加上原告也無法證明被告的行為侵占了原作者該有的市場。 

  

  

  

Ron 

沒有留言: