2025年6月15日 星期日

用於訓練AI的資料的著作權侵權與合理使用議題 - Thomson Reuters v. ROSS (District Court of Delaware [2023])

本篇討論「Thomson Reuters v. ROSS」的Delaware地方法院判決,路透社自己的報導:Thomson Reuters wins AI copyright 'fair use' ruling against one-time competitor(https://www.reuters.com/legal/thomson-reuters-wins-ai-copyright-fair-use-ruling-against-one-time-competitor-2025-02-11/),說明法院判決著作權法不允許(如本案ROSS)可以使用他人內容建立競爭的AI為基礎的法律系統。

本篇報導是法官BIBAS針對2023年對本案簡易判決意見的回顧與檢討,但也是直指目前法院對這類議題(運用他人的內容訓練AI模型)的看法。內容需要花時間理解,因為法院的意見很有“解釋空間”,並且法官意見也挺模稜兩可,加上我對內容意見的理解也十分頭痛,以及本議題充滿爭議,因此有興趣者應該找到原文判決來理解。

本案法官BIBAS在一開始引用了一句名言:a smart man knows when he is right; a wise man knows when he is wrong. 但法官謙虛地表示智慧不總是找到他,但他嘗試擁抱,即便來得比較晚(因為在此備忘錄中他反悔了2023年的一些決定)。

Thomson Reuters擁有最大的法律平台-Westlaw,讓一般使用者付費使用,其中除了一般大眾可使用的判例與法規外(經過組織),還有經過編輯的內容與註釋(如判決摘要與關鍵點等),著作權屬於Thomson Reuters。


ROSS開發使用AI的法律研究搜尋引擎,不意外地,在訓練AI搜尋工具時,需要大量的數據以訓練AI可以回答法律問題的法律答案,ROSS曾經想向Westlaw授權使用資料庫,但被拒絕。因此轉向去取得其他來源的數據,如LegalEase與BulkMemos。

特別地,LegalEase運用Westlaw內容建立自己法律問答的資料庫,LegalEase賣給ROSS兩萬多筆備忘錄用來訓練AI搜尋工具;另一方面,BulkMemos使用Westlaw的註釋建立律師問答資料庫,ROSS也運用BulkMemos訓練自己的AI。顯然,ROSS即便不直接使用Westlaw,但是訓練AI搜尋工具的數據仍是間接使用了Westlaw的內容。

導致Thomson Reuters向ROSS提出著作權侵權訴訟(May 2020)。

這件有趣的議題是,因為Westlaw的數據來源是一般大眾可取得的法律訴訟資料,其中具有著作權的內容是針對訴訟與判決所加註的內容。因此,對於原告Thomson Reuters來說,必須證明其擁有了哪些有效的著作權,以及證明ROSS複製了什麼被保護的著作權原創?

事實證明,因為Thomson Reuters對其擁有的內容已經進行註冊,因此擁有Westlaw中被保護的內容的著作權(經過著作權註冊的內容是明確有效的著作權證明),只是本次訴訟是針對Westlaw中的註釋,而非整體,而著作權保護的是“原創”,即便Westlaw註釋內容已經註冊著作權,但被告仍是可以反駁這些被保護內容“非原創”

被告ROSS主張的是所使用的內容多數是通過電腦程式完成,且其中比較高階的主題都是基於法律學校的課程。

不過著作權保護的“原創”也不是多麼高的門檻(與著作人多麼努力產生無關)。

一般可知,針對訴訟文件的註釋都很短,而其中法院的見解也不能主張著作權(可參考:法院意見不能用來主張著作權的1888年意見 - Banks v. Manchester, 128 U.S. 244 (1888)https://enpan.blogspot.com/2025/06/1888-banks-v-manchester-128-us-244-1888.html

據此可知,非政府機關的Thomson Reuters對其資料中法院意見並不擁有著作權,但其中註釋有其原創(來自提煉、綜合或解釋/distilling, synthesizing, or explaining),可主張著作權

再者,基於著作權法對於“原創”的判斷標準並不高,因此,即便Westlaw中以電腦程式進行管理與提供一些高階題目如學校教科書內容,仍有其最低程度的原創(不用太努力得出的內容也是原創)。

上述討論已經確立Westlaw包括原創內容與不可主張著作權的部分,接著的問題是,被告有否使用其中原創內容,這就涉及事實問題:

Actual copying:法院的工作要一則則比對是否有侵權事實,這也與訓練AI的實際過程有關,有些在某些階段被拋棄,有些則繼續使用...


Substantial similarity:這是要檢驗“後製作品”實質上用了哪些受著作權保護的“原創”內容?判斷的基準是由“產品”的一般使用者(ordinary user)認為與受到著作權保護的作品為實質相似,這裡也認為律師、法官都算是Westlaw(法律平台)的註釋的一般使用者,所以法官
BIBAS本人就可以判斷是否ROSS實質上使用了Westlaw的註釋,也相信陪審團應該也是。

結果,如Appendix A,法官認為ROSS使用的BulkMemos中的法律問題與Westlaw實質一樣,但也不是每個部分都實質一樣,如關於註釋的內容實質一樣,但對於案例的意見就不相同。

法官駁回被告4個"不侵權"主張的意見:
關於侵權,ROSS主張其“無辜侵權(innocent infringement)”,這避免不了侵權判定,主要是希望排除或減少損害賠償,但如果著作權人曾經發出著作權通知,就不成立無辜侵權,本案原告是有發出過通知,因此ROSS主張的無辜侵權並不成立。

ROSS主張Thomson Reuters濫用著作權(copyright misuse),法官澄清“濫用著作權”是當著作權人將著作權當作武器而危害到公眾利益時使用,也就是被告可以“濫用著作權”主張原告“anti-competitive behavior(反競爭行為)”的抗辯理由,而本案報告並未能證明原告濫用著作權。

另外,法院也駁回ROSS主張原告主張著作權的內容的想法都很接近,以至於它們的結合不應該有著作權,但法官不同意,因為法官認為並非所有想法很接近,反而是有許多方式可以表達對法律的觀點,因此原告創作的內容可主張著作權(copyrightable)。

ROSS提出「scenes à faire defense」抗辯,原告主張著作權內容的衍生內容(法律註釋)屬於作品本質的常見元素(stock element)作為抗辯,舉例:歷史小說中落難的少女("落難少女"是這類小說常見的元素,藉此對比本案Westlaw中法律註釋)。但法官認為,法律意見並不需要簡化到Thomson Reuters作的註釋或是分類成一些關鍵數字,因此Westlaw中的註釋(headnote)並不通常。

最後,關於著作權法中「合理使用(fair use)」的抗辯,考量是否「合理使用」原創的四個因素:
(Factor 1) the use’s purpose and character, including whether it is commercial or nonprofit;(使用原創的目的與特點,是否是商業或非營利用途?)
(Factor 2) the copyrighted work’s nature;(著作權作品的本質)
(Factor 3) how much of the work was used and how substantial a part it was relative to the copyrighted work’s whole; and(使用多少內容,相對著作權作品的全部,實質使用內容的比例為何?)
(Factor 4) how Ross’s use affected the copyrighted work’s value or potential market.(就本案而言,ROSS的使用如何影響著著作權作品的價值或是潛在市場?)

其中Factor 1與4是本案判定ROSS非合理使用的理由。

Factor 1:
(1)ROSS自己也承認,ROSS使用Westlaw被著作權保護的內容(其中的法律註釋)是商業用途,且沒有付出相應的費用。

(2)ROSS使用Westlaw內容並不具變革性/轉換性(not transformative),也就是ROSS使用Westlaw內容經過幾次處理都仍有高度相似的目的。例如,ROSS使用Thomson Reuters的註釋成為訓練AI搜尋工具的資料,並與Westlaw競爭,其中面對用戶提出的問題,ROSS的搜尋工具只從資料庫找到相關的司法意見,這樣就不是生成式AI,而僅是複製Westlaw內容

其中有趣的爭論是,即便ROSS爭辯其執行電腦程式並未讓Westlaw中法律註釋出現在其最終產品,而僅在中間處理步驟時複製Westlaw內容,這是屬於「合理使用」沒錯。不過,本案並非是複製電腦程式碼的著作權問題,縱使ROSS運用這些料有經過數值化處理再餵給AI,ROSS使用Westlaw註釋內容使得他能夠輕易地建構出法律搜尋工具,如此,ROSS的動作並非是變革性的(not transformative),並非屬於"合理使用"的範疇

補充,上述「中間複製/intermediate copying」的合理使用是基於競爭創新,以及為了達到特定功能但沒有其他表示方式時,為達特定目的,複製是合理的需要。


(3)由於Thomson Reuters曾拒絕ROSS使用其資料庫,但ROSS仍自他人間接取得Westlaw內容,使其行為屬於惡意(bad faith)。然而,即便行為不屬於惡意,上述兩點已經可知ROSS的行為非合理使用。

Factor 2:
Westlaw中針對法條與案例的註釋的創造性(creativity)確實不高,但仍具有創造性的元素,只是沒那麼高而已。如此,此因素是偏向ROSS,只是Factor 2對於本案“合理使用”的判斷影響並不大。

Factor 3:
法院判定是否“合理使用”時,考量了被告使用內容的量("the quantity of the materials used")以及內容的品質與重要性("their quality and importance")。ROSS產品提供給其用戶的是司法意見,並非Westlaw的註釋,Westlaw註釋是用來訓練AI,並沒有讓Westlaw註釋公諸於大眾,其輸出與原創僅有一些相關。此因素是偏向ROSS。

Factor 4:
此因素討論被告ROSS的抄襲是否影響著作權價值與潛在市場,無疑地是判定被告是否“合理使用”最重要因素。不僅考量原本著作權人現有的市場,也要考慮潛在的發展,現有市場是法律研究平台,而現在知道後續潛在市場是「訓練法律AI的資料」。

如此,可知Thomson Reuters將可以將其資料用於訓練AI,並可販售註釋內容作為訓練資料。但ROSS可以證明並非如此。

綜合上述4個factors分析,法官駁回ROSS合理使用的抗辯。

總體上,法院否決被告ROSS的不侵權主張


參考資料:

Ron

沒有留言: