2025年5月31日 星期六

歐盟 - 開發生成式人工智慧面對的著作權議題(筆記)

這篇摘錄一些來自EUIPO剛剛發佈的「THE DEVELOPMENT OF GENERATIVE ARTIFICIAL INTELLIGENCE FROM A COPYRIGHT PERSPECTIVE(從著作權觀點看生成式人工智慧的發展)」(是University of Turin的研究)的內容。

本篇僅摘錄有興趣的片段,整本400多頁,知識含量超大,恐怕是要花點時間的。

生成式AI的雙人(生成器與鑑別者)對抗架構(adversarial two-player framework),通過迭代雙人對抗的過程提生成式AI的能力。


以下是生成式AI的相關技術,簡報中有張訓練過程:


1.訓練數據集
2.使用各種方法蒐集數據
3.數據清理與代碼化(Data cleaning and tokenisation),移除無關數據,將數據分割為代碼(tokens)
4.機器學習
5.基礎模型(foundation models),對海量數據進行預訓練,能運用對文字、影像、聲音與影音內容的多功能任務
6.精煉模型(refined models),對基礎模型針對特定任務進行精練
7.擷取增強生成(Retrieval-Augmented Generation,RAG),結合生成能力與外部知識庫(knowledge base),包括文件與資料庫中的資訊,而非從機器學習得到的知識內容,以改進精確度與資料關聯性
8.使用者介面,通過提示語(prompts)或影像或文字提供存取生成式AI的能力

涉及生成式AI著作權議題的,首先就是訓練數據本身,可能是有智慧財產權保護的內容,因此用於訓練生成式AI的內容應需要經過授權。

著作權相關議題包括:
1.公共領域(public domain),這是不受到著作權保護的內容,如著作權過期的內容,以及著作權人宣告放棄權利的內容。個人資料並不受到著作權保護,但有其他資料保護的法律,如歐洲的GDPR。
2.重製權(reproduction right)。
3.資料庫的權利(database rights)。
4.電腦程式的權利(rights in computer programs),電腦程式權是針對電腦程式的複製和修改(包括翻譯、改編和編排),但這權利
不延展到涉及概念與原理的邏輯、演算法與電腦語言
5.新聞業者的權利(press publisher's rights)。

根據歐盟頒布數位單一市場著作權指引(copyright in the Single Market Directive,CDSM directive),針對生成式AI訓練很重要的文字與資料探勘(text and data mining,TDM)流程,也就是通過分析輸入的數據得出AI模型的參數與權重,因為這部分會需要重製訓練數據集,CDSM針對用於生成式AI的資料的權利提供特定的限制,當用在科學研究,可由任何人(包括商業AI開發人員)執行文字與資料探勘(TDM)。然而,重要的是,這個例外條款取決於權利人是否要保留「重製權」,使他可以選擇退出上述例外(opting-out),也就是著作權人可以通過公開表示拒絕他人重製(生成式AI的訓練集仰賴“重製”數據)其著作。

更者,根據『EU Artificial Intelligence Act(歐盟人工智慧法案/AI Act)』,規定一般目的AI模型的提供者遵守上述CDSM(Art. 4)有義務公開AI足夠的訓練數據集細節,使得著作權人可以伸張自己的權利  

列舉在歐盟中涉及著作權與AI訓練的訴訟:

- Kneschke vs. LAION,其中LAION是用於訓練生成式AI的文字影像數據的主要供應商,德國法院判定基於CDSM(Art. 3)提供科學研究內容探勘的例外條款,但仍提出遵守上述CDSM(Art. 4)的附帶條件。如此,其實是提供的內容擁有者(著作權人)新的收入來源,並提出驅動授權使用數據的因素:(1)用於機器學習的數據短缺;(2)數據品質與數據註解的重要性;(3)生成式AI 開發人員風險與相對談判能力的態度;(4)替代訓練集的合成數據的角色。

以下就是歐盟AI Act對於一般目的AI模型開發者制定的監管框架,主要開發者有義務要揭露足夠數據集的細節。


其中有兩個層面的數據,其一是生成式AI的輸入數據,這類數據主要是通過網路爬蟲程式( web scraping)搜集得到,著作權人通過AI Act主張權利;第二種是生成式AI的輸出數據,AI Act要求生成式AI產生的資料透明化,在以工具識別出合成數據的本質。運用上述兩類數據開發GenAI的流程:


列舉美國有代表性的訴訟,也涉及我們日常可能都在用的AI:

- Andersen v. Stability AI

- Getty Images v. Stability AI

- 例如過去報導過正在審理期間的-從訴狀理解生成式AI並看紐約時報對OpenAI告什麼? - New York Times v. Microsoft Corp., OpenAI, Inc. (N.Y.S.D. Dec. 27, 2023)(https://enpan.blogspot.com/2024/01/aiopenai-new-york-times-v-microsoft.html)。

補充(法院意見April 4, 2025,updated on May 31, 2025):法院否決OpenAI撤銷直接侵權、撤銷共同著作權侵權以及撤銷州與聯邦商標稀釋主張等請願,但同意撤銷不公平競爭與從內容摘要(abridgment)的侵權主張。

my two cents:
接下來就是要看看以上訴訟案例。

PDF:https://euipo.europa.eu/tunnel-web/secure/webdav/guest/document_library/observatory/documents/reports/2025_GenAI_from_copyright_perspective/2025_GenAI_from_copyright_perspective_FullR_en.pdf

簡報:https://euipo.europa.eu/tunnel-web/secure/webdav/guest/document_library/observatory/documents/reports/2025_GenAI_from_copyright_perspective/2025_GenAI_from_copyright_perspective_executive_brief_en.pdf

Ron

沒有留言: