enpan's Patent & Linux practice: 歐盟 - 開發生成式人工智慧面對的著作權議題（筆記）

2025年5月31日星期六

歐盟 - 開發生成式人工智慧面對的著作權議題（筆記）

這篇摘錄一些來自EUIPO剛剛發佈的「THE DEVELOPMENT OF GENERATIVE ARTIFICIAL INTELLIGENCE FROM A COPYRIGHT PERSPECTIVE（從著作權觀點看生成式人工智慧的發展）」（是University of Turin的研究）的內容。

本篇僅摘錄有興趣的片段，整本400多頁，知識含量超大，恐怕是要花點時間的。

生成式AI的雙人（生成器與鑑別者）對抗架構（adversarial two-player framework），通過迭代雙人對抗的過程提生成式AI的能力。

以下是生成式AI的相關技術，簡報中有張訓練過程：

1.訓練數據集

2.使用各種方法蒐集數據

3.數據清理與代碼化（Data cleaning and tokenisation），移除無關數據，將數據分割為代碼（tokens）

4.機器學習

5.基礎模型（foundation models），對海量數據進行預訓練，能運用對文字、影像、聲音與影音內容的多功能任務

6.精煉模型（refined models），對基礎模型針對特定任務進行精練

7.擷取增強生成（Retrieval-Augmented Generation，RAG），結合生成能力與外部知識庫（knowledge base），包括文件與資料庫中的資訊，而非從機器學習得到的知識內容，以改進精確度與資料關聯性

8.使用者介面，通過提示語（prompts）或影像或文字提供存取生成式AI的能力

涉及生成式AI著作權議題的，首先就是訓練數據本身，可能是有智慧財產權保護的內容，因此用於訓練生成式AI的內容應需要經過授權。

著作權相關議題包括：
1.公共領域（public domain），這是不受到著作權保護的內容，如著作權過期的內容，以及著作權人宣告放棄權利的內容。個人資料並不受到著作權保護，但有其他資料保護的法律，如歐洲的GDPR。
2.重製權（reproduction right）。
3.資料庫的權利（database rights）。
4.電腦程式的權利（rights in computer programs），電腦程式權是針對電腦程式的複製和修改（包括翻譯、改編和編排），但這權利不延展到涉及概念與原理的邏輯、演算法與電腦語言。
5.新聞業者的權利（press publisher's rights）。

根據歐盟頒布數位單一市場著作權指引（copyright in the Single Market Directive，CDSM directive），針對生成式AI訓練很重要的文字與資料探勘（text and data mining，TDM）流程，也就是通過分析輸入的數據得出AI模型的參數與權重，因為這部分會需要重製訓練數據集，CDSM針對用於生成式AI的資料的權利提供特定的限制，當用在科學研究，可由任何人（包括商業AI開發人員）執行文字與資料探勘（TDM）。然而，重要的是，這個例外條款取決於權利人是否要保留「重製權」，使他可以選擇退出上述例外（opting-out），也就是著作權人可以通過公開表示拒絕他人重製（生成式AI的訓練集仰賴“重製”數據）其著作。

更者，根據『EU Artificial Intelligence Act（歐盟人工智慧法案/AI Act）』，規定一般目的AI模型的提供者遵守上述CDSM（Art. 4）有義務公開AI足夠的訓練數據集細節，使得著作權人可以伸張自己的權利。

列舉在歐盟中涉及著作權與AI訓練的訴訟：

- Kneschke vs. LAION，其中LAION是用於訓練生成式AI的文字影像數據的主要供應商，德國法院判定基於CDSM（Art. 3）提供科學研究內容探勘的例外條款，但仍提出遵守上述CDSM（Art. 4）的附帶條件。如此，其實是提供的內容擁有者（著作權人）新的收入來源，並提出驅動授權使用數據的因素：(1)用於機器學習的數據短缺；(2)數據品質與數據註解的重要性；(3)生成式AI 開發人員風險與相對談判能力的態度；(4)替代訓練集的合成數據的角色。

以下就是歐盟AI Act對於一般目的AI模型開發者制定的監管框架，主要開發者有義務要揭露足夠數據集的細節。

其中有兩個層面的數據，其一是生成式AI的輸入數據，這類數據主要是通過網路爬蟲程式（ web scraping）搜集得到，著作權人通過AI Act主張權利；第二種是生成式AI的輸出數據，AI Act要求生成式AI產生的資料透明化，在以工具識別出合成數據的本質。運用上述兩類數據開發GenAI的流程：

列舉美國有代表性的訴訟，也涉及我們日常可能都在用的AI：

- Andersen v. Stability AI

- Getty Images v. Stability AI

- 例如過去報導過正在審理期間的-從訴狀理解生成式AI並看紐約時報對OpenAI告什麼？ - New York Times v. Microsoft Corp., OpenAI, Inc. (N.Y.S.D. Dec. 27, 2023)（https://enpan.blogspot.com/2024/01/aiopenai-new-york-times-v-microsoft.html）。

補充（法院意見April 4, 2025，updated on May 31, 2025）：法院否決OpenAI撤銷直接侵權、撤銷共同著作權侵權以及撤銷州與聯邦商標稀釋主張等請願，但同意撤銷不公平競爭與從內容摘要（abridgment）的侵權主張。