2024年1月11日 星期四

從訴狀理解生成式AI並看紐約時報對OpenAI告什麼? - New York Times v. Microsoft Corp., OpenAI, Inc. (N.Y.S.D. Dec. 27, 2023)

案件資訊:
原告:THE NEW YORK TIMES COMPANY
被告:MICROSOFT CORPORATION, OPENAI, INC., OPENAI LP, OPENAI GP, LLC, OPENAI, LLC, OPENAI OPCO LLC, OPENAI GLOBAL LLC, OAI CORPORATION, LLC, and OPENAI HOLDINGS, LLC
事由:違反著作權(OPEN AI非法使用紐約時報的著作)
提告時間:December 27, 2023

(內容很多,快速瀏覽

即便是生成式AI,仍需要「內容」來建立模型以及生成內容,負責任地來說(至少就商業營運來說),總是要有正確來源以及正確內容,因此負責「產生內容」的來源(新聞來源)成為被侵權對象。搜尋引擎、社群媒體也是類似的概念。


訴狀很大一篇是在建立訴訟基礎,也就是有170年歷史的紐約時報(1851年創立)擁有兩個世紀的新聞資料,所雇用的記者、編輯投入大量的時間著作大量有品質的內容。

提到的理由之一是,通過以上基礎生成的內容,生成式AI通過科技能夠快速產生品質不一的內容,威脅了高品質新聞媒體,在因為網際網路、電視媒體與各種媒體已經有生存問題的傳統媒體而言,如果AI還能"合法使用"新聞內容,將使得傳統媒體無法產生與保護它們獨立產生的內容,甚至影響公眾利益。

紐約時報要求第三方取得允許後才能商業使用它們產生的內容,並且已經有許多業者與訂閱者已經獲得合法授權的內容,明顯地,AI也不能例外。訴訟目的是能伸張智慧財產權,並能以商業條款互利。

(訴訟內容完整地揭露OPEN AI的GPT發展過程。)

生成式AI(GenAI)模型如何訓練?其中以電腦技術運用大量文字範例訓練而發展成大型語言模型(LLM),LLM從訓練大量的文集(corpus)以形成GPT(Generative Pre-training Transformer,生成式預訓練轉換器)的參數,根據輸出的回饋調整參數以縮減模型預測的文字與實際文字之間的差異。其中GPT-4 LLM使用1.76 trillion(兆)個參數執行文字預測,LLM生成的內容再回饋到自己,以生成文字段落,並且能根據使用者提交的提示(prompts)回應內容。


完成訓練的LLM怎麼運作?


LLM生成模型的過程有兩個階段,第一階段是要以大量數據進行「預訓練(pre-trained)」產生的"transformer model"(轉換模型);第二階段是對監督下的資料集(supervised dataset)執行「微調(fine-tuned)」。

其中第一階段需要收集大量的文字內容,以生成訓練集(training ),並通過多個GPT模型處理大量內容,其中所需要大量的內容,包括紐約時報聲稱被告未經授權使用的紐約時報內容

訴狀中揭露GPT-3(GPT-4沒有公開這些,但預料更多)運用爬蟲(crawl)程式獲得資料集的網站來源,明顯地紐約時報網站是很重要的來源之一,特別注意到的是,Google Patents是占比最高的來源(各位專利文件貢獻了GPT的成長):


如何證明GPT使用紐約時報內容,證據就從GPT的輸出來看,看來,就特定事件的新聞內容而言,GPT"copy"了紐時新聞內容,並沒有太多"生成內容":


紐約時報宣稱:(1)GPT記憶紐約時報的副本與衍生內容,以及(2)GPT合成從紐約時報內容搜尋得到的內容。


從與GPT對話的內容可以得出紐約時報原始未授權內容(僅摘錄)


從Bing搜尋結果也可得出未授權內容(僅摘錄):


甚至問個統計問題(此例是列舉對心臟有益的飲食),也是紐約時報曾經的報導:


還有"假新聞"!


基於以上證據,紐約時報聲稱OPEN AI與Microsoft蓄意侵害著作權(Willful Infringement)、不當使用商業內容(Misappropriation of Commercial Referrals)、錯誤歸咎紐約時報的幻覺(“Hallucinations” Falsely Attributed to The Times),已經傷害紐約時報利益。

原告主張:
COUNT I: Copyright Infringement (17 U.S.C. § 501)
COUNT II: Vicarious Copyright Infringement
COUNT III: Contributory Copyright Infringement(針對微軟)
COUNT IV: Contributory Copyright Infringement(對所有被告)
COUNT V: Digital Millennium Copyright Act – Removal of Copyright Management
Information (17 U.S.C. § 1202)
COUNT VI: Common Law Unfair Competition By Misappropriation
COUNT VII: Trademark Dilution (15 U.S.C. § 1125(c))

紐約時報新聞:https://www.nytimes.com/2023/12/27/business/media/new-york-times-open-ai-microsoft-lawsuit.html



Ron

沒有留言: