enpan's Patent & Linux practice: 「生成式人工智能数据应用合规指南」中使用訓練模型數據時應注意事項

2026年3月9日星期一

本來想找「人工智能生成内容合规管理指南」文件，但意外地看到這個很相似但著重於「應用」的中國電子商會發布的「生成式人工智能数据应用合规指南」（檔案：https://www.ttbz.org.cn/Home/PdfFileStreamGet/c3QsMTA3MjY5），我覺得其中有些不錯的提醒。

找到其中「知識產權保護」段落：（其中提到＂提供者＂指＂生成式AI＂的提供者）

其中提到取得數據訓練模型時，應採取以下手段防止對智慧財產權的侵害：

a) 對於已超過著作權保護期限進入公有領域的作品，提供者可以收集相關資料投入模型訓練，但應避免在生成內容中侵犯著作權人的署名權、修改權與保護作品完整權等著作人身權；

b) 對仍在著作權保護期限內的作品，提供者應主動採取措施取得著作權人的授權，以明確知悉其作品可用於生成式人工智慧的模型訓練；

c) 建議提供者透過著作權集體管理組織取得著作權人的授權；

d) 對於商標權、專利權、商業機密等其他類型的智慧財產權，建議提供者根據資料類型和資料來源進行必要甄別（鑑別並區分優劣），如發現有侵權可能的，應避免採集或取得權利人的授權；

e) 提供者應對「專利、商標、著作權、商業機密典型禁止性行為」進行風險排查。

數據採集合規要求：

數據標註合規要求：

訓練數據的預處理合規要求

提高訓練數據質量：

1.真實性，需要可靠的來源

2.準確性，數據清洗，需要去重、去除異常值、糾正錯誤

3.客觀性，避免人為干擾、偏見、主觀

4.多樣性，充分考慮數據來源，均衡與多樣化，防止生成存在偏見或歧視

5.安全性，檢核數據來源

數據增強（合成數據）：

模型訓練：
1.預訓練，選擇合法來源的基礎模型

2.優化訓練，通過預訓練後形成的算法模型，進一步使用已標註數據進行優化訓練

3.模型驗證，使用驗證數據（可使用相同來源的數據，但訓練時應保持相對獨立／不使用）優化模型參數與設置

4.模型測試：

Ron

2026年3月9日 星期一