2026年3月9日 星期一

「生成式人工智能数据应用合规指南」中使用訓練模型數據時應注意事項

本來想找「人工智能生成内容合规管理指南」文件,但意外地看到這個很相似但著重於「應用」的中國電子商會發布的「生成式人工智能数据应用合规指南」(檔案:https://www.ttbz.org.cn/Home/PdfFileStreamGet/c3QsMTA3MjY5),我覺得其中有些不錯的提醒。

找到其中「知識產權保護」段落:(其中提到"提供者"指"生成式AI"的提供者)

其中提到取得數據訓練模型時,應採取以下手段防止對智慧財產權的侵害:
a) 對於已超過著作權保護期限進入公有領域的作品,提供者可以收集相關資料投入模型訓練,但應避免在生成內容中侵犯著作權人的署名權修改權與保護作品完整權等著作人身權;
b) 對仍在著作權保護期限內的作品,提供者應主動採取措施取得著作權人的授權,以明確知悉其作品可用於生成式人工智慧的模型訓練
c) 建議提供者透過著作權集體管理組織取得著作權人的授權;
d) 對於商標權專利權商業機密等其他類型的智慧財產權,建議提供者根據資料類型資料來源進行必要甄別(鑑別並區分優劣),如發現有侵權可能的,應避免採集或取得權利人的授權
e) 提供者應對「專利、商標、著作權、商業機密典型禁止性行為」進行風險排查

數據採集合規要求:

數據標註合規要求:

訓練數據的預處理合規要求
提高訓練數據質量:
1.真實性,需要可靠的來源
2.準確性,數據清洗,需要去重、去除異常值、糾正錯誤
3.客觀性,避免人為干擾、偏見、主觀
4.多樣性,充分考慮數據來源,均衡與多樣化,防止生成存在偏見或歧視
5.安全性,檢核數據來源

數據增強(合成數據):

模型訓練:
1.預訓練,選擇合法來源的基礎模型
2.優化訓練,通過預訓練後形成的算法模型,進一步使用已標註數據進行優化訓練
3.模型驗證,使用驗證數據(可使用相同來源的數據,但訓練時應保持相對獨立/不使用)優化模型參數與設置
4.模型測試:

Ron

沒有留言: