找到其中「知識產權保護」段落:(其中提到"提供者"指"生成式AI"的提供者)
其中提到取得數據訓練模型時,應採取以下手段防止對智慧財產權的侵害:
a) 對於已超過著作權保護期限進入公有領域的作品,提供者可以收集相關資料投入模型訓練,但應避免在生成內容中侵犯著作權人的署名權、修改權與保護作品完整權等著作人身權;
b) 對仍在著作權保護期限內的作品,提供者應主動採取措施取得著作權人的授權,以明確知悉其作品可用於生成式人工智慧的模型訓練;
c) 建議提供者透過著作權集體管理組織取得著作權人的授權;
d) 對於商標權、專利權、商業機密等其他類型的智慧財產權,建議提供者根據資料類型和資料來源進行必要甄別(鑑別並區分優劣),如發現有侵權可能的,應避免採集或取得權利人的授權;
e) 提供者應對「專利、商標、著作權、商業機密典型禁止性行為」進行風險排查。
數據採集合規要求:
數據標註合規要求:
訓練數據的預處理合規要求
提高訓練數據質量:
1.真實性,需要可靠的來源
2.準確性,數據清洗,需要去重、去除異常值、糾正錯誤
3.客觀性,避免人為干擾、偏見、主觀
4.多樣性,充分考慮數據來源,均衡與多樣化,防止生成存在偏見或歧視
5.安全性,檢核數據來源
數據增強(合成數據):
模型訓練:
1.預訓練,選擇合法來源的基礎模型
1.預訓練,選擇合法來源的基礎模型
2.優化訓練,通過預訓練後形成的算法模型,進一步使用已標註數據進行優化訓練
3.模型驗證,使用驗證數據(可使用相同來源的數據,但訓練時應保持相對獨立/不使用)優化模型參數與設置
4.模型測試:
Ron
沒有留言:
張貼留言