今日,一项集体诉讼被发起,指控Adobe在训练其SlimLM语言模型时使用了大量盗版书籍,其中包括作家Elizabeth Lyon的作品。Lyon是一位来自俄勒冈州的非虚构作家,出版了多本写作指导类书籍。Adobe的SlimLM是一个面向移动设备文档辅助场景的小语言模型,其预训练基础为SlimPajama-627B数据集,该数据集由Cerebras于2023年发布,被描述为去重、多语料的开源集合。然而,诉讼文件指出SlimPajama数据集的来源存在问题,它是在复制并加工RedPajama数据集的基础上生成的,而RedPajama包含广受争议的Books3数据集,后者收录了约19.1万本书籍,其中包含大量受版权保护的作品。
诉讼明确指出,SlimPajama作为RedPajama的派生数据集,同样包含Books3内容,因此不可避免地纳入了原告及其他作者的版权作品。这并非Adobe首次面临此类争议,此前苹果和Salesforce也因涉嫌在AI训练中使用相关数据集而遭到起诉。AI模型对训练数据规模的高度依赖,使得数据来源问题频频引发法律风险。今年9月,Anthropic同意向多名作者支付15亿美元,就其训练Claude时使用盗版作品的指控达成和解,该案件被视为AI训练版权争议的重要节点。然而,行业内持续扩大的法律挑战仍未终结。
来源:一电快讯
返回第一电动网首页 >
以上内容由AI创作,如有问题请联系admin#d1ev.com(#替换成@)沟通,AI创作内容并不代表第一电动网(www.d1ev.com)立场。
文中图片源自互联网或AI创作,如有侵权请联系邮件删除。