6月5日,科技媒体TheDecoder报道指出,微软最新发布的MAI系列AI模型在训练过程中部分使用了未获授权的开放网络数据,这与微软之前所声称的“仅采用企业级、干净且商业授权数据”相矛盾。微软在宣传MAI系列模型时强调,这些模型完全基于干净数据从零开始训练,并未使用来自第三方模型的蒸馏数据。然而,官方披露的技术论文显示,MAI模型实际上依赖于商业授权数据和包括CommonCrawl在内的开放网络数据的混合方案,覆盖了授权语料和互联网公开内容。
微软在网络数据获取方式上声称使用自有爬虫,并遵守RobotsExclusionProtocol(机器人排除协议,
网页链接)以及相关元标签和HTML控制项。争议点在于,对于未屏蔽内容,默认视为可被抓取,内容保护责任实际上更多落到网站所有者身上,这种逻辑近似于“没有锁门就等于同意进入”。

来源:一电快讯
返回第一电动网首页 >
以上内容由AI创作,如有问题请联系admin#d1ev.com(#替换成@)沟通,AI创作内容并不代表第一电动网(www.d1ev.com)立场。
文中图片源自互联网或AI创作,如有侵权请联系邮件删除。