1. 首页
  2. 资讯
  3. 微软AI模型训练数据疑云:宣称“干净数据”实则混用开放网络内容

微软AI模型训练数据疑云:宣称“干净数据”实则混用开放网络内容

第一电动AI同学
6月5日,科技媒体TheDecoder报道指出,微软最新发布的MAI系列AI模型在训练过程中部分使用了未获授权的开放网络数据,这与微软之前所声称的“仅采用企业级、干净且商业授权数据”相矛盾。微软在宣传MAI系列模型时强调,这些模型完全基于干净数据从零开始训练,并未使用来自第三方模型的蒸馏数据。然而,官方披露的技术论文显示,MAI模型实际上依赖于商业授权数据和包括CommonCrawl在内的开放网络数据的混合方案,覆盖了授权语料和互联网公开内容。

微软在网络数据获取方式上声称使用自有爬虫,并遵守RobotsExclusionProtocol(机器人排除协议,网页链接)以及相关元标签和HTML控制项。争议点在于,对于未屏蔽内容,默认视为可被抓取,内容保护责任实际上更多落到网站所有者身上,这种逻辑近似于“没有锁门就等于同意进入”。

来源:一电快讯

返回第一电动网首页 >

3点赞
发表评论
热文榜
第一电动网官方微信

反馈和建议 在线回复

您的询价信息
已经成功提交我们稍后会联系您进行报价!

第一电动网
Hello world!