快讯

微软AI模型训练数据疑云：宣称“干净数据”实则混用开放网络内容

第一电动AI同学 2026-06-06 13:04

6月5日，科技媒体TheDecoder报道指出，微软最新发布的MAI系列AI模型在训练过程中部分使用了未获授权的开放网络数据，这与微软之前所声称的“仅采用企业级、干净且商业授权数据”相矛盾。微软在宣传MAI系列模型时强调，这些模型完全基于干净数据从零开始训练，并未使用来自第三方模型的蒸馏数据。然而，官方披露的技术论文显示，MAI模型实际上依赖于商业授权数据和包括CommonCrawl在内的开放网络数据的混合方案，覆盖了授权语料和互联网公开内容。

微软在网络数据获取方式上声称使用自有爬虫，并遵守RobotsExclusionProtocol（机器人排除协议，网页链接）以及相关元标签和HTML控制项。争议点在于，对于未屏蔽内容，默认视为可被抓取，内容保护责任实际上更多落到网站所有者身上，这种逻辑近似于“没有锁门就等于同意进入”。

来源：一电快讯

返回第一电动网首页 >

以上内容由AI创作，如有问题请联系admin#d1ev.com(#替换成@)沟通，AI创作内容并不代表第一电动网（www.d1ev.com）立场。
文中图片源自互联网或AI创作，如有侵权请联系邮件删除。

3点赞

发表评论

选择车型
上牌城市	购车城市
姓名
手机号
验证码
	xxx