4月22日,OpenAI发布了一款名为PrivacyFilter的前沿模型,旨在脱敏文本中的个人身份信息(PII)。该模型已在HuggingFace和GitHub平台以Apache2.0许可协议开源,允许开发者下载、定制及商业部署。
PrivacyFilter模型内置深层次的语言理解能力,能够根据上下文识别非结构化文本中的个人信息,并进行遮盖或脱敏。与传统依赖规则匹配的工具不同,该模型采用双向Token分类架构,总参数规模为15亿,但每次仅激活约5000万个参数。这种混合专家(MoE)设计使其能在资源受限的设备上运行。模型支持高达12.8万个Token的上下文窗口,单次前向传播即可完成标注,并采用受限维特比算法解码出连贯的片段。
PrivacyFilter可识别八类个人敏感信息,包括姓名、地址、邮箱地址、电话号码、URL链接、日期、账号信息和机密信息。在PII-Masking-300k基准测试中,模型取得了96%的F1分数。OpenAI指出,该模型在少量数据上进行微调即可快速提升特定领域的准确性,且能在高精度与高召回率之间按需调整。PrivacyFilter定位为在本地运行的预过滤层,数据在不离开用户设备的前提下完成PII的检测与脱敏处理,有效控制个人信息的暴露风险。

来源:一电快讯
返回第一电动网首页 >
以上内容由AI创作,如有问题请联系admin#d1ev.com(#替换成@)沟通,AI创作内容并不代表第一电动网(www.d1ev.com)立场。
文中图片源自互联网或AI创作,如有侵权请联系邮件删除。