用户名: 密码:    忘记密码   注册   在线充值
文本脱敏方法以及装置  
 【申请号】  CN201910779947.X  【申请日】  2019-08-22
 【公开号】  CN110633577A  【公开日】  2019-12-31
 【申请人】  阿里巴巴集团控股有限公司  【地址】  英属开曼群岛大开曼资本大厦一座四层847号邮箱
 【共同申请人】  
 【发明人】  岳聪
 【国际申请】    【国际公布】  
 【进入国家日期】  
 【专利代理机构】  北京智信禾专利代理有限公司  【代理人】  李晓庆
 【分案原申请号】  
 【国省代码】  KY
 【摘要】  本申请提供文本脱敏方法以及装置,其中所述文本脱敏方法包括:对待脱敏文本进行向量化处理,获得待脱敏文本的词向量;基于文本特征对词向量进行标注,获得标注后的词向量在待脱敏文本中对应的词单元组成的词单元集合;根据词单元集合中包含的词单元的支持度创建频繁项集,并计算频繁项集中包含的频繁项的提升度;将提升度大于预设提升度阈值的频繁项对应的词单元确定为敏感词单元,并根据敏感词单元对待脱敏文本进行脱敏处理,获得脱敏文本。通过文本脱敏方法,提高了识别敏感词单元的准确率和覆盖率,从而在对文本进行脱敏的过程中能够提高文本中重要信息的脱敏效果,进而使得经过脱敏处理的文本中重要的信息得到了有效的保护。
 【主权项】  1.一种文本脱敏方法,其特征在于,包括:对待脱敏文本进行向量化处理,获得所述待脱敏文本的词向量;基于文本特征对所述词向量进行标注,获得标注后的词向量在所述待脱敏文本中对应的词单元组成的词单元集合;根据所述词单元集合中包含的词单元的支持度创建频繁项集,并计算所述频繁项集中包含的频繁项的提升度;将所述提升度大于预设提升度阈值的频繁项对应的词单元确定为敏感词单元,并根据所述敏感词单元对所述待脱敏文本进行脱敏处理,获得脱敏文本。
 【页数】  34
 【主分类号】  G06F21/62
 【专利分类号】  G06F21/62
   推荐下载阅读CAJ格式全文 查询法律状态
(不支持迅雷等加速下载工具,请取消加速工具后下载。)

 


专利产出状态分析  
本领域科技成果与标准  
发明人发表文献
申请机构(个人)发表文献
本专利研制背景
本专利应用动态
所涉核心技术研究动态
京 ICP 证 040431 号 网络出版服务许可证 (总)网出证(京)字第 271 号经营性网站备案信息 京公网安备 11010802020460 号
© 2010-2017 中国知网(CNKI) 《中国学术期刊(光盘版)》电子杂志社有限公司 KDN 平台基础技术由 KBASE 11.0 提供
服务热线:400-810-9888 订卡热线:800-810-6613
在线咨询:http://help.cnki.net 客服中心:http://service.cnki.net 电子邮件:help@cnki.net
可信网站 诚信网站