用户名: 密码:    忘记密码   注册   在线充值
一种描述词的分类方法及设备  
 【申请号】  CN201610195403.5  【申请日】  2016-03-30
 【公开号】  CN107291722A  【公开日】  2017-10-24
 【申请人】  阿里巴巴集团控股有限公司  【地址】  英属开曼群岛大开曼岛资本大厦一座四层847号邮箱
 【共同申请人】  
 【发明人】  吴美玲
 【国际申请】    【国际公布】  
 【进入国家日期】  
 【专利代理机构】  北京同达信恒知识产权代理有限公司 11291  【代理人】  郭润湘
 【分案原申请号】  
 【国省代码】  KY
 【摘要】  一种描述词的分类方法及设备,可首先基于各描述词样本的特征数据及各描述词样本所对应的类别训练得到分类模型;然后基于该分类模型对各待分类描述词进行分类,并根据得到的分类结果更新描述词样本集合,以及基于更新后的描述词样本集合对分类模型进行更新,再基于更新后的分类模型对所述待分类描述词集合中的各待分类描述词进行分类。也就是说,可通过循环迭代的方式,从大量未分类描述词中选取最具有信息量的描述词进行自动标记,并更新到已有的描述词样本集合中,以扩展分类模型的训练集、提高分类模型的健壮性及分类精度,从而可在节省人力资源消耗的基础上提升描述词分类结果的准确性。
 【主权项】  一种描述词的分类方法,其特征在于,所述方法包括:确定待分类描述词集合以及所述待分类描述词集合中的各待分类描述词的特征数据;基于设定的分类模型,对所述待分类描述词集合中的各待分类描述词进行分类,预测各待分类描述词的所属类别;其中,所述设定的分类模型是根据描述词样本集合中的各描述词样本的特征数据以及各描述词样本所对应的类别所训练得到的;基于预测结果,从所述待分类描述词集合中筛选出满足如下条件的描述词:预测得到的该描述词的所属类别和与该描述词之间的距离最短的描述词样本的所属类别相一致;将筛选出的描述词以对应的类别为本次预测得到的该描述词的所属类别的方式加入描述词样本集合中,得到更新后的描述词样本集合,并将筛选出的描述词从待分类描述词集合中删除,得到更新后的待分类描述词集合;基于更新后的描述词样本集合对所述设定的分类模型进行更新;并基于更新后的分类模型对所述待分类描述词集合中的各待分类描述词进行分类。
 【页数】  19
 【主分类号】  G06F17/30
 【专利分类号】  G06F17/30
   推荐下载阅读CAJ格式全文 查询法律状态
(不支持迅雷等加速下载工具,请取消加速工具后下载。)

 


专利产出状态分析  
本领域科技成果与标准  
发明人发表文献
申请机构(个人)发表文献
本专利研制背景
本专利应用动态
所涉核心技术研究动态
京 ICP 证 040431 号 网络出版服务许可证 (总)网出证(京)字第 271 号经营性网站备案信息 京公网安备 11010802020460 号
© 2010-2017 中国知网(CNKI) 《中国学术期刊(光盘版)》电子杂志社有限公司 KDN 平台基础技术由 KBASE 11.0 提供
服务热线:400-810-9888 订卡热线:800-810-6613
在线咨询:http://help.cnki.net 客服中心:http://service.cnki.net 电子邮件:help@cnki.net
可信网站 诚信网站