用户名: 密码:    忘记密码   注册   在线充值
一种分词方法及装置  
 【申请号】  CN201410006570.1  【申请日】  2014-01-07
 【公开号】  CN103678282A  【公开日】  2014-03-26
 【申请人】  苏州思必驰信息科技有限公司  【地址】  215123 江苏省苏州市工业园区仁爱路258号C106
 【共同申请人】  
 【发明人】  王欢良;薛峰;惠寅华;赵鹏程;俞凯
 【国际申请】    【国际公布】  
 【进入国家日期】  
 【专利代理机构】  北京科亿知识产权代理事务所(普通合伙) 11350  【代理人】  汤东凤
 【分案原申请号】  
 【国省代码】  32
 【摘要】  本发明公开了一种分词方法及装置,属于信息处理领域。该方法包括:利用n阶马尔科夫模型n-gram模型,将待分词文本进行分词,得到第一文本;当该第一文本中包括目标词串时,将该目标词串添加至词典,得到更新后的词典,该目标词串为未存储在该词典中的词串,该词典用于存储所有的词串以及对应的估计概率;根据该更新后的词典,利用前向最大匹配分词方法以及后向最大匹配分词方法对该第一文本按预设算法进行分词,分别得到第二文本和第三文本;从该第二本文以及该第三文本中选取词长期望和词长方差符合预设规则的文本作为分词结果。本发明通过仅将新词添加至现有词典中,对现有词典进行更新,使得在不增加分词歧义的前提下,灵活地添加新词。
 【主权项】  一种分词方法,其特征在于,所述方法包括:利用n阶马尔科夫模型n?gram模型,将待分词文本进行分词,得到第一文本,所述n?gram模型用于消除分词歧义,所述第一文本包括以空格为间隔的词串;当所述第一文本中包括目标词串时,将所述目标词串添加至词典,得到更新后的词典,所述目标词串为未存储在所述词典中的词串,所述词典用于存储所有的词串以及对应的估计概率;根据所述更新后的词典,利用前向最大匹配分词方法以及后向最大匹配分词方法对所述第一文本按预设算法进行分词,分别得到第二文本和第三文本,所述前向最大匹配分词方法以及后向最大匹配分词方法用于按照预设策略将第一文本的汉字串与所述更新后的词典中的词条进行匹配;从所述第二本文以及所述第三文本中选取词长期望和词长方差符合预设规则的文本作为分词结果。
 【页数】  11
 【主分类号】  G06F17/27
 【专利分类号】  G06F17/27;G06F17/30
   推荐下载阅读CAJ格式全文 查询法律状态
(不支持迅雷等加速下载工具,请取消加速工具后下载。)

 


专利产出状态分析  
本领域科技成果与标准  
发明人发表文献
申请机构(个人)发表文献
本专利研制背景
本专利应用动态
所涉核心技术研究动态
京 ICP 证 040431 号 网络出版服务许可证 (总)网出证(京)字第 271 号经营性网站备案信息 京公网安备 11010802020460 号
© 2010-2017 中国知网(CNKI) 《中国学术期刊(光盘版)》电子杂志社有限公司 KDN 平台基础技术由 KBASE 11.0 提供
服务热线:400-810-9888 订卡热线:800-810-6613
在线咨询:http://help.cnki.net 客服中心:http://service.cnki.net 电子邮件:help@cnki.net
可信网站 诚信网站