用户名: 密码:    忘记密码   注册   在线充值
基于上下文环境实现互联网视听节目提取的方法  
 【申请号】  CN201410065728.2  【申请日】  2014-02-26
 【公开号】  CN103778256A  【公开日】  2014-05-07
 【申请人】  赛特斯信息科技股份有限公司  【地址】  210042 江苏省南京市玄武区玄武大道699-22号18幢
 【共同申请人】  
 【发明人】  逯利军;钱培专;焦建华;林强;戚永蕾;张昆;张树民;宋聚平;侯卫东;李克民
 【国际申请】    【国际公布】  
 【进入国家日期】  
 【专利代理机构】  上海智信专利代理有限公司 31002  【代理人】  王洁;郑暄
 【分案原申请号】  
 【国省代码】  32
 【摘要】  本发明涉及一种基于上下文环境实现互联网视听节目提取的方法,其中包括加载预定义的视听节目元数据库;加载需要提取视听节目网站的种子地址;下载需要提取视听节目网站的网页内容;判断下载的网页是否为一视听节目的播放页面;对于播放页面,查找该视听节目的上文并生成视听节目单,对于不是播放页面的,根据加载的视听节目元数据库量化该下载的网页内容作为视听节目上文并存入上文集合中。采用该种基于上下文环境实现互联网视听节目提取的方法,实现了在不针对特定网站创建提取模板的情况下,提取所有互联网上网站的视听节目,可以规避视听节目信息抓取过程中不必要的干扰,保证视听节目信息抓取的准确性,具有更广泛的应用范围。
 【主权项】  一种基于上下文环境实现互联网视听节目提取的方法,其特征在于,所述的方法包括以下步骤:(1)加载预定义的视听节目元数据库;(2)加载需要提取视听节目网站的种子地址;(3)下载需要提取视听节目网站的网页内容;(4)判断下载的网页是否为一视听节目的播放页面,如果是,则继续步骤(5),否则继续步骤(6);(5)查找该视听节目的上文并生成视听节目单;(6)根据加载的视听节目元数据库量化该下载的网页内容作为视听节目上文并存入上文集合中。
 【页数】  8
 【主分类号】  G06F17/30
 【专利分类号】  G06F17/30
   推荐下载阅读CAJ格式全文 查询法律状态
(不支持迅雷等加速下载工具,请取消加速工具后下载。)

 


专利产出状态分析  
本领域科技成果与标准  
发明人发表文献
申请机构(个人)发表文献
本专利研制背景
本专利应用动态
所涉核心技术研究动态
京 ICP 证 040431 号 网络出版服务许可证 (总)网出证(京)字第 271 号经营性网站备案信息 京公网安备 11010802020460 号
© 2010-2017 中国知网(CNKI) 《中国学术期刊(光盘版)》电子杂志社有限公司 KDN 平台基础技术由 KBASE 11.0 提供
服务热线:400-810-9888 订卡热线:800-810-6613
在线咨询:http://help.cnki.net 客服中心:http://service.cnki.net 电子邮件:help@cnki.net
可信网站 诚信网站