注册 登录  
 加关注
   显示下一条  |  关闭
温馨提示!由于新浪微博认证机制调整,您的新浪微博帐号绑定已过期,请重新绑定!立即重新绑定新浪微博》  |  关闭

山歌

微信公众号:Jack-Xiaoshan

 
 
 
 
 

日志

 
 

Web内容抽取及语义识别  

2009-10-02 12:55:38|  分类: 默认分类 |  标签: |举报 |字号 订阅

  下载LOFTER 我的照片书  |
对比分析了几种Web页面结构分析和主题内容提取的方法,并在此基础上提出了——基于统计的方法和基于坐标树的 方法。基于统计的方法是一种简单而有效的方法,它从本质上抓住了网页的设计特征和HTML源代码的特征,通用性高。实验表明该方法切实可行,具有较高的准 确率。但该方法只对主题文字内容有效,对相关连接和相关图片等多媒体信息就显得力不从心。因此,本文又提出新型的基于坐标树的方法,该方法针对DOM缺乏 位置信息的不足,加入了坐标信息生成坐标树,并且还给出了能反映网页空间关系的图
  评论这张
 
阅读(17)| 评论(0)
推荐 转载

历史上的今天

在LOFTER的更多文章

评论

<#--最新日志,群博日志--> <#--推荐日志--> <#--引用记录--> <#--博主推荐--> <#--随机阅读--> <#--首页推荐--> <#--历史上的今天--> <#--被推荐日志--> <#--上一篇,下一篇--> <#-- 热度 --> <#-- 网易新闻广告 --> <#--右边模块结构--> <#--评论模块结构--> <#--引用模块结构--> <#--博主发起的投票-->
 
 
 
 
 
 
 
 
 
 
 
 
 
 

页脚

网易公司版权所有 ©1997-2017