半结构化网页中商品属性抽取方法研究
发布时间:2021-08-30 22:29
互联网技术的高速发展使得在线购物得到极大普及,国内以淘宝、京东为代表的各类电子商务网站发展尤为迅猛。在线商品交易需要在网页中对商品属性信息进行尽可能详细的展示,这使得从互联网中获取大量商品属性信息成为可能。如果能有效组织与管理互联网中大量组织样式复杂的商品属性信息,将在商品评论的观点挖掘、情感分析、个性化产品推荐等领域发挥更积极的作用。目前网页信息抽取方法有很多,但是其中大部分都需要人工标记抽取结构,一旦减少人工参与,抽取的准确率就会随之下降。而且很多方法不能很好适应网页的变化,一旦网页样式改变,就需要重新构建网页信息抽取的包装器。为了解决上述问题,本文首先尝试了基于网页中商品信息描述网页块定位的商品属性信息抽取方法。该方法在利用VIPS算法将网页内容分块的基础上,训练分类器实现用于商品信息描述的网页块的判定。然后提出基于单位词表的商品属性记录对齐方法抽取属性信息描述网页块中的商品属性“名-值”对。在对第一个方法进行分析的基础上,本文又提出了基于商品详情页标题,构建自适应模板的商品属性信息提取方法。该方法利用大量属于同一领域的商品详情页标题构建领域属性词包,然后利用属性词包从网页定位优...
【文章来源】:苏州大学江苏省 211工程院校
【文章页数】:67 页
【学位级别】:硕士
【部分图文】:
商品详情页示例网页
采用VIPS对网页进行切分的效果图
网页商品属性描述网页块对应HTML源码示例
【参考文献】:
期刊论文
[1]一种全自动生成网页信息抽取Wrapper的方法[J]. 梅雪,程学旗,郭岩,张刚,丁国栋. 中文信息学报. 2008(01)
[2]基于树模型算法的动态网页信息抽取研究和实现[J]. 邵辉,李芳. 计算机应用与软件. 2007(10)
[3]Web信息提取的形式化分析[J]. 邓超,熊选东,孙莉. 微计算机应用. 2007(01)
[4]基于子树匹配的交互式Web数据抽取方法[J]. 张慧颖,曲著伟. 计算机工程. 2006(09)
[5]半结构化网页中多记录信息的自动抽取方法[J]. 朱明,王庆伟. 计算机仿真. 2005(12)
[6]基于DOM的Web信息抽取[J]. 崔继馨,张鹏,杨文柱. 河北农业大学学报. 2005(03)
[7]信息抽取研究综述[J]. 李保利,陈玉忠,俞士汶. 计算机工程与应用. 2003(10)
硕士论文
[1]半结构化网页的信息抽取技术研究[D]. 祝美莲.中国石油大学 2011
[2]基于Web的商品信息抽取与融合的研究与实现[D]. 王丽.武汉理工大学 2008
本文编号:3373620
【文章来源】:苏州大学江苏省 211工程院校
【文章页数】:67 页
【学位级别】:硕士
【部分图文】:
商品详情页示例网页
采用VIPS对网页进行切分的效果图
网页商品属性描述网页块对应HTML源码示例
【参考文献】:
期刊论文
[1]一种全自动生成网页信息抽取Wrapper的方法[J]. 梅雪,程学旗,郭岩,张刚,丁国栋. 中文信息学报. 2008(01)
[2]基于树模型算法的动态网页信息抽取研究和实现[J]. 邵辉,李芳. 计算机应用与软件. 2007(10)
[3]Web信息提取的形式化分析[J]. 邓超,熊选东,孙莉. 微计算机应用. 2007(01)
[4]基于子树匹配的交互式Web数据抽取方法[J]. 张慧颖,曲著伟. 计算机工程. 2006(09)
[5]半结构化网页中多记录信息的自动抽取方法[J]. 朱明,王庆伟. 计算机仿真. 2005(12)
[6]基于DOM的Web信息抽取[J]. 崔继馨,张鹏,杨文柱. 河北农业大学学报. 2005(03)
[7]信息抽取研究综述[J]. 李保利,陈玉忠,俞士汶. 计算机工程与应用. 2003(10)
硕士论文
[1]半结构化网页的信息抽取技术研究[D]. 祝美莲.中国石油大学 2011
[2]基于Web的商品信息抽取与融合的研究与实现[D]. 王丽.武汉理工大学 2008
本文编号:3373620
本文链接:https://www.wllwen.com/guanlilunwen/ydhl/3373620.html