面向汽车领域知识图谱构建的研究与实现
发布时间:2024-03-02 05:41
进入二十一世纪以来,人们逐渐意识到了信息、数据的重要性。但是现在网络上的数据呈井喷式增长,如何从海量数据中快速搜索出自己感兴趣的数据是一个亟待解决的问题。知识图谱的兴起能够帮助我们解决这一难题,知识图谱能够挖掘出实体间的语义关系,能够帮助我们更好地组织数据。随着人们生活水平的提高,汽车已经是人们生活中必不可少的一部分了,人们对于汽车领域相关信息的需求也越来越大。面向汽车领域的知识图谱能够方便人们查询汽车领域的相关资讯、配置、评论等信息。本文首先介绍了汽车领域知识图谱的研究背景和意义,然后阐述了知识图谱构建技术的现状,并分析了存在的问题。目前存在的三元组抽取算法,普遍都是直接从网页文本中抽取三元组,得到的三元组质量不是很高。用代词来替代上文中提到的对象是汉语中常用的表达方式,之前的算法往往会造三元组中的头实体和尾实体可能是“他”、“他们”等代词,极大的降低了三元组的质量。本文根据汽车领域数据信息的特征,提出了一套完整的汽车领域知识图谱构建算法,能够很好的解决这个问题。首先用Scrapy爬虫框架爬取新浪汽车网、网易汽车网和太平洋汽车网等汽车领域相关数据信息,其次用决策树算法对爬取的文本进行...
【文章页数】:71 页
【学位级别】:硕士
【部分图文】:
本文编号:3916418
【文章页数】:71 页
【学位级别】:硕士
【部分图文】:
图1.3网页的DOM树结构
第1章绪论。正则表达式是将网页内容当做一个字符串来处理,它优点在于,运行速度较快,耗时较少,效率相对比较高。但是正则表达式语法比较难,对于复杂网页,写出正确高效的正则表达式是一个考验。BeautifulSoup是python一个HTML解析库,我们可以利用Bea....
图3.3奥迪Q5百度百科词条
图3.3奥迪Q5百度百科词条从词条半结构化信息中,我们可以获得的知识三元组如下表所示。表3.1抽取的知识三元组头实体关系(属性)尾实体奥迪Q5品牌奥迪奥迪Q5生产厂商一汽奥迪/进口奥迪奥迪Q5参考价格35.85-67.80万奥迪Q5油耗1....
图5.2系统登录界面
图5.2系统登录界面若用户忘记了密码,可以进入密码找回页面,输入用户名,系统会将新发送到该用户的邮箱中。
图5.3密码找回界面
图5.2系统登录界面若用户忘记了密码,可以进入密码找回页面,输入用户名,系统会将新口发送到该用户的邮箱中。
本文编号:3916418
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3916418.html
最近更新
教材专著