当前位置:主页 > 管理论文 > 移动网络论文 >

基于信息抽取技术的房屋租赁信息平台的设计与实现

发布时间:2020-05-09 09:16
【摘要】:快速发展的“互联网+”极大程度上便利了人们的生活,同时也深刻变革了很多行业。以“互联网+租房”为例,目前市面上就存在着诸如安居客、搜房网等多种线上房屋租赁信息平台。租客在租赁房屋时,多数用户会优先通过互联网方式来租赁房屋。然而大量网络上的租赁信息存在很多缺点,例如有的对信息本身的筛查把关不够严格,大多会出现夸大或隐瞒的情况;有的会收取一定数额的中介费用,这对希望可以直接联系房东并节省中介费的租客来说可以是一笔可控支出。当下租赁房屋已成为很多人的热点需求,对于如何在网页上拨开繁杂的大量无用信息准确快速地找到精准信息,并剔除中介高效地联系出租者或求租者,则变得很有意义。本文针对希望在互联网上得到比较真实的房源,并寻求经济的租客而言,构建了一个基于信息抽取技术的房屋租赁信息平台。该平台致力于搜集网页上海量的出租和求租信息,对于目标群体倾向于信息真实,乃至经济的特点,设计开发了此房屋租赁信息平台。平台主要搜集显示了网页上个人发布的非中介房源信息,对于出租者用户和求租者用户都有较好的信息体验。在信息的收集上,本文主要搜集来自豆瓣租房小组和各大校园BBS等社区网站,提取房源的详细信息。用户可根据关键地理位置和期望价格筛选目标信息,本平台提供的信息源基于爬虫技术以及规则和深度学习的信息抽取技术。本平台基于的信息抽取,主要是对中文命名实体进行识别抽取。目前针对序列标注领域的命名实体识别问题,主流的解决模型是将神经网络与CRF(条件随机场)模型相结合的RNN-CRF(循环神经网络-条件随机场)模型,但RNN(循环神经网络)在处理长文本时存在梯度弥散的不足,常用LSTM(长短时记忆模型)来代替,所以本信息抽取模型选取了 BiLSTM-CRF(双向长短时记忆模型-条件随机场)模型实现对房源具体信息中地理位置和机构名的识别抽取工作;而对于房源具体信息中的价格以及供需关系,则采用基于规则的信息抽取模型。
【图文】:

循环神经网络


处理任务按照序列化机制,某一结点的输出要依赖前面结点的计算结果输入,因逡逑此可以认为RNN具有记忆能力可以处理前后关联的数据。从理论上来讲RNN可逡逑以长时间序列化数据,但在实际效果中其往往只能向前查看几步,其结构如图2-1逡逑所示:逡逑在很多自然语言处理方面的问题上RNN己经取得了十分显著的效果:像词逡逑性标注,语句检查等。目前长短时记忆模型LSTM邋(Long邋Short-Term邋Memory)逡逑是应用最为广泛的RNN模型,这种模型在处理长期依赖时的效果要远远优于其逡逑他模型'逡逑0utput邋Layer逦’逡逑HiddenLayer邋ck逡逑input邋Layer逦^逡逑图2-1循环神经网络结构-图逡逑2.3.3长短时记忆模型逡逑长短时记忆模型(LSTM,邋Long邋Short-邋Term邋Memory),是属于RNN结构模逡逑型中的一种具体模型,LSTM可以解决标准循环神经网络产生的长距离依赖问题逡逑的缺陷,长时间传递梯度来使信息保持持久。其目的是使用过去的序列信息来推逡逑测当前的序列信息。逡逑14逡逑

结构图,结构图,节点,权值


Zfx逡逑图2-2LSTM结构图逡逑如图2-2所示,LSTM结构中的基本节点称为“cell”,输入及输出分别由输逡逑入门(Input邋Gate)、输出门(Output邋Gate)与cell交互,模型中同时加入遗忘门逡逑(ForgetGate)用以将不再需要的伯息丢弃,以达到一定程度上的记忆效果[2G]。逡逑通过遗忘门决定从cell状态中丢弃信息的程度,由s^moid函数将权值设为0逡逑到1之间的值:逡逑ft邋=邋sigmoid{UfXt邋+邋Wfht_x邋+邋bf)逦(2-1邋)逡逑式(2-1)中,xt是当前时刻的输入向量,心^是前一步隐藏层输出的向量,^逡逑表示输入信息的权值参数,Wf表示遗忘门循环的权值参数,岭是偏置项。逡逑在决定细胞的状态需要更新的信息时,,首先需要输入门确定更新的值,通过逡逑s^moid函数获得一个0到1之间的值,再通过tan/i函数获得新的候选细胞状态逡逑向量:逡逑it邋=邋sigmoid{JUiXt邋+邋Wih^邋+邋bi)逦(2-2邋)逡逑c't邋=邋tanh(Ucxt邋+邋Wcht^-i邋+邋bc)逦(2-3邋)逡逑式(2-2邋)中
【学位授予单位】:华中师范大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:TP391.1;TP393.09

【相似文献】

相关期刊论文 前10条

1 孙师尧;;信息抽取技术在军事标图系统中的应用[J];电子科技;2013年12期

2 郑彦宁;邓擘;;信息抽取技术在情报学中的应用分析[J];情报理论与实践;2008年05期

3 赵国荣;;数字图书馆信息抽取技术及应用[J];晋图学刊;2007年05期

4 张亚学;荣志光;曹林华;;浅谈信息抽取技术的“四种形式”和“四种功能”[J];国防技术基础;2006年10期

5 李芳,盛焕烨,姚天f ;信息检索与信息抽取技术的研究[J];计算机应用研究;2002年01期

6 崔继馨,孔维平;Web信息抽取技术的研究[J];信息技术教育;2004年10期

7 胡立诺;胡立岩;;技术检测中的信息抽取技术的应用分析[J];价值工程;2014年21期

8 李昕;王红梅;;信息抽取技术探析[J];通化师范学院学报;2008年04期

9 李中言;李普跃;;信息抽取技术在数字图书馆中的应用[J];现代情报;2007年10期

10 郭兴;柯鹏;徐媛;李宗荣;;论垂直搜索引擎中的信息抽取技术的选用[J];医学信息;2006年12期

相关会议论文 前8条

1 肖诗斌;孙丽华;王弘尉;施水才;;指标信息抽取技术的研究[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年

2 陈静;朱巧明;贡正仙;李培锋;;特定本体指导的信息抽取技术研究[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年

3 李昕;朱永盛 ;武港山;;论坛消息语义结构的提取与分析[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年

4 袁鸿雁;;Web表格信息抽取技术的研究[A];2008'中国信息技术与应用学术论坛论文集(一)[C];2008年

5 张霄军;;Web汉英平行新闻语料获取的困难及对策[A];第十届全国少数民族语言文字信息处理学术研讨会论文集[C];2005年

6 李纪华;夏薇;;基于XML的web信息提取方法研究[A];全国高校社科信息资料研究会第六次会员代表大会暨第13次学术研讨会论文集[C];2010年

7 吴平博;陈群秀;马亮;;基于时空分析的线索性事件的抽取与集成系统研究[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年

8 付瑞吉;秦兵;刘挺;;面向音乐领域的文本检索与挖掘系统[A];第五届全国青年计算语言学研讨会论文集[C];2010年

相关重要报纸文章 前2条

1 史小敏;前景广阔的信息抽取技术[N];解放军报;2004年

2 本报记者 张佳星;靠这个“谱”让机器会思考[N];科技日报;2018年

相关硕士学位论文 前10条

1 李长远;面向运营商资费知识图谱的信息抽取技术研究与应用[D];北京邮电大学;2019年

2 余鹏;基于信息抽取技术的房屋租赁信息平台的设计与实现[D];华中师范大学;2018年

3 段绍杨;事件抽取关键技术研究[D];天津大学;2018年

4 吴兰兰;基于本体的文本信息抽取技术及实现[D];东北师范大学;2011年

5 周峰;基于信息抽取技术的复杂网络自动构建的研究与实现[D];北京邮电大学;2009年

6 石宇;基于XML的Web信息抽取与集成技术的研究[D];大连海事大学;2006年

7 秦磊;基于XML的信息抽取和集成模型的研究与设计[D];南昌大学;2007年

8 程书红;基于XML的Web信息抽取设计与实现[D];重庆大学;2007年

9 李知颖;基于包装器模型的信息抽取算法研究[D];东北师范大学;2009年

10 任仲晟;基于树形结构的Web信息抽取技术研究[D];厦门大学;2007年



本文编号:2655920

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/ydhl/2655920.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户8b562***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com