当前位置:主页 > 科技论文 > 搜索引擎论文 >

面向医药电商领域的垂直搜索引擎设计与实现

发布时间:2020-09-22 17:51
   随着国家“互联网+”战略布局的实施,电子商务为医药领域带来了了新的发展契机,相对于传统的线下医药零售营销手段,电子商务平台能够帮助人们快速地找到合适的药品,而且最大程度地保护个人隐私。然而,同类药品的增多带来了“信息过载”的问题,如何高效地为用户提供更加精确的搜索结果,成为医药电商平台提高用户购买转化率的关键因素之一。目前,大多数医药电商平台采用关键字模糊匹配的方式已经严重影响了用户查询的准确性和效率,因此,构建面向医药电商领域的智能垂直搜索引擎具有十分重要的现实意义。本文结合医药领域特点,基于自然语言处理、知识图谱、用户行为分析和机器学习技术,设计并研发基于HMM和Viterbi医药领域中文分词组件、基于医药知识的商品相关度计算组件、基于用户访问和点击行为的用户兴趣度计算组件以及基于多元线性回归的综合评分排序框架,从而充分挖掘用户对商品内在属性的实际诉求,综合考虑医药商品相关性与用户兴趣,构建面向医药电商领域的智能垂直搜索引擎。本文的创新之处在于:(1)设计了一个面向医药电商领域的基于医药知识与用户兴趣偏好的垂直搜索引擎,有效地改善了现有医药电商搜索引擎对用户真实需求理解不够以及医药商品选择过多所造成的“信息过载”问题。(2)提出了一种基于医药知识图谱与用户兴趣偏好综合排序的方法,辅助用户合理用药的同时兼顾考虑用户对商品的偏好;(3)研发了医药电商领域垂直搜索引擎原型,并与某公司电商平台搜索引擎进行对比测试。测试结果表明,本文所构建的垂直搜索引擎引擎能够准确理解用户搜索语义并精准地返回商品搜索结果,具有较高的查准率与召回率。
【学位单位】:湖南大学
【学位级别】:硕士
【学位年份】:2018
【中图分类】:TP391.3
【部分图文】:

医药,交易服务,交易规模,药品


图1.1我国医药电商发展历程逡逑随着这几年的不断发展以及“互联网+邋”时代的到来,医药电商发展速度出逡逑现了爆发式的增长,相关的政策和商业模式也渐渐成型。如图1.2所示,根据前逡逑瞻产业研究院发布的《2016-2021年中国医药行业市场前瞻与投资战略规划报告》逡逑数据显示[1],2010年,我国医药电商交易规模只有2亿元,到2014年,医药电逡逑商交易规模X棾ぶ担罚兑谠鼋隽侥辏玻埃保赌旮谴锏搅隋澹玻福兑谠墓婺!e义希阱危玻福跺义希常埃板澹卞义峡觯哄巍澹卞义希玻埃板澹у危苠义希危保樱玻驽澹伞义希保担板濉危洛澹湾义蠇邋y_^逦f逡逑5。,「-:……5邋--逦a邋0邋y邋n逡逑1邋l—fei邋11—Bt7,逡逑0邋逦逦逦—逦逦逦逦逡逑2009逦2010逦2011逦2012逦2013逦2014逦2015逦2016逡逑■医药电窗规模:g元逡逑图1.2邋2009-2016年医药电商市场规模发展趋势逡逑而在2017年1月21日,国务院发布行政决定,取消了医药电商B、C证审逡逑核;9月29日,国务院接着取消了互联网药品交易服务企业(第三方)/A证审批,逡逑放开了医药电商的进入门槛。数据显示,截至2017年12月,可以查询得到的《互逡逑联网药品交易服务资格证书》共991张

知识图,体系架构,谱技术,更新过程


逦J邋|应用服务逡逑图2.1知识图谱技术体系架构逡逑图2.1所描述的是知识图谱的构建的技术体系架构,构建过程与更新过程为逡逑虚线框内的部分。知识图谱构建主要是通过相应的技术手段从最原始的数据(包逡逑括结构化、半结构化、非结构化数据)中提取知识事实,经过处理后将其存储为逡逑对应的知识库。这一过程包含:知识抽取、知识表示、知识融合、知识加工四个逡逑过程。逡逑自顶向下与自底向上是构建知识图谱的两种主要方式[28]。所谓自顶向下指的逡逑是先将本体和数据模式定义好,再把抽取得到的实体存入知识库。这种构建方式逡逑必须以现有知识库作为基础知识库来实现。而所谓自底向上是指通过技术手段从逡逑12逡逑

流程图,日志挖掘,流程图


逡逑掘过程主要分为四步,如图2.3所示:逡逑7逦,,、、..夕逡逑器曰、、用逦*邋^邋?邋^邋=^=0逦/邋用逡逑栻故邋%逦&逦mt-邋;逡逑据y逦据逦逦邋I邋…逦式一逡逑图2.3邋Web日志挖掘流程图逡逑步骤一:数据采集,该过程是Web日志挖掘的第一步,也是后续步骤的基础,逡逑所获得数据源的质量决定了最终挖掘结果的质量。目前,数据来源的主要途径有逡逑服务器端数据、客户端数据以及中间数据;逡逑步骤二:数据预处理,即将大量、散乱、不一致的源数据进行清洗、过滤去逡逑冗余、转换、集成后进行存储备用。在数据处理的过程中主要包括:①数据清理;逡逑②用户识别;③会话识别;④路径补充;⑤事务识别。逡逑步骤三:模式发现,经过数据预处理后存储的数据仍然是巨大的,该过程就逡逑是充分利用挖掘算法从数据中挖掘出潜在的、新颖的、有效的且可以被最终理解逡逑的信息。逡逑步骤四:模式分析,使用适当的技术将第三步挖掘出来的模式进行分析和解逡逑释,筛选有用的模式,找出用户兴趣点,提供可视化输出结果。逡逑2.4分布式计算逡逑分布式计算(Distributed邋computing邋)[37]是计算机科学中分布式系统的一个分逡逑支

【参考文献】

相关期刊论文 前10条

1 陈之彦;李晓杰;朱淑华;付丹龙;邢诒海;;基于Hash结构词典的双向最大匹配分词法[J];计算机科学;2015年S2期

2 张慧芳;;汉语词汇分词研究——隐性分词词典在信息检索中的应用[J];商;2015年34期

3 周芳;王鹏波;韩立岩;;多源知识融合处理算法[J];北京航空航天大学学报;2013年01期

4 葛澎;;分布式计算技术概述[J];微电子学与计算机;2012年05期

5 张小娣;宋余庆;;基于科学知识图谱的搜索引擎前沿分析[J];科技管理研究;2011年18期

6 赵晓凡;胡顺义;;基于正向最大匹配的汉语分词[J];安阳师范学院学报;2010年05期

7 孙镇;王惠临;;命名实体识别研究进展综述[J];现代图书情报技术;2010年06期

8 于飞;丁华福;姜伦;;Web日志挖掘中数据预处理技术的研究[J];计算机技术与发展;2010年05期

9 丁振国;张卓;黎靖;;基于Hash结构的逆向最大匹配分词算法的改进[J];计算机工程与设计;2008年12期

10 徐宝祥;叶培华;;知识表示的方法研究[J];情报科学;2007年05期

相关硕士学位论文 前1条

1 张念照;信息过载环境下网络消费者购买意愿形成过程研究[D];北京邮电大学;2013年



本文编号:2824726

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2824726.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户c2172***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com