基于LRF方法的在线短租房源价格特征选择研究
发布时间:2021-07-02 11:17
为解决单一特征选择方法的局限性问题,提出Lasso-RF(LRF)混合特征选择方法,并应用于在线短租房源价格问题研究。基于Airbnb房源数据,实验首先通过Lasso回归进行特征选择,处理特征之间的多重共线性;然后采用随机森林算法精选剩余特征,最终得到35个重要特征,并带入4个预测模型中进行比较。结果表明,特征之间的多重共线性会影响随机森林算法对特征重要度的度量;LRF-RF预测模型与RF-RF预测模型相比,评价指标R2和MSE分别提高了0.005、0.006,同时运行时间缩短0.267秒,表明LRF混合特征选择方法优于单一的RF特征选择方法。
【文章来源】:软件导刊. 2020,19(08)
【文章页数】:5 页
【部分图文】:
技术流程
本文采用的是来源于Kaggle网的Airbnb房源数据,原始数据集有3 818条房源记录,包含房源价格、房东属性、房源设施、房源社区、房源价格和在线评论等信息。因为该数据集中存在冗余信息、缺失值、异常值、文本信息等,所以在数据应用于特征选择模型之前,需进行数据预处理工作。预处理主要包括数据清洗、特征抽取、数据离散化、独热编码和数据标准化5个部分,如图2所示。预处理之后,特征选择模型的输入数据包含3 280条记录,127个特征。本文实验工作均在Python3上实现。(1)数据清洗。原始数据集中的某些数据需去除符号,例如“房东回应时间”数据中含有“%”,需要去除百分号并转化为数字类型;某些数据含有缺失值,需要进行删除、均值填充和众数填充。对于数据中的异常值,首先利用numpy库中的log函数对房源价格进行处理,然后应用拉依达准则[16]进行异常值检测。
本实验将Airbnb房源输入数据划分为训练集(85%)和测试集(15%),训练集用于模型训练数据,测试集用于预测和评价。对于随机森林模型,需确定决策树数量(ntree)和节点这两个重要参数分裂时的特征数量(mtry),其中mtry一般取1/3M(M为全部特征个数),ntree通过10折交叉验证调试确定。随机森林模型运行均方误差随ntree变化趋势如图3所示,当ntree=1 200时,均方误差趋于稳定。2.3 实验结果分析
【参考文献】:
期刊论文
[1]Airbnb房源价格影响因素研究——基于中国36个城市的数据[J]. 吴晓隽,裘佳璐. 旅游学刊. 2019(04)
[2]基于独热编码和卷积神经网络的异常检测[J]. 梁杰,陈嘉豪,张雪芹,周悦,林家骏. 清华大学学报(自然科学版). 2019(07)
[3]AUCRF算法在信用风险评价中的特征选择研究[J]. 刘忻梅,唐俊,段翀. 计算机应用与软件. 2018(04)
[4]共享经济背景下商业模式的变革与创新——基于三大典型案例的启示[J]. 王晓雪. 商业经济研究. 2018(03)
[5]基于Lasso稀疏学习的径向基函数神经网络模型[J]. 崔晨,邓赵红,王士同. 计算机工程. 2019(02)
[6]拉依达准则在处理区域水文数据异常值中的应用[J]. 侍建国,张亦飞. 海河水利. 2016(05)
[7]随机森林方法研究综述[J]. 方匡南,吴见彬,朱建平,谢邦昌. 统计与信息论坛. 2011(03)
[8]基于Lasso改进的一般因果关系检验[J]. 邱南南. 统计与信息论坛. 2008(02)
[9]对拟合优度R2的影响因素分析与评价[J]. 赵松山. 东北财经大学学报. 2003(03)
[10]Boosting和Bagging综述[J]. 沈学华,周志华,吴建鑫,陈兆乾. 计算机工程与应用. 2000(12)
硕士论文
[1]网红微博中商品链接点击量影响因素研究[D]. 富越.武汉大学 2017
本文编号:3260366
【文章来源】:软件导刊. 2020,19(08)
【文章页数】:5 页
【部分图文】:
技术流程
本文采用的是来源于Kaggle网的Airbnb房源数据,原始数据集有3 818条房源记录,包含房源价格、房东属性、房源设施、房源社区、房源价格和在线评论等信息。因为该数据集中存在冗余信息、缺失值、异常值、文本信息等,所以在数据应用于特征选择模型之前,需进行数据预处理工作。预处理主要包括数据清洗、特征抽取、数据离散化、独热编码和数据标准化5个部分,如图2所示。预处理之后,特征选择模型的输入数据包含3 280条记录,127个特征。本文实验工作均在Python3上实现。(1)数据清洗。原始数据集中的某些数据需去除符号,例如“房东回应时间”数据中含有“%”,需要去除百分号并转化为数字类型;某些数据含有缺失值,需要进行删除、均值填充和众数填充。对于数据中的异常值,首先利用numpy库中的log函数对房源价格进行处理,然后应用拉依达准则[16]进行异常值检测。
本实验将Airbnb房源输入数据划分为训练集(85%)和测试集(15%),训练集用于模型训练数据,测试集用于预测和评价。对于随机森林模型,需确定决策树数量(ntree)和节点这两个重要参数分裂时的特征数量(mtry),其中mtry一般取1/3M(M为全部特征个数),ntree通过10折交叉验证调试确定。随机森林模型运行均方误差随ntree变化趋势如图3所示,当ntree=1 200时,均方误差趋于稳定。2.3 实验结果分析
【参考文献】:
期刊论文
[1]Airbnb房源价格影响因素研究——基于中国36个城市的数据[J]. 吴晓隽,裘佳璐. 旅游学刊. 2019(04)
[2]基于独热编码和卷积神经网络的异常检测[J]. 梁杰,陈嘉豪,张雪芹,周悦,林家骏. 清华大学学报(自然科学版). 2019(07)
[3]AUCRF算法在信用风险评价中的特征选择研究[J]. 刘忻梅,唐俊,段翀. 计算机应用与软件. 2018(04)
[4]共享经济背景下商业模式的变革与创新——基于三大典型案例的启示[J]. 王晓雪. 商业经济研究. 2018(03)
[5]基于Lasso稀疏学习的径向基函数神经网络模型[J]. 崔晨,邓赵红,王士同. 计算机工程. 2019(02)
[6]拉依达准则在处理区域水文数据异常值中的应用[J]. 侍建国,张亦飞. 海河水利. 2016(05)
[7]随机森林方法研究综述[J]. 方匡南,吴见彬,朱建平,谢邦昌. 统计与信息论坛. 2011(03)
[8]基于Lasso改进的一般因果关系检验[J]. 邱南南. 统计与信息论坛. 2008(02)
[9]对拟合优度R2的影响因素分析与评价[J]. 赵松山. 东北财经大学学报. 2003(03)
[10]Boosting和Bagging综述[J]. 沈学华,周志华,吴建鑫,陈兆乾. 计算机工程与应用. 2000(12)
硕士论文
[1]网红微博中商品链接点击量影响因素研究[D]. 富越.武汉大学 2017
本文编号:3260366
本文链接:https://www.wllwen.com/jingjifazhanlunwen/3260366.html