鹏仔先生-趣站-一个有趣的网站!
鹏仔先生

鹏仔先生

当前位置:网站首页 > 旅游攻略 > 正文

[基于垂直搜索引擎的旅游线路评价模型的设计] 有哪些垂直搜索引擎

作者:百变鹏仔日期:2023-07-06 18:44:46浏览:10分类:旅游攻略

[基于垂直搜索引擎的旅游线路评价模型的设计] 有哪些垂直搜索引擎

科技创新导报2010 NO.18

Technology Innovation Herald

技 术 创 新

基于垂直搜索引擎的旅游线路评价模型的设计

陈高维1 邓天权1,2 曾云磊1 王维国3 张龙1

(1.电子科技大学 四川成都 611731; 2.常州大学 江苏常州 213164; 3.成都登巅科技有限公司 四川成都 610041)摘 要:本文设计了一个基于垂直搜索引擎技术的旅游线路评价推荐模型系统。该系统首先采用垂直搜索引擎技术针对旅游行业网站抓取特定信息,提取旅游路线及相关旅游资讯信息,并辅以人工资讯录入方式,建立旅游路线、旅游资讯数据库。关键词:垂直搜索引擎 信息提取 旅游线路评价模型中图分类号:TP3文献标识码:A文章编号:1674-098X(2010)06(c)-0024-02

1 引言

随着互联网的普及,人们越来越习惯于在出门旅游之前通过互联网了解一些旅游相关的资讯。但是,在浩如烟海的互联网上人们想要获取特定的旅游资讯并不是一件容易的事情。为了满足越来越多游客的旅游资讯搜索需求,帮助游客轻松获取旅游路线信息和旅途上的各类资讯。本课题研究了基于垂直搜索引擎的旅游线路评价推荐系统,为游客提供旅游线路的搜索服务,推荐最优路线,提供旅游路线上相关旅游资讯。

2 垂直搜索引擎

垂直

搜索引擎实现的流程大致如下:spider抓取网页后,对网页中信息进行抽取,然后对上述非结构化数据进行清洗、去重、分类、分析比较、数据挖掘,抽取出结构化的数据储存到数据库中,最后通过中文分词建立索引提供用户搜索。其关键技术有:

(1)面向主题的高效蜘蛛程序

主题蜘蛛程序[2]是垂直搜索引擎的重

要组成部分。其抓取范围一般只限于特定的主题或专门的领域。主题蜘蛛的设计通常需要解决好主题相关度的预测、种子站点的选择方案、URL的搜索策略等问题。

(2)网页信息的格式化提取

信息抽取(information Exaction,IE)[3]一般定义为从一段文本中抽取指定的预先想要的信息(事件、事实),表示为结构化的、统一的形式,供信息查询、文本深层挖掘,问答系统、抽样统计等应用.目前比较比较常

[4]

用的方法有:①基于特征模式匹配的信息抽取。②基于归纳学习的信息抽取。③基于网页结构特征分析的信息抽取。④基于on-tology的Web信息抽取。前3几种信息抽取的方法虽各有其特点,但技术上主要是通过为待提取的目标建立相应的模板库,并将文档内容与模板库中的模板匹配而实现提取。模板的表达能力直接影响系统的准确度。第四种方法引入本体(Ontology)的概念较好的解决了词序、多义等问题,本体论从语义信息入手进行抽取。但是对特定领域本体构建是一件非常困难的事情。

3 旅游线路推荐系统的设计与实现

3.1系统的主要功能

为了给游客提供高质量、个性化的旅游资讯服务。本文在旅游信息的获取、提取、存储、展示技术研究的基础上,综合考虑了旅游周期、旅游价格、景区类型、景区动态、交通状况、旅游安全、旅游季节、服务质量等等影响游客旅游体验的因素,设计了旅游路线评价模型。通过该模型可以计算满足游客搜索请求的每一个条旅游路线

图1

的推荐值。为游客推荐最符合其个性化要求的旅游线路。通过图形化技术(MAP)友好的展示旅游线路,同时提供旅途中的餐饮、住宿、交通、景点动态信息等等旅游相关信息。帮助游客在出发前决策旅行线路,并充分了解旅途中的相关信息,以便为旅行做好充分准备。3.2系统总体结构设计

基于垂直搜索引擎的旅游线路推荐系统主要包含以下三大部分:旅游数据采集系统、决策数据生成产系统、旅游线路搜索推荐系统。

(1)数据采集系统数据的采集、格式化存储是本系统的核心之一。数据来源有两种方式:爬虫程序采集、管理端人工录入。主题爬虫在Heri-trix的基础上进行扩展定制,实现面向旅游的主题爬虫程序。由于本系统对数据的准确度要求比较高,因此对一些结构化显示的数据采用模板匹配的方式进行较为准确的抽取。对于一些非结构化的网页数据,信息往往蕴含在长篇的文章中。这类信息首先采用向量模型的方法进行分类过滤,然后采用HTMLParser与正则表达式技术相结合的方法提取主体信息。由人工参与信息的提取与审核。

(2)决策数据生成系统

在数据采集的基础上,将所有的数据进行格式化存储。系统数据分为三个部分:路线数据、路线相关动态信息、其他旅游资讯。将路线数据以XML的格式进行存储,并建立索引,方便路线搜索。路线相关动态信息是进行路线推荐评分的重要依据。其他旅游资讯将做为路线辅助资讯在用户界面上予以显示,增加信息量,提高友好度。

(3)路线搜索评价推荐系统

系统根据用户给出的初始条件(例如:出发城市、目的城市、景区类型、旅游天数、费用预算)在路线索引中进行筛选,获取符合用户要求的旅游路线,并根据路线评价模型进行排序推荐。最后将推荐结果返回到用户的界面上,并从数据库中查询出与路线匹配的旅游资讯信息进行异步展示。3.4旅游线路推荐的动态评分模型设计与验证

3.4.1旅游线路推荐的动态评分模型设计

不同的旅游线路之间的评分是一件比较困难的事情。因为旅行线路有长有短,景点也有不同等级。很多路线往往不具有可

致谢:在此感谢本文研究的资助方:登巅科技netsget文旅数字化项目组的全资支持,和电子科技大学和常州大学DIR研究中心同事们的

共同努力。

24

科技创新导报 Science and Technology Innovation Herald

技 术 创 新

比性。因为很难找到一个通用的可以量化的计算方法对差异化的旅游线路进行公平的评价。因此本系统将在路线相当的情况下对旅行线路进行评价。所谓路线相当在此理解为旅游费用相当、旅游时间相当。

游客们对旅游线路的评价多来自于游客自己的亲身体验。我们可以从游客体验的角度来设计旅游线路动态评价模型。所谓动态,就是由该模型计算出来的推荐值应该随着影响游客体验的事情的发生而发生变化。

3.4.1.1动态评分模型设计需满足的要求

(1)对同一旅游线路在不同时期的推荐值,应该随影响因素的变化而变化。(2)能够考虑到不同路线的实际差异性,要做到灵活、通用。(3)对不同的路线进行评价应该考虑到公平性。

旅游线路推荐会受到一定因素的影响,我们进行仔细分析,得出影响因子分为以下两种类型:

(1)决定性因子F(影响到景区旅游的可行度)如:道路故障、卫生安全(传染病)、自然灾害(山洪)、景点整修等不可预料的其它情况。(2)非决定性因子f(影响景区的完美度)如:天气因数、服务质量。

3.4.1.2动态评分模型的设计

对一条旅游路线的评价,分为两个步骤。

第一步,对路线中所有的节点进行评价,计算景点的当前推荐值。第二步,综合路线中所有景点进行评价,对路线进行综合评价。

动态评分模型是本系统的

核心部分,其结构如图1。

风景点的推荐值计算公式为:

2010 NO.18

Science and Technology Innov科技创新导报

g:风景区的等级

fj:的取值范围0~1,最好状态下 Fi、

值为1,最差状态下值为0

r的值越大 推荐度越高,值越小推荐 度越低。等于0时表示此线路不可行。

线路推荐值计算方法

:

假设线路上有n个景点, ri表示第i个景点

mi表示景点间线路因子,表示路线的推荐值。

的通畅程度。M表示整条路线的通畅因子。

M

(2)

则线路的推荐 R (3)

r=g f

i

m

(1)

F:第i个决定性因子的状态值;j:第j个非决定性因子的当前状态值

n:决定性因子的个数;

m:非决定性因子的个数;

公式(3)综合考虑了景点质量、决定性影响因子、非决定性影响因子、线路通畅因子等等因素。通过公式(3)可以计算出每个可能的路径(线路库中线路、游客自定义线路)的推荐值。给出旅游路线当前推荐排名,同时也可以十分容易的分析得出影响推荐值的景区及因子,让游客知道评分的客观依据。

3.4.2旅游线路推荐的动态评分模型的测试

旅游路线推荐公式综合考量了景点质量、决定性影响因子、非决定性影响因子等因素。我们设置了几组数据,来模拟测试一下结果。

F3卫生 F2景区交通、设: F1景点状态、

f2星期因 f1季节因素、 F4自然灾害、安全、

f3服务因素素、

计算结果为: r1={3.98、2.21、2.39} R1=2.76 r2={2.24、2.21、2.39} R2=2.28 r3={3.98、3.31、2.39} R3=2.99 r4={0、2.08、2.39} R4=0测试一个关键因素变化的影响:

R1=2.76 R2=2.28

测试一个非关键因素变化的影响:

R1=2.76 R3=2.99测试一个关键因素、非关键因素为0的影响:

表1测试数据1

R1=2.76 R4=0

通过模拟测试我们发现,我们发现公式(3)具有以下特性:

(1)关键因子的浮动对线路推荐值的影响比较大。(2)非关键因子的变化对线路推荐值的影响相对较小。(3)当某一关键因子出现严重问题时(值为0)对线路的推荐影响是致命的,某一非关键因子出现严重问题时(值为0)不会对线路推荐值造成致命的影响。(4)由于F的可扩展性,系统比较灵活,能够较好的包容不同旅行的差异性。(5)本公式是在旅游天数、旅游费用相近(路线的可比性比较强)的前提条件下进行的评比,还是能较好的体现公平性的。

综上所述,经过试验分析说明公式(2)完全满足我们设置旅游路线推荐评分公式的3个基本条件。

4 结语

本文介绍的基于垂直搜索引擎的旅游线路推荐系统,有两个主要特色,一是能根据旅客的初始要求搜索满足要求的旅行线路,并能根据线路推荐模型计算推荐值,将推荐度高的旅行线路展示在用户面前;二是系统可以在地图上形象的展示与每条旅行线路相关的所有常见的旅游资讯。

本系统在旅行线路推荐的基础上,通过旅游线路将相关的旅游资讯关联起来,游客通过本系统可以十分便捷的获取想要的旅游信息。在节省信息搜索时间的同时,大大提升了信息搜索的服务体验。

参考文献

[1]肖冬梅.垂直搜索引擎研究[J].图书馆

学研究,2003(2):87.

[2]李盛韬.主题WEB信息采集的研究与设

计[M].北京:清华大学出版社,2003:488~494.

[3]王春龙.基于网站语义结构的信息抽取

系统的研究与实现[D].北京交通大学硕士学位论文.

[4]贺令

,

.

Web

装器技

术的现状与

[J].

,

1003

—5850(2007)06—0027—03.

表2测试数据2

科技创新导报 Science and Technology Innovation Herald25

鹏仔 微信 15129739599

百科狗 baikegou.com

免责声明:我们致力于保护作者版权,注重分享,当前被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自自研大数据AI进行生成,内容摘自(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供学习参考,不准确地方联系删除处理!邮箱:344225443@qq.com)

图片声明:本站部分配图来自网络。本站只作为美观性配图使用,无任何非法侵犯第三方意图,一切解释权归图片著作权方,本站不承担任何责任。如有恶意碰瓷者,必当奉陪到底严惩不贷!

  • 上一篇:已经是第一篇了
  • 下一篇:已经是最后一篇了
内容声明:本文中引用的各种信息及资料(包括但不限于文字、数据、图表及超链接等)均来源于该信息及资料的相关主体(包括但不限于公司、媒体、协会等机构)的官方网站或公开发表的信息。部分内容参考包括:(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供参考使用,不准确地方联系删除处理!本站为非盈利性质站点,本着为中国教育事业出一份力,发布内容不收取任何费用也不接任何广告!)