携程网站飞机票抓取说明

VIP免费
3.0 李琳琳 2024-10-14 8 4 155.5KB 5 页 15积分
侵权投诉
携程网站飞机票抓取说明
一 总体说明
从携程网(www.ctrip.com)抓取他们的机票,利用 JAVA 的一个类包,实现稍
为自动的提交功能,用来模仿网页的提交的按钮,自动获取服务器所传输过来
文本,再利用 JAVA 的正达式分析中的格形的内,再
用表格其自身的形式,比如表头是以<th></th>,一行是<tr></tr>,每一个数据项是
<td></td>,再提取出所显示的数据,因为在网面所显示的数据,也就是包含在
<td></td>之中,而每一个航班的信息则在<tr></tr>之中,另外,所以的各个列
即是航班号这些则在<th></th>之中,利用这些简单的性质,我们可以很快的提
取出所需要的字段,然后,进行操作,比如,打入数据库之类的操作,方便以
后查询之类。
二 具体实现
源程序有两个文件,一个是利用 URL 的连接与发送,另一个是利用进行表
格的分析与处理,这个是独立的,也就是说,以后,不管是是不是抓取机票,
都可以利用这个程序分析相应的表格的数据部分。
使用:
程序 URLConn 需要有三个参数,一个是出发点,一个到达点,另一个是起
发时间,另外,注意,我们将参数提交到一个页面
http://flights.ctrip.com/Domestic/ShowFareFirst.aspx,注意这个页面有三个,一
个是单程,一个是联程,一个是往返,单程的参数最少,符号代表是 S,联程的
多了一个中间中转城市,符号代表是,往返多了一个返回时间,这个所有的参数在
后台都一个相应的单词对应,
注意到上面几个 name 后对应的参数,分别有相应的含义,flightway 代表是否是
程,往返,还是联程homecity 代表出发城市,这些都是网页源文件的内
很容易找到对应的显示与后台的代表符号,比childtype 代表是否成人,等等
要注是,对于个类比如 fligtway 个类单程往返有联
程所对应的 value ,也要从网页之中找,如下图:
摘要:

携程网站飞机票抓取说明一 总体说明从携程网(www.ctrip.com)抓取他们的机票,利用JAVA的一个类包,实现稍为自动的提交功能,用来模仿网页的提交的按钮,自动获取服务器所传输过来的文本文件,再利用JAVA的正则表达式来分析其中的表格形式的内容,再利用表格其自身的形式,比如表头是以,一行是,每一个数据项是,再提取出所显示的数据,因为在网面所显示的数据,也就是包含在之中,而每一个航班的信息则在之中,另外,所以的各个列,即是航班号这些则在之中,利用这些简单的性质,我们可以很快的提取出所需要的字段,然后,进行操作,比如,打入数据库之类的操作,方便以后查询之类。二 具体实现源程序有两个文件,一个...

展开>> 收起<<
携程网站飞机票抓取说明.doc

共5页,预览1页

还剩页未读, 继续阅读

作者:李琳琳 分类:高等教育资料 价格:15积分 属性:5 页 大小:155.5KB 格式:DOC 时间:2024-10-14

开通VIP享超值会员特权

  • 多端同步记录
  • 高速下载文档
  • 免费文档工具
  • 分享文档赚钱
  • 每日登录抽奖
  • 优质衍生服务
/ 5
客服
关注