pyspider爬取TripAdvisor

 #!/usr/bin/env python

 # -*- encoding: utf-8 -*-

 # Created on 2017-06-11 10:10:53

 # Project: london

 from pyspider.libs.base_handler import *

 import pymongo

 class Handler(BaseHandler):

     crawl_config = {

     }

     client = pymongo.MongoClient('localhost')

     db = client['trip']

     @every(minutes=24 * 60)

     def on_start(self):

         self.crawl('https://www.tripadvisor.cn/Attractions-g186338-Activities-c47-London_England.html', callback=self.index_page)

     @config(age=10 * 24 * 60 * 60)

     def index_page(self, response):

         for each in response.doc('.listing_title > a').items():

             self.crawl(each.attr.href, callback=self.detail_page)

         next_page = response.doc('.pagination .nav.next').attr.href

         self.crawl(next_page,callback = self.index_page)

     @config(priority=2)

     def detail_page(self, response):

         return {

             "name":response.doc('h1').text(),

             "url": response.url,

             'comment':response.doc('.heading_ratings .taLnk').text(),

             'address':response.doc('.addressReset > span.format_address').text(),

             'phone':response.doc('.phoneNumber').text(),

             'duration':response.doc('#MAP_AND_LISTING > div.main_section.listingbar > div > div.above_fold_listing_details > div > div:nth-child(5) > div > div:nth-child(1)').text(),

             'instruction':response.doc('#MAP_AND_LISTING > div.main_section.listingbar > div > div.above_fold_listing_details > div > div:nth-child(6) > div > b').text()

         }

     def on_result(self,result):

         if result:

             self.save_to_mongo(result)

     def save_to_mongo(self,result):

         if self.db['london'].insert(result):

             print('saved to mongo',result)

pyspider爬取TripAdvisor的更多相关文章

使用pyspider爬取巨量淘宝MM图片
具体搭建步骤不再赘述,这里主要使用到了fakeagent,phantomjs和proxy pyspider的爬取相当智能,在不能获取图片的时候会适当的暂停一段时间再试探性的爬取,配合fakeagent ...
网络字体反爬之pyspider爬取起点中文小说
前几天跟同事聊到最近在看什么小说,想起之前看过一篇文章说的是网络十大水文,就想把起点上的小说信息爬一下,搞点可视化数据看看.这段时间正在看爬虫框架-pyspider,觉得这种网站用框架还是很方便的,所 ...
PySpider爬取去哪儿攻略数据项目
1 创建项目点击WEB中的Create创建项目填入相关项目名和其实爬取URL 创建后进入项目首页右边 Handler 是pyspider的主类,整个爬虫一个Handler,其中可定义爬虫的爬取. ...
用pyspider爬取并解析json字符串
获取堆糖网站所有用户的id 昵称及主页地址 #!/usr/bin/env python # -*- encoding: utf-8 -*- # Created on 2016-06-21 13:57: ...
pyspider爬取数据存入redis--2.测试数据库连通性
直接上代码 #!/usr/bin/env python # -*- encoding: utf-8 -*- # Created on 2017-10-27 09:56:50 # Project: re ...
pyspider爬取数据存入es--2.测试数据库连通性
写一个简单案例测试能否将数据写入es #!/usr/bin/env python # -*- encoding: utf-8 -*- # Created on 2017-10-27 08:35:57 ...
pyspider爬取数据存入mysql--2.测试数据库能否连通
做一个简单的测试,看数据能否存入mysql 1 #!/usr/bin/env python 2 # -*- encoding: utf-8 -*- 3 # Created on 2017-10-26 ...
pyspider爬取数据导入mysql--1.安装驱动
接上篇,刚装好的pyspider,我们打算大显身手,抓一批数据到mysql中. 然而,出师未捷,提示我们:ImportError: No module named MySQLdb 这是因为还没有安装M ...
pyspider—爬取视频链接
#!/usr/bin/env python # -*- encoding: utf-8 -*- # Created on 2015-03-20 09:46:20 # Project: fly_spid ...

随机推荐

svn打分支
http://www.07net01.com/linux/Eclipsexiasvndechuangjianfenzhi_hebing_qiehuanshiyong_548928_1374750252 ...
查看http的并发请求数与其TCP连接状态
[root@new-web7 ~ ::]#netstat -na | awk '/^tcp/ {++S[$NF]} END {for(i in S) print i, S[i]}' TIME_WAIT ...
使用Listview控件显示数据
1.图像列表控件 ImageList是含有图像对象的集合,可以通过索引或关键字引用该集合中的每个对象. ImageList空间的属性属性说明 Images 存储在图像列表中的所有图像 ImageS ...
转发—Android开发常用的插件及工具
作者:蓝之风出处:http://www.cnblogs.com/vaiyanzi/ Android开发常用的插件及工具 1.GitHub,这个不管是做安卓还是其他,只要是开发就必上的网站,也是天朝没 ...
使用.NET开发AutoCAD——设计师不做画图匠（一）
(一)前言--如何避免加班那些事我是谁?我是一名工程设计师,有点"不务正业",在工作之余长期从事软件开发工作,开发了公路铁路行业广泛应用的设计软件.说正题之前,聊聊加班那些事.话 ...
软件工程网络15团队作业1——团队组队&展示
Deadline: 2018-3-25 10:00PM,以提交至班级博客时间为准. 申请开通团队博客,并将团队博客地址发表在本次随笔的评论中团队展示根据5-6人的组队要求,每个队伍创建团队博客并发 ...
Beta版本敏捷冲刺每日报告——Day2
1.情况简述 Beta阶段第二次Scrum Meeting 敏捷开发起止时间 2017.11.3 08:00 -- 2017.11.3 22:00 讨论时间地点 2017.11.3晚9:00,软工所实 ...
团队作业6——展示博客（Alpha版本)
Deadline: 2017-12-3 23:00PM,以博客发表日期为准评分基准按时交 - 有分,检查的项目包括后文的两个方面团队成员介绍 Alpha阶段进展团队合作,各成员分工 Be ...
mongodb 集群分片
分片在Mongodb里面存在另一种集群,就是分片技术,可以满足MongoDB数据量大量增长的需求当MongoDB存储海量的数据时,一台机器可能不足以存储数据,也可能不足以提供可接受的读写吞吐量,这 ...
mahony互补滤波器C编程
//gx...分别为重力加速度在三个轴向的分力由加速度计测得 //ax...分别为角速度在三个轴向的角速度由陀螺仪测得 //最后得到最终滤波完毕的x.y.z方向的角度值(°) void IMUup ...

pyspider爬取TripAdvisor

pyspider爬取TripAdvisor的更多相关文章

随机推荐

热门专题