Python 爬取美团酒店信息

事由：近期和朋友聊天，聊到黄山酒店事情，需要了解一下黄山的酒店情况，然后就想着用python 爬一些数据出来，做个参考

主要思路：通过查找，基本思路清晰，目标明确，仅仅爬取美团莫一地区的酒店信息，不过于复杂，先完成一个小目标

环境：

　　python 3.6

主要问题：

1. 在爬取美团黄山酒店第一页后，顺利拿到想要的信息，但在点击第二页后，chrome中检查信息能够看见想要的信息，但是查看源代码却没有，思考后，应该是Ajax动态获取的，然后查找办法，最终通过selenium模拟浏览器，然后进行爬取
2. 标签查找，通过chrome进行分析整体网站标签信息后，对某一个标签的class未清楚认识，导致错误认识，消耗比较长的调试时间

代码如下：

import requests

from bs4 import BeautifulSoup

from selenium import webdriver

from selenium.webdriver.common.desired_capabilities import DesiredCapabilities

import xlwt

url = 'http://hotel.meituan.com/huangshan/'

#获取酒店分页信息，返回最大页码

def get_page_num(url):

    html = requests.get(url).text

    soup = BeautifulSoup(html,'lxml')

    page_info = soup.find_all('li',class_='page-link')      #获取酒店首页的页面导航条信息

    page_num = page_info[-1].find('a').get_text()           #获取酒店页面的总页数

    return int(page_num)                                        #返回酒店页面的总页数

#获取所有酒店详细信息，包含酒店名称，链接，地址，评分，消费人数，价格，上次预定时间

def get_hotel_info(url):

    dcap = dict(DesiredCapabilities.PHANTOMJS)

    dcap['phantomjs.page.settings.userAgent'] = ('Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36')    #设置userAgent，可以从浏览器中找到，用于反爬虫禁止IP

    browser = webdriver.PhantomJS("/Users/chenglv/phantomjs-2.1.1-macosx/bin/phantomjs", desired_capabilities=dcap)         #指定phantomjs程序路径

    browser.get(url)

    hotel_info = {}

    hotel_id = ['酒店名','网址','酒店地址','评价','消费人数','价格','上次预约时间']

    col_num = 1

    page_num = 1

    book = xlwt.Workbook(encoding='utf-8',style_compression=0)          #创建excel文件

    sheet = book.add_sheet('hotel_info',cell_overwrite_ok=True)         #创建excel sheet表单

    for i in range(len(hotel_id)):      #写入表单第一行，即列名称

        sheet.write(0,i,hotel_id[i])    #excel中写入第一行列名

    while(page_num < get_page_num(url)+1):

        #获取一个页面的所有酒店信息

        for item in browser.find_elements_by_class_name('info-wrapper'):

            hotel_info['name'] = item.find_element_by_class_name('poi-title').text

            hotel_info['link'] = item.find_element_by_class_name('poi-title').get_attribute('href')

            hotel_info['address'] = item.find_element_by_class_name('poi-address').text.split(' ')[1]

            hotel_info['star'] = item.find_element_by_class_name('poi-grade').text

            hotel_info['consumers'] = item.find_element_by_class_name('poi-buy-num').text

            hotel_info['price'] = item.find_element_by_class_name('poi-price').text

            hotel_info['last_order_time'] = item.find_element_by_class_name('last-order-time').text

            #将当前页面中的酒店信息获取到后，写入excel的行中

            for i in range(len(hotel_info.values())):

                sheet.write(col_num,i,list(hotel_info.values())[i])

            col_num+=1

        browser.find_element_by_class_name('paginator').find_element_by_class_name('next').find_element_by_tag_name('a').click()        #一个页面写完后，通过点击"下一页"图标至下一页，继续获取

        page_num += 1

    book.save('hotel_info_huangshan.csv')

def main():

    get_hotel_info(url)

if '__main__' == __name__:

    main()

运行后结果如下图：

此部分仅因兴趣编写，还有很多未考虑，后期可以进行多层爬取，以及爬取更多的内容。

Python 爬取美团酒店信息的更多相关文章

python爬取“美团美食”汕头地区的所有店铺信息
一.目的获取美团美食每个店铺所有的评论信息,并保存到数据库和本地二.实现步骤获取所有店铺的poiId 首先观察详情页的url,后面是跟着一串数字的,而这一串数字代表着每个店铺特有的id号,我们称 ...
Python爬取拉勾网招聘信息并写入Excel
这个是我想爬取的链接:http://www.lagou.com/zhaopin/Python/?labelWords=label 页面显示如下: 在Chrome浏览器中审查元素,找到对应的链接: 然后 ...
python爬取豆瓣视频信息代码
目录一:代码二:结果如下(部分例子) 这里是爬取豆瓣视频信息,用pyquery库(jquery的python库). 一:代码 from urllib.request import quote ...
使用python抓取美团商家信息
抓取美团商家信息 import requests from bs4 import BeautifulSoup import json url = 'http://bj.meituan.com/' ur ...
python 爬取豆瓣书籍信息
继爬取猫眼电影TOP100榜单之后,再来爬一下豆瓣的书籍信息(主要是书的信息,评分及占比,评论并未爬取).原创,转载请联系我. 需求:爬取豆瓣某类型标签下的所有书籍的详细信息及评分语言:pyth ...
python爬取梦幻西游召唤兽资质信息（不包含变异）
一.分析 1.爬取网站:https://xyq.163.com/chongwu/ 2.获取网页源码: request.get("https://xyq.163.com/chongwu/&qu ...
python 爬取bilibili 视频信息
抓包时发现子菜单请求数据时一般需要rid,但的确存在一些如游戏->游戏赛事不使用rid,对于这种未进行处理,此外rid一般在主菜单的响应中,但有的如番剧这种,rid在子菜单的url中,此外返回的 ...
python爬取网业信息案例
需求:爬取网站上的公司信息代码如下: import json import os import shutil import requests import re import time reques ...
python爬取电影网站信息
一.爬取前提1)本地安装了mysql数据库 5.6版本2)安装了Python 2.7 二.爬取内容电影名称.电影简介.电影图片.电影下载链接三.爬取逻辑1)进入电影网列表页, 针对列表的html内 ...

随机推荐

安卓中的事件分发机制之View控件
前言:Android 中与 Touch 事件相关的方法包括:dispatchTouchEvent(MotionEvent ev).onInterceptTouchEvent(MotionEvent e ...
《java入门第一季》之集合框架TreeSet存储元素自然排序以及图解
这一篇对TreeSet做介绍,先看一个简单的例子: * TreeSet:能够对元素按照某种规则进行排序. * 排序有两种方式 * A:自然排序: 从小到大排序 * B:比较器排序 Comp ...
未完成的IT路停在回车键---2014年末总结篇
时间都去哪儿了? 一晃而过,越来越能体会到这个词的真实感.特别是过了二十岁,这种感觉越来越深刻,越来越强烈,犹如小编做公交车的时候一直向后排排倒的香樟树,还记得有首歌叫时间都哪儿了,而 ...
从websphere6.1迁移到weblogic10.3的问题总结
系统采用war包的方式部署. 问题一: ####<2011-3-29 下午05时17分43秒 CST> <Info> <ServletContext-/MIS-be ...
Uva - 810 - A Dicey Problem
根据状态进行bfs,手动打表维护骰子滚动. AC代码: #include <iostream> #include <cstdio> #include <cstdlib&g ...
spring4泛型初探----一个小例子
泛型的出现,是为了让代码更规整. 例如 Set<String> set=new HashSet<>(); set.add("abc"); set.add(1 ...
Zookeeper Java客户端API的使用
1. 原生api 具体查看下面github代码 2. ZkClient ZkClient是Github上一个开源的ZooKeeper客户端.ZkClient在ZooKeeper原生 A ...
Java之谜 —— 来自Neal Gafter的演讲
翻译人员: 铁锚翻译日期: 2013年11月20日原文链接: A Puzzle from "A Brief History of the (Java) World and a Peek ...
运行React-Native项目
首先需要配置好环境.集体配置安装Homebrew,Node.js,React Native; 命令行开启RN项目 (如要cd 进入到当前项目的跟目录下) 1. npm install 2. react ...
Struts的取值与标签
首先,我们都知道,在struts2中有一个valuestack.里面存放的就是action里的属性.同时,还有一个stackcontext,里面放的是map形式的request/session/att ...

Python 爬取美团酒店信息

Python 爬取美团酒店信息的更多相关文章

随机推荐

热门专题