python爬取酒店信息练习

　　爬取酒店信息，首先知道要用到那些库。本次使用request库区获取网页，使用bs4来解析网页，使用selenium来进行模拟浏览。

　　本次要爬取的美团网的蚌埠酒店信息及其评价。爬取的网址为“http://hotel.meituan.com/bengbu/”。首先获取导航页的相关信息，具体代码如下

url = 'http://hotel.meituan.com/bengbu/'

# 获取酒店分页信息，返回最大页码

html = requests.get(url).text

soup = BeautifulSoup(html,'html.parser')

page_info = soup.find_all('li',class_='page-link')  # 获取酒店首页的页面导航条信息

get_page_num = page_info[-1].find('a').get_text()       # 获取酒店页面的总页数

print(get_page_num)

　　获取了上面的信息，就可以选择一个具体网页，利用Google浏览器的F12查看具体的元素，利用xpath定位相关元素，把获取的信息保存在文件夹下，具体方法代码如下

# 获取所有酒店详细信息

def get_hotel_info(url):

    dcap = dict(DesiredCapabilities.PHANTOMJS)

    dcap['phantomjs.page.settings.userAgent'] = ('Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.181 Safari/537.36')

    browser = webdriver.PhantomJS("D:/PhantomJS/phantomjs-2.1.1-windows/bin/phantomjs", desired_capabilities=dcap)         #指定phantomjs程序路径

    browser.get(url)

    hotel_info = {}

    page_num = 1

    while(page_num < int(get_page_num)+1):

        # 获取一个页面的所有酒店信息

        for item in browser.find_elements_by_class_name('info-wrapper'):

            hotel_info['name'] = item.find_element_by_class_name('poi-title').text

            hotel_info['star'] = item.find_element_by_class_name('poi-grade').text

            hotel_info['consumers'] = item.find_element_by_class_name('poi-buy-num').text

            hotel_info['link'] = item.find_element_by_class_name('poi-title').get_attribute('href')

            print("酒店名称:{}".format(hotel_info['name']))

            print("酒店评分:{}".format(hotel_info['star']))

            print("酒店销量:{}".format(hotel_info['consumers']))

            print("酒店链接:{}".format(hotel_info['link']))

            f = open("酒店信息.txt", 'a', encoding="utf8")

            f.write(hotel_info['name']+"\n"+hotel_info['star']+"\n"+hotel_info['consumers']+"\n"+hotel_info['link']+"\n")

            u = hotel_info['link'][25:-1]

            # print(u)

            # 获取酒店前10页评论内容(动态加载的静态爬取)

            for i in range(10):

                page = i + 1

                s = i * 10

                print("正在加载第" + str(page) + "页评论")

                html = "http://ihotel.meituan.com/group/v1/poi/comment/" + u + "?sortType=default&noempty=1&withpic=0&filter=all&limit=10&offset=" + str(

                      s)+"&X-FOR-WITH="

                # print(html)

                # 第一次只使用一个header导致爬取信息不全，添加多个可以正常爬取

                my_headers = [

                    "Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36",

                    "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/35.0.1916.153 Safari/537.36",

                    "Mozilla/5.0 (Windows NT 6.1; WOW64; rv:30.0) Gecko/20100101 Firefox/30.0",

                    "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_2) AppleWebKit/537.75.14 (KHTML, like Gecko) Version/7.0.3 Safari/537.75.14",

                    "Mozilla/5.0 (compatible; MSIE 10.0; Windows NT 6.2; Win64; x64; Trident/6.0)"

                ]

                randdom_header = random.choice(my_headers)

                headers = {

                    "User-Agent":randdom_header,

                    "Host":"ihotel.meituan.com"

                    }

                r = requests.get(html,headers=headers)

                print(r.text)

                data = json.loads(r.text,strict=False)

                # print(data)

                comments = data['data']['feedback']

                for n in comments:

                    replytime = n['feedbacktime']

                    content = n['comment']

                    # print("评论时间：", replytime)

                    # print("评论内容：", content)

                    f = open("jieguo-1.txt", 'a',encoding="utf8")

                    f.write(content+"\n")

        browser.find_element_by_class_name('paginator').find_element_by_class_name('next').find_element_by_tag_name('a').click()  # 一个页面写完后，通过点击"下一页"图标至下一页，继续获取

        time.sleep(1)

        page_num += 1

　　实现了上述的方法，就可以把完整的酒店信息抓取下来，所有代码如下：

 # encoding="utf8"

 # 爱学习的兔兔

 import requests

 from bs4 import BeautifulSoup

 from selenium import webdriver

 from selenium.webdriver.common.desired_capabilities import DesiredCapabilities

 import time

 import json

 import random

 url = 'http://hotel.meituan.com/bengbu/'

 # 获取酒店分页信息，返回最大页码

 html = requests.get(url).text

 soup = BeautifulSoup(html,'html.parser')

 page_info = soup.find_all('li',class_='page-link')  # 获取酒店首页的页面导航条信息

 get_page_num = page_info[-1].find('a').get_text()       # 获取酒店页面的总页数

 print(get_page_num)                                     # 返回酒店页面的

 # 获取所有酒店详细信息

 def get_hotel_info(url):

     dcap = dict(DesiredCapabilities.PHANTOMJS)

     dcap['phantomjs.page.settings.userAgent'] = ('Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.181 Safari/537.36')

     browser = webdriver.PhantomJS("D:/PhantomJS/phantomjs-2.1.1-windows/bin/phantomjs", desired_capabilities=dcap)         #指定phantomjs程序路径

     browser.get(url)

     hotel_info = {}

     page_num = 1

     while(page_num < int(get_page_num)+1):

         # 获取一个页面的所有酒店信息

         for item in browser.find_elements_by_class_name('info-wrapper'):

             hotel_info['name'] = item.find_element_by_class_name('poi-title').text

             hotel_info['star'] = item.find_element_by_class_name('poi-grade').text

             hotel_info['consumers'] = item.find_element_by_class_name('poi-buy-num').text

             hotel_info['link'] = item.find_element_by_class_name('poi-title').get_attribute('href')

             print("酒店名称:{}".format(hotel_info['name']))

             print("酒店评分:{}".format(hotel_info['star']))

             print("酒店销量:{}".format(hotel_info['consumers']))

             print("酒店链接:{}".format(hotel_info['link']))

             f = open("酒店信息.txt", 'a', encoding="utf8")

             f.write(hotel_info['name']+"\n"+hotel_info['star']+"\n"+hotel_info['consumers']+"\n"+hotel_info['link']+"\n")

             u = hotel_info['link'][25:-1]

             # print(u)

             # 获取酒店前10页评论内容(动态加载的静态爬取)

             for i in range(10):

                 page = i + 1

                 s = i * 10

                 print("正在加载第" + str(page) + "页评论")

                 html = "http://ihotel.meituan.com/group/v1/poi/comment/" + u + "?sortType=default&noempty=1&withpic=0&filter=all&limit=10&offset=" + str(

                       s)+"&X-FOR-WITH="

                 # print(html)

                 # 第一次只使用一个header导致爬取信息不全，添加多个可以正常爬取

                 my_headers = [

                     "Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36",

                     "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/35.0.1916.153 Safari/537.36",

                     "Mozilla/5.0 (Windows NT 6.1; WOW64; rv:30.0) Gecko/20100101 Firefox/30.0",

                     "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_2) AppleWebKit/537.75.14 (KHTML, like Gecko) Version/7.0.3 Safari/537.75.14",

                     "Mozilla/5.0 (compatible; MSIE 10.0; Windows NT 6.2; Win64; x64; Trident/6.0)"

                 ]

                 randdom_header = random.choice(my_headers)

                 headers = {

                     "User-Agent":randdom_header,

                     "Host":"ihotel.meituan.com"

                     }

                 r = requests.get(html,headers=headers)

                 print(r.text)

                 data = json.loads(r.text,strict=False)

                 # print(data)

                 comments = data['data']['feedback']

                 for n in comments:

                     replytime = n['feedbacktime']

                     content = n['comment']

                     # print("评论时间：", replytime)

                     # print("评论内容：", content)

                     f = open("jieguo-1.txt", 'a',encoding="utf8")

                     f.write(content+"\n")

         browser.find_element_by_class_name('paginator').find_element_by_class_name('next').find_element_by_tag_name('a').click()  # 一个页面写完后，通过点击"下一页"图标至下一页，继续获取

         time.sleep(1)

         page_num += 1

 def main():

     get_hotel_info(url)

 if '__main__' == __name__:

     main()

　　这样就顺利的拿到了酒店信息和评价，为了简单分析下拿到的数据，使用了SnowNLP分词看数据，发现效果一般，又使用了jieba分词和词云来分析，得出一张图片如下图：

这里没有对符号进行过滤，只能给出一个大体的评价关系图。具体代码图下：

# encoding="utf8"

# SnowNLP分词

# 爱学习的兔兔

from snownlp import SnowNLP

f = open("jieguo-1.txt","r",encoding="utf8")

r = f.readlines()   #按行读取

#for line in r:

s = SnowNLP(str(r))

for sentence in s.sentences:

    print(sentence)

# jieba分词与词云

import jieba.posseg as posseg

from collections import Counter

from wordcloud import WordCloud

#for line in r:

words = [w for w,f in posseg.cut(str(r))]

print(words)

c = Counter(words)

print(c.most_common(20))

wc = WordCloud(font_path='c:\\Windows\\Fonts\\simkai.ttf', height=1080, width=1920).generate_from_frequencies(c)

image = wc.to_image()

image.show()

wc.to_file("ex2.png")

为了得到效果更好一点，自行百度了一下，得到新的图片，如下：

具体的实现代码如下：

import matplotlib.pyplot as plt

from wordcloud import WordCloud

import jieba

text_from_file_with_apath = open('jieguo-1.txt',encoding="utf-8").read()

wordlist_after_jieba = jieba.cut(text_from_file_with_apath, cut_all=True)

wl_space_split = " ".join(wordlist_after_jieba)

my_wordcloud = WordCloud(font_path='c:\\Windows\\Fonts\\simkai.ttf', height=1080, width=1920).generate(wl_space_split)

plt.imshow(my_wordcloud)

plt.axis("off")

plt.show()

整体走下来，感觉写个简单的爬虫能学到不少有用的信息。

python爬取酒店信息练习的更多相关文章

Python爬取招聘信息，并且存储到MySQL数据库中
前面一篇文章主要讲述,如何通过Python爬取招聘信息,且爬取的日期为前一天的,同时将爬取的内容保存到数据库中:这篇文章主要讲述如何将python文件压缩成exe可执行文件,供后面的操作. 这系列文章 ...
Python爬取网页信息
Python爬取网页信息的步骤以爬取英文名字网站(https://nameberry.com/)中每个名字的评论内容,包括英文名,用户名,评论的时间和评论的内容为例. 1.确认网址在浏览器中输入初 ...
(转)python爬取拉勾网信息
学习Python也有一段时间了,各种理论知识大体上也算略知一二了,今天就进入实战演练:通过Python来编写一个拉勾网薪资调查的小爬虫. 第一步:分析网站的请求过程我们在查看拉勾网上的招聘信息的时候 ...
python爬取商品信息
老严要爬某网购网站的商品信息,正好我最近在学python,就一起写了一个简单的爬虫程序. 需求:某网的商品信息,包括商品名,市场价和售价工具:python2.7.8,urllib2,re #codi ...
配置scrapy-splash+python爬取医院信息（利用了scrapy-splash）
北京艾丽斯妇科医院(http://fuke.fuke120.com/) 首先先说一下配置splash 1.利用pip安装scrapy-splash库 pip install scrapy-splash ...
python爬取微信信息--显示性别/地域/词云（附代码）
看到一篇有意思的博客利用微信开放的接口itchat 可以获取登录的微信好友信息并且利用图像工具显示分析结果非常的有意思记录下实现过程并提供可执行代码首先要 import itchat 库 ...
[python] 常用正则表达式爬取网页信息及分析HTML标签总结【转】
[python] 常用正则表达式爬取网页信息及分析HTML标签总结转http://blog.csdn.net/Eastmount/article/details/51082253 标签: pytho ...
常用正则表达式爬取网页信息及HTML分析总结
Python爬取网页信息时,经常使用的正则表达式及方法. 1.获取<tr></tr>标签之间内容 2.获取<a href..></a>超链接之间内容 3 ...
使用python爬取MedSci上的期刊信息
使用python爬取medsci上的期刊信息,通过设定条件,然后获取相应的期刊的的影响因子排名,期刊名称,英文全称和影响因子.主要过程如下: 首先,通过分析网站http://www.medsci.cn ...

随机推荐

1-hadoop安装、ssh、节点退役与服役
1.准备四台虚拟机 ①卸载openjdk ②安装jdk 2. 配置静态ip: ip : 每个机器在internet上的唯一标识子网掩码: 必须结合IP地址一起使用,将某个IP地址划分成网络地址和主 ...
redis的哨兵集群,redis-cluster
#主从同步redis主从优先1.保证数据安全,主从机器两份数据一主多从2.读写分离,缓解主库压力主redis,可读可写slave身份,只读缺点1.手动主从切换假如主库挂了,得手动切换master ...
python-ddt 数据驱动测试
# @File : learn_ddt.py #-*- coding:utf-8 -*- #本次学习:ddt ---data drive test--数据驱动测试 #1.安装 pip install ...
for循环执行时在，每执行一次for循环中弹出提示框，延时问题
在需求中,ajax的返回值,根据数组内容的长度去做循环,每循环一次弹出提示框,发现for循环的执行速度非常之快,想到了延时,但是在for循环中延时并不能解决这个问题. 查到setTimeout的递归处 ...
gentoo intel 安装桌面
首先增加 vim ~/.xinitrc [[ -f ~/.Xresources ]] && xrdb -merge ~/.Xresources # dbus before fcitx ...
JDK-1.8-CopyOnWriteSet
CopyOnWriteSet 看了下CopyOnWriteSet源码,底层使用的是CopyOnWriteList,根据底层的实现,每次读取都是N的复杂度.每次写也是N的复杂度.有个代码可以看一下, 来 ...
Cannot invoke Tomcat manager: socket write error
一开始, 参照 http://www.cnblogs.com/yezhenhan/archive/2012/07/17/2594684.html mvn tomcat:redeploy 出现: Can ...
windows清除访问共享文件夹的登陆信息
https://jingyan.baidu.com/article/c843ea0b70797e77931e4a96.html 当在命令提示窗口输入net use命令时,会显示本机缓存的共享登录信息, ...
scrapy之downloader执行流程
Agent = client.Agent class ScrapyAgent(object): _Agent = Agent#为twisted的client.Agent类 _ProxyAgent = ...
C#并口热敏小票打印机打印位图包括芯片的写入
下面是打印所需要调用的代码: class LptControl { private string LptStr = "lpt1"; public LptControl(string ...

python爬取酒店信息练习

python爬取酒店信息练习的更多相关文章

随机推荐

热门专题