使用requests、re、BeautifulSoup、线程池爬取携程酒店信息并保存到Excel中

import requests

import json

import re

import csv

import threadpool

import time, random

from bs4 import BeautifulSoup

from fake_useragent import UserAgent

def hotel(city_letter, city_num, city_name):

    with open('has_address.json', 'a+', encoding="utf-8") as f:

        f.write(str(city_num) + '\n')

    f.close()

    ss = 0

    with open('携程/%s.csv' % city_name, 'w+', encoding='utf-8-sig') as hotel_xie:

        k = csv.writer(hotel_xie, dialect='excel')

        k.writerow(['序号', '名称', '价格', '星级', '地址', '酒店介绍'])

        for i in range(1, 100):

            url = "http://hotels.ctrip.com/Domestic/Tool/AjaxHotelList.aspx"

            headers = {

                "Connection": "keep-alive",

                "origin": "http://hotels.ctrip.com",

                "Host": "hotels.ctrip.com",

                "referer": "http://hotels.ctrip.com/hotel/%s" % city_letter,

                "user-agent": UserAgent(verify_ssl=False).random,

                "Content-Type": "application/x-www-form-urlencoded",

            }

            data = {

                "StartTime": "2019-02-25",

                "DepTime": "2019-02-26",

                "RoomGuestCount": "1,1,0",

                "city": city_num,

                "page": i,

            }

            try:

                time.sleep(random.randint(1, 5))

                html = requests.post(url, headers=headers, data=data)

                regex = re.compile(r'\\(?![/u"])')

                fixed = regex.sub(r"\\\\", html.text)

                aa = json.loads(fixed)

            except Exception:

                pass

            for n in range(0, 25):

                try:

                    hotel_name = aa["hotelPositionJSON"][n]["name"]

                    hotel_id = aa["hotelPositionJSON"][n]["id"]

                    hotel_address = aa["hotelPositionJSON"][n]["address"]

                    price = eval(aa["HotelMaiDianData"]["value"]["htllist"])[n]["amount"]

                    star_class = aa["hotelPositionJSON"][n]["star"][-2:]

                    time.sleep(random.randint(1, 3))

                    hotel_intro = requests.get('http://hotels.ctrip.com/hotel/%s.html' % hotel_id)

                    res_req = BeautifulSoup(hotel_intro.text, "html5lib")

                    iss = re.sub('资质备案', '', re.sub('联系方式', '', res_req.find('div', id='htlDes').findAll('p')[0].get_text()))

                    ins = iss.replace('\n', '').replace(' ', '').replace('&nbsp;', '')

                    s = res_req.find('span', id='J_realContact')['data-real'].replace('\n', ',')

                    tel = s[s.rfind("电话"): s.rfind("<a") - 2]

                    duction = res_req.find('span', id='ctl00_MainContentPlaceHolder_hotelDetailInfo_lbDesc').get_text().replace('\n', ',')

                    introduction = str(ins) + str(tel) + str(duction)

                    ss += 1

                    k.writerow([ss, hotel_name,  price + "元起", star_class, hotel_address, introduction])

                except Exception:

                    continue

                time.sleep(random.randint(1, 4))

    hotel_xie.close()

if __name__ == '__main__':

    has_num = []

    will_req_list = []

    for line in open("address.json", encoding='utf-8'):

        single_list = line.replace("\n", "").split(',')

        for has in open("has_address.json", encoding='utf-8'):

            has_num.append(int(has.replace("\n", "")))

        if int(single_list[1]) in has_num:

            continue

        single_tuple = (single_list, None)

        will_req_list.append(single_tuple)

    pool = threadpool.ThreadPool(8)

    request_list = threadpool.makeRequests(hotel, will_req_list)

    [pool.putRequest(req) for req in request_list]

    pool.wait()

    # 爬取地址

    # h = {

    #         "Connection": "keep-alive",

    #         "origin": "http://hotels.ctrip.com",

    #         "Host": "hotels.ctrip.com",

    #         "referer": "http://hotels.ctrip.com/hotel/beijing1",

    #         "user-agent": "Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36",

    #         "Content-Type": "application/x-www-form-urlencoded",

    #     }

    # res = requests.get('http://hotels.ctrip.com/Domestic/Tool/AjaxGetCitySuggestion.aspx', headers=h)

    # a_list = re.findall('data:(.*?),group:', res.text)

    # with open('address.json', 'w+',  encoding="utf-8") as f:

    #     for address in a_list:

    #         i = 0

    #         al = address.split(',')

    #         for a in al:

    #             city_letter = ''.join(re.findall(r'[A-Za-z]', a))

    #             f.write(city_letter + ',')

    #             city_num = re.sub("\D", "", a)

    #             f.write(str(city_num))

    #             city_name = re.sub('[A-Za-z0-9\"\|]', "", a)

    #             f.write(',' + str(city_name))

    #             f.write('\n')

    #         i += 1

    # f.close()

使用requests、re、BeautifulSoup、线程池爬取携程酒店信息并保存到Excel中的更多相关文章

使用requests、BeautifulSoup、线程池爬取艺龙酒店信息并保存到Excel中
import requests import time, random, csv from fake_useragent import UserAgent from bs4 import Beauti ...
Python爬取猫眼电影100榜并保存到excel表格
首先我们前期要导入的第三方类库有; 通过猫眼电影100榜的源码可以看到很有规律如: 亦或者是: 根据规律我们可以得到非贪婪的正则表达式 """<div class ...
爬取拉勾网所有python职位并保存到excel表格对象方式
# 1.把之间案例,使用bs4,正则,xpath,进行数据提取. # 2.爬取拉钩网上的所有python职位. from urllib import request,parse import json ...
爬取淘宝商品数据并保存在excel中
1.re实现 import requests from requests.exceptions import RequestException import re,json import xlwt,x ...
基于requests模块的cookie,session和线程池爬取
目录基于requests模块的cookie,session和线程池爬取基于requests模块的cookie操作基于requests模块的代理操作基于multiprocessing.dummy ...
Python+Requests+异步线程池爬取视频到本地
1.本次项目为获取梨视频中的视频,再使用异步线程池下载视频到本地 2.获取视频时,其地址中的Url是会动态变化,不播放时src值为图片的地址,播放时src值为mp4格式 3.查看视频链接是否存在aja ...
python爬取数据保存到Excel中
# -*- conding:utf-8 -*- # 1.两页的内容 # 2.抓取每页title和URL # 3.根据title创建文件,发送URL请求,提取数据 import requests fro ...
使用pandas中的raad_html函数爬取TOP500超级计算机表格数据并保存到csv文件和mysql数据库中
参考链接:https://www.makcyun.top/web_scraping_withpython2.html #!/usr/bin/env python # -*- coding: utf-8 ...
「拉勾网」薪资调查的小爬虫，并将抓取结果保存到excel中
学习Python也有一段时间了,各种理论知识大体上也算略知一二了,今天就进入实战演练:通过Python来编写一个拉勾网薪资调查的小爬虫. 第一步:分析网站的请求过程我们在查看拉勾网上的招聘信息的时候 ...

随机推荐

3次方的期望dp
osu 是一款群众喜闻乐见的休闲软件. 我们可以把osu的规则简化与改编成以下的样子: 一共有n次操作,每次操作只有成功与失败之分,成功对应1,失败对应0,n次操作对应为1个长度为n的 ...
【转】.NET 在云原生时代的蜕变，让我在云时代脱颖而出
原创:张善友原文:https://www.cnblogs.com/shanyou/p/12198741.html .NET 生态系统是一个不断变化的生态圈,我相信它正在朝着一个伟大的方向发展.有了开 ...
Vue中的nextTick()浅析
引言在开发过程中,我们经常遇到这样的问题:我明明已经更新了数据,为什么当我获取某个节点的数据时,却还是更新前的数据? 一,浅析为什么会这样呢?带着这个疑问先往下看. 先看一个小的例子: <d ...
Java.数据结构.集合体系详解
I. 第一部分:常见数据结构首先简单说下数据结构. 什么是数据结构?数据结构就是组织数据的方式. 常见的数据结构:栈,堆,树,图,数组,队列,链表. 这里主要介绍与java集合体系相关的栈.数组和链 ...
域渗透之票据传递攻击（pass the ticket，ptt）
票据传递攻击(PtT)是一种使用Kerberos票据代替明文密码或NTLM哈希的方法.PtT最常见的用途可能是使用黄金票据和白银票据,通过PtT访问主机相当简单. 1.ptt攻击的部分就不是简单的N ...
C入门题目
37. 反转一个3位整数反转一个只有3位数的整数. 样例样例 1: 输入: number = 123 输出: 321 样例 2: 输入: number = 900 输出: 9 注意事项你可以假设 ...
《Sequence Models》课堂笔记
Lesson 5 Sequence Models 这篇文章其实是 Coursera 上吴恩达老师的深度学习专业课程的第五门课程的课程笔记. 参考了其他人的笔记继续归纳的. 符号定义假如我们想要建立一 ...
n-tier waf 41 project 层真够多
ps: http://waf.codeplex.com/releases/view/618696
CQOI十二省联考游记
Day 0 看似稳如老狗的我实则慌得一逼看了一上午的CRT,一个字没看进去我反复安慰自己:我才高一,我才高一但是,明年的联赛会不会跟今年一样高呢? 明年的心态会不会有现在这么好呢? 明年同届的d ...
第二次作业hzw
第二次作业 | GIT地址 | 地址链接 | |--|--| |GIT用户名 | BRYANT333 | |学号后五位|24240| |博客地址|我的博客| |作业链接|第二次作业地址| 一.环境配置 ...

使用requests、re、BeautifulSoup、线程池爬取携程酒店信息并保存到Excel中

使用requests、re、BeautifulSoup、线程池爬取携程酒店信息并保存到Excel中的更多相关文章

随机推荐

热门专题