爬取某网站景区列表并保存为csv文件

网址:http://www.halehuo.com/jingqu.html

经过查看可以发现,该景区页面没有分页,不停的往下拉,页面会进行刷新显示后面的景区信息

通过使用浏览器调试器,发现该网站使用的是post请求,使用ajax传输数据

请求参数:

响应数据:

经过以上分析,大致思路如下:

(1)向请求网站使用post方式传递参数,先传递首页参数,获得json数据,然后进行数据提取,获取所需要的数据

(2)使用for循环遍历获取数据

需要注意的地方:

(1)景区logo图片获取的是相对地址,通过构造一个函数获得景区logo的绝对地址

(2)获取到的景区详情链接打不开,通过景区列表页面打开景区详情页面,发现获取的景区详情链接跟景区详情页面链接不匹配再构造一个函数处理获取到的景区详情链接

#!/usr/bin/env python

# -*- coding: utf-8 -*-

import csv

import json

from urllib.parse import urlencode

import requests

# 构造参数,发起请求,获得数据

def get_page_index(pageindex):

    data = {

        'citycode': 0,

        'countycode': 0,

        'keywords': 0,

        'pageindex': pageindex,

        'sceniclev': 0,

        'themetype': 0,

    }

    params = urlencode(data)

    base = 'http://www.halehuo.com/index.php/Scenic/getScenicList'

    url = base + '?' + params

    try:

        response = requests.get(url)

        if response.status_code == 200:

            return response.text

        return None

    except ConnectionError:

        print('Error occurred')

        return None

# 处理景区logo地址

def get_log_url(url):

    base_url = 'http://www.halehuo.com'

    return base_url + url

# 处理景区详情链接

def get_detail_url(url):

    return url.replace('index.php/Scenic/main/id', 'jingqu')

# 解析获得的景区数据

def parse_page_index(pageindex):

    item = get_page_index(pageindex)

    items = json.loads(item)['data']

    for item in items:

        yield {

            'id': item['id'],

            'scenic_name': item['scenic_name'],

            'logo': get_log_url(item['logo']),

            'address': item['address'],

            'policy': item['policy'],

            'url': get_detail_url(item['url']),

            'remarks': item['remarks']

        }

# 数据存储到csv

def write_to_file3(item):

    with open('jingqu_detail.csv', 'a', encoding='utf_8_sig', newline='') as f:

        # 'a'为追加模式（添加）

        # utf_8_sig格式导出csv不乱码

        fieldnames = ['id', 'scenic_name', 'logo', 'address', 'policy', 'url', 'remarks']

        w = csv.DictWriter(f, fieldnames=fieldnames)

        # w.writeheader()

        # print(item)

        w.writerow(item)

def main():

    for i in range(1, 13):

        items = parse_page_index(i)

        for item in items:

            write_to_file3(item)

if __name__ == '__main__':

    main()

保存到csv文件的截图如下:

爬取某网站景区列表并保存为csv文件的更多相关文章

python爬取某个网站的图片并保存到本地
python爬取某个网站的图片并保存到本地 #coding:utf- import urllib import re import sys reload(sys) sys.setdefaultenco ...
爬取拉勾网python工程师的岗位信息并生成csv文件
转载自:https://www.cnblogs.com/sui776265233/p/11146969.html 代码写得很好,但是目前只看得懂前一部分一.爬取和分析相关依赖包 Python版本: ...
scrapy框架来爬取壁纸网站并将图片下载到本地文件中
首先需要确定要爬取的内容,所以第一步就应该是要确定要爬的字段: 首先去items中确定要爬的内容 class MeizhuoItem(scrapy.Item): # define the fields ...
使用Python爬取微信公众号文章并保存为PDF文件(解决图片不显示的问题)
前言第一次写博客,主要内容是爬取微信公众号的文章,将文章以PDF格式保存在本地. 爬取微信公众号文章(使用wechatsogou) 1.安装 pip install wechatsogou --up ...
python爬取视频网站m3u8视频，下载.ts后缀文件，合并成整视频
最近发现一些网站,可以解析各大视频网站的vip.仔细想了想,这也算是爬虫呀,爬的是视频数据. 首先选取一个视频网站,我选的是影视大全 ,然后选择上映不久的电影 “一出好戏” . 分析页面我用的是c ...
使用pandas中的raad_html函数爬取TOP500超级计算机表格数据并保存到csv文件和mysql数据库中
参考链接:https://www.makcyun.top/web_scraping_withpython2.html #!/usr/bin/env python # -*- coding: utf-8 ...
python爬虫--爬取某网站电影信息并写入mysql数据库
书接上文,前文最后提到将爬取的电影信息写入数据库,以方便查看,今天就具体实现. 首先还是上代码: # -*- coding:utf-8 -*- import requests import re im ...
python爬虫--爬取某网站电影下载地址
前言:因为自己还是python世界的一名小学生,还有很多路要走,所以本文以目的为向导,达到目的即可,对于那些我自己都没弄懂的原理,不做去做过多解释,以免误人子弟,大家可以网上搜索. 友情提示:本代码用 ...
爬虫系列2：Requests+Xpath 爬取租房网站信息
Requests+Xpath 爬取租房网站信息 [抓取]:参考前文爬虫系列1:https://www.cnblogs.com/yizhiamumu/p/9451093.html [分页]:参考前文 ...

随机推荐

stl变易算法（三）
本篇接着前面stl变易算法(一)和stl变易算法(二)继续讲述变易算法. 这里将介绍完余下的变易算法,主要有:填充fill.n次填充fill_n.随机生成元素generate.随机生成n个元素gene ...
The superclass "javax.servlet.http.HttpServlet" was not found on the Java Build Path
完整错误信息: THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS"AS IS" AND ANY ...
在Cocos2d-X中玩转精灵
创建一个Cocos2d-Xproject,project的文件夹例如以下图所看到的: 在Resourcees目录中加入一张png格式的图片在HelloWorldScene.cpp文件里的bool H ...
Hilbert曲线简单介绍及生成算法
Hilbert曲线 Hilbert曲线是一种填充曲线,相似的填充曲线还包含Z曲线.格雷码等其它方法.Hilbert曲线根据自身空间填充曲线的特性,能够线性地贯穿二维或者更高维度每一个离散单元.而且只穿 ...
JQuery调用WCF服务，部署在iis
Normal 0 7.8 磅 0 2 false false false EN-US ZH-CN X-NONE /* Style Definitions */ table.MsoNormalTable ...
ORA-24247: 网络訪问被訪问控制列表 (ACL) 拒绝
ORA-24247: 网络訪问被訪问控制列表 (ACL) 拒绝注意:须要在system用户下使用命令须要先使用 DBMS_NETWORK_ACL_ADMIN.CREATE_ACL 创建訪问控 ...
C++模板（菜鸟教程）
C++模板(菜鸟教程) C++ 模板模板是泛型编程的基础,泛型编程即以一种独立于任何特定类型的方式编写代码. 模板是创建泛型类或函数的蓝图或公式.库容器,比如迭代器和算法,都是泛型编程的例子,它们都 ...
Codeforces--630D--Hexagons（规律）
D - Hexagons! Crawling in process... Crawling failed Time Limit:500MS Memory Limit:65536KB ...
Java 解析Json数据
Json格式字符串{success:0,errorMsg:"错误消息",data:{total:"总记录数",rows:[{id:"任务ID" ...
Oracle Instant Client 安装配置
一.下载下载地址:http://www.oracle.com/technetwork/database/features/instant-client/index-097480.html 这是Ora ...

爬取某网站景区列表并保存为csv文件

爬取某网站景区列表并保存为csv文件的更多相关文章

随机推荐

热门专题