23.模拟登录cookies请求速询网站数据

采集速询网站数据：

网站地址：http://www.suxun0752.com/index.html

网站是需要账号登录才给返回信息的，我这里是直接拿的登录后的cookies请求的数据，cookies我也给了注释，没做深层的采集只是试采集了某一月份的。

简单分析一下 ：

1.首先要先拿到cookies这样你才有权限去访问返回的数据。
2.分析页面翻页请求的参数，及需要筛选的标签年份、月份等。
把这几个参数综合起来去请求，就能完全获取页面数据了。我这里只是拿了一个月份的数据去请求获取数据。

问题：虽然有账号，但是采集到一定程度还是会被检测到访问过于频繁限制采集。
这里只是一个解决问题才去的简单方法。

采集状况，存入文本txt：

# coding:utf-8

import requests

import random,time

import json

#请求地址

target_url ='http://www.suxun0752.com/template/infoPrice/govlist.tdo?t=Fri%20Oct%2019%202018%2015:55:08%20GMT+0800%20(%E4%B8%AD%E5%9B%BD%E6%A0%87%E5%87%86%E6%97%B6%E9%97%B4)'

headers = {

    'Accept': '*/*',

    'Accept-Encoding': 'gzip, deflate',

    'Accept-Language': 'zh-CN,zh;q=0.9',

    'Connection': 'keep-alive',

    'Content-Length': '',

    'Content-Type': 'application/x-www-form-urlencoded; charset=UTF-8',

    'Cookie': '************账号来之不易******************',

    'Host': 'www.suxun0752.com',

    'Origin': 'http://www.suxun0752.com',

    'Referer': 'http://www.suxun0752.com/template/channelView.thtml?channel_id=00af',

    'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36',

    'X-Requested-With': 'XMLHttpRequest',

}
#模拟请求参数

for i in range(0,400):

    j=i*10

    form_data={

            'prov': '',

            'city': '',

            'area': '',

            'year': '',

            'month': '',

            'key': '',

            'code': '',

            'start': '{}'.format(j),

            'displayRecord':'',

        }

    # 发送post请求，翻译数据

    response = requests.post(target_url, data=form_data, headers=headers)

    # print(response.text)

    content = json.loads(response.text)

    list = content['object']

    # print(list)

    for i in list:

        id = i['id']

        print(id)

        name = i['name']

        print(name)

        area = i['area']

        print(area)

        city = i['city']

        print(city)

        price = i['price']

        print(price)

        nicePrice = i['nicePrice']

        print(nicePrice)

        month = i['month']

        print(month)

        note = i['note']

        print(note)

        code = i['code']

        print(code)

        file_id = i['file_id']

        print(file_id)

        spec = i['spec']

        print(spec)

        unit = i['unit']

        print(unit)

        year = i['year']

        print(year)

        print('*'*100)

        time.sleep(random.randint(1,2))

        with open('text', 'a', encoding='utf-8')as f:

            f.write('\n'.join([str(id),str(name),str(area),str(price),str(nicePrice),str(month),str(code),str(file_id),spec,str(unit),str(year)]))

            f.write('\n' + '=' * 100 + '\n')

23.模拟登录cookies请求速询网站数据的更多相关文章

C#模拟登录后请求查询
需求是这样子的,想开发一个外挂程序,能够抓取别的系统的数据,从而实现数据验证. 比如这样一个界面: 使用Chrome浏览器分析http请求和响应过程以及页面的html代码,发现这是一个ajax请求,于 ...
基于nodejs模拟浏览器post请求爬取json数据
今天想爬取某网站的后台传来的数据,中间遇到了很多阻碍,花了2个小时才请求到数据,所以我在此总结了一些经验. 首先,放上我所爬取的请求地址http://api.chuchujie.com/api/?v= ...
C# 利用 HttpWebRequest 和 HttpWebResponse 模拟登录有验证码的网站
原文:C# 利用 HttpWebRequest 和 HttpWebResponse 模拟登录有验证码的网站我们经常会碰到需要程序模拟登录一个网站,那如果网站需要填写验证码的要怎样模拟登录呢?这篇文章 ...
PHP cURL实现模拟登录与采集使用方法详解教程
来源:http://www.zjmainstay.cn/php-curl 本文将通过案例,整合浏览器工具与PHP程序,教你如何让数据唾手可得 . 对于做过数据采集的人来说,cURL一定不会陌生.虽然 ...
Scrapy用Cookie实现模拟登录
模拟登录是爬取某些站点内容的一个关键,有些网站(特别是论坛类),不登录的话,一个数据也拿不到. 模拟登录有这样几个关键: 弄清楚登录的url一些网站打开出现登录的页面,地址栏大多数不是登录提交表单的u ...
python实现模拟登录【转】
原文网址:http://www.blogjava.net/hongqiang/archive/2012/08/01/384552.html 本文主要用python实现了对网站的模拟登录.通过自己构造p ...
scrapy模拟登录微博
http://blog.csdn.net/pipisorry/article/details/47008981 这篇文章是介绍使用scrapy模拟登录微博,并爬取微博相关内容.关于登录流程为嘛如此设置 ...
python实现模拟登录
本文主要用python实现了对网站的模拟登录.通过自己构造post数据来用Python实现登录过程. 当你要模拟登录一个网站时,首先要搞清楚网站的登录处理细节(发了什么样的数据,给谁发等...). ...
python模拟登录的实现
本文主要用python实现了对网站的模拟登录.通过自己构造post数据来用Python实现登录过程. 当你要模拟登录一个网站时,首先要搞清楚网站的登录处理细节(发了什么样的数据,给谁发等...). ...

随机推荐

adb调试android设备说的比较清楚的一篇文章
ADB支持两种连接Android系统的方式,USB方式及网络方式.一般手机及平板默认会设置为USB方式.android系统底层运行着一个服务(adbd),用于相应和管理大家在电脑端的adb命令连接,这 ...
ALGO-157_蓝桥杯_算法训练_阶乘末尾(高精度)
问题描述给定n和len,输出n!末尾len位. 输入格式一行两个正整数n和len. 输出格式一行一个字符串,表示答案.长度不足用前置零补全. 样例输入样例输出数据规模和约定 n<=, ...
vue聊天功能之滚动条自动定位到底部
一.问题描述首次进入聊天窗口,数据加载之后先显示最早消息,后显示最新消息,也就是数据加载完之后,延迟了一个时间滚动条才自动定位到最底部. 二.解决方案如果数据在刚好加载完的时候滚动条就定位到了最底 ...
服务容错保护断路器Hystrix之六：缓存功能的使用
高并发环境下如果能处理好缓存就可以有效的减小服务器的压力,Java中有许多非常好用的缓存工具,比如Redis.EHCache等,当然在Spring Cloud的Hystrix中也提供了请求缓存的功能, ...
OPENDATASOURCE
select top 1 * from OPENDATASOURCE( 'SQLOLEDB', 'Data Source=IP地址;User ID=用户名 ...
lvm的磁盘管理知识点整理
首先感谢参考的博客网址: http://blog.51cto.com/dreamfire/1084729 https://www.cnblogs.com/kevingrace/p/5825963.ht ...
1124 Raffle for Weibo Followers （20 分）
1124 Raffle for Weibo Followers (20 分) John got a full mark on PAT. He was so happy that he decided ...
保存chrome主题背景的图片
chrome主题背景的图怎样可以保存下来? 在chrome地址栏中输入: chrome://theme/IDR_THEME_NTP_BACKGROUND?npebkpkiddfadallfhefpip ...
C# Socket的Send问题，阻塞线程
Socket sc = comm.connectSocket(ip, port, ReceiveMsg_fromPc); comm.sendSocketMsg16(sc,cmd); sc.Close( ...
c#类对象构造函数析构函数——面向对象
类: 也是复杂数据类型也是需要我们先定义出类型,才能使用它的数据对象: 是通过模板类实例化出来的个体,具有具体的属性和行为(方法),对象是不能索引到静态方法. 对象的生命周期构造—— 使用—— ...

23.模拟登录cookies请求速询网站数据

23.模拟登录cookies请求速询网站数据的更多相关文章

随机推荐

热门专题