python模拟浏览器爬取数据

爬虫新手大坑：爬取数据的时候一定要设置header伪装成浏览器！！！！

在爬取某财经网站数据时由于没有设置Header信息，直接被封掉了ip

后来设置了Accept、Connection、User-Agent三个参数后换了个ip登录，成功请求到几次数据后又被封掉ip

最后老老实实把所有header信息都加上后请求（其实还少了一个cookie），现在请求了几十次还没被封 (ಥ﹏ಥ)

代码如下

#coding=utf-8

import requests

from bs4 import BeautifulSoup

headers = {'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8',

        'Accept-Encoding':'gzip,deflate,sdch',

        'Accept-Language':'en,zh-CN;q=0.8,zh;q=0.6',

        'Cache-Control':'max-age=0',

        'Host':'www.xxx.com',   #此处为财经网的主页

        'Connection':'keep-alive',

         'Upgrade-Insecure-Requests':'',

        'Content-Type':'application/x-www-form-urlencoded',

        'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/34.0.1847.131 Safari/537.36'

    }

response = requests.get("http://www.xxxxxx.com", headers=headers) #请求的地址

soup = BeautifulSoup(response.content, 'html.parser')  #返回的html信息用soup解析

print(response.status_code)  #请求状态码

print(soup.prettify())　　#以格式输出html

有不懂的地方或者想要探讨问题可以qq联系：1163949417

python模拟浏览器爬取数据的更多相关文章

Python Requests库入门——应用实例-京东商品页面爬取+模拟浏览器爬取信息
京东商品页面爬取选择了一款荣耀手机的页面(给华为打广告了,荣耀play真心不错) import requests url = "https://item.jd.com/7479912.ht ...
Selenium+Chrome/phantomJS模拟浏览器爬取淘宝商品信息
#使用selenium+Carome/phantomJS模拟浏览器爬取淘宝商品信息 # 思路: # 第一步:利用selenium驱动浏览器,搜索商品信息,得到商品列表 # 第二步:分析商品页数,驱动浏 ...
Python爬虫之selenium爬虫，模拟浏览器爬取天猫信息
由于工作需要,需要提取到天猫400个指定商品页面中指定的信息,于是有了这个爬虫.这是一个使用 selenium 爬取天猫商品信息的爬虫,虽然功能单一,但是也算是 selenium 爬虫的基本用法了. ...
scrapy模拟浏览器爬取验证码页面
使用selenium模块爬取验证码页面,selenium模块需要另外安装这里不讲环境的配置,我有一篇博客有专门讲ubuntn下安装和配置模拟浏览器的开发 spider的代码 # -*- coding: ...
python之scrapy爬取数据保存到mysql数据库
1.创建工程 scrapy startproject tencent 2.创建项目 scrapy genspider mahuateng 3.既然保存到数据库,自然要安装pymsql pip inst ...
sumafan:python爬虫多线程爬取数据小练习（附答案）
抓取 https://www.cnbeta.com/ 首页中新闻内容页网址, 抓取内容例子: https://hot.cnbeta.com/articles/game/825125 将抓取下来的内容页 ...
Python+Scrapy+Crawlspider 爬取数据且存入MySQL数据库
1.Scrapy使用流程 1-1.使用Terminal终端创建工程,输入指令:scrapy startproject ProName 1-2.进入工程目录:cd ProName 1-3.创建爬虫文件( ...
利用chrome浏览器爬取数据
相关的库自己下载吧,直接上代码 from selenium import webdriver from bs4 import BeautifulSoup import time #手动添加路径 pat ...
关于爬虫的日常复习（10）—— 实战：使用selenium模拟浏览器爬取淘宝美食

随机推荐

Jmeter接口测试（七）用例数据分离
之前我们的用例数据都是配置在 Jmeter Http 请求中,每次需要增加,修改用例都需要打开 jmeter 重新编辑,当用例越来越多的时候,用例维护起来就越来越麻烦,有没有好的方法来解决这种情况呢? ...
Jenkins持续部署
Jenkins持续部署 Jenkins提供很好的连续部署和交付的支持.看一下部署任何软件开发的流程,将如下图所示. 连续部署的主要部分,是确保其上面所示的整个过程是自动化的.Jenkins实现所有这些 ...
C++ 学习笔记变量和基本类型（一）
C++ 学习笔记一.变量和基本类型概述类型是所有程序的基础.类型告诉我们数据代表什么意思以及可以对数据执行哪些操作. c++基本类型: 字符型整型浮点型 c++ 还提供了可用于自定义数据类型的 ...
Python 夺大满贯！三大编程语言榜即将全部“失守”！
有互联网创业者说: 2019年可能会是过去十年里最差的一年但却是未来十年里最好的一年真的是这样吗? “每月工资1w,如何赚到200w?” 同样一个问题,问不同的人会得到不同的答案. 有一类人,开始 ...
【坚持】Selenium+Python学习之从读懂代码开始 DAY5
2018/05/22 函数作为返回值 [来源:廖雪峰的官方网站](https://www.liaoxuefeng.com/) #No.1 def lazy_sum(*args): def sum(): ...
Netty源码分析第2章(NioEventLoop)---->第7节: 处理IO事件
Netty源码分析第二章: NioEventLoop 第七节:处理IO事件上一小节我们了解了执行select()操作的相关逻辑, 这一小节我们继续学习select()之后, 轮询到io事件的相关 ...
linux的date命令使用指定时间的加减方法与异常
在一般网页里,date命令减时间方法为: date -d '-100 days' 我的需求是,在指定时间上减8小时.按一般理解来看,命令写成如下样子(有异常错误的写法): date -d " ...
ubuntu下Open vSwitch安装
ubuntu下Open vSwitch安装有关Open vSwitch的安装,网上有各种的教程资料,但一些已经过时,按照网上的教程,花费了大量时间,都没能安装成功.于是,通过查阅官方安装教程以及综合 ...
工具 | Sublime
Sublime 前言妈耶..\(Sublime\)的界面真的是太好看啦哭哭.. 我永远喜欢Sublime! 强推Sublime... 正文自从暑假用上的Ubontu 一开始用的是\(gedit\) ...
linux命令系列 ls
ls是linux中最常用的命令之一 ls 的功能是list directory contents,其常用的选项如下: (1) -l use a long listing format(长格式,显示 ...

python模拟浏览器爬取数据

python模拟浏览器爬取数据的更多相关文章

随机推荐

热门专题