商业爬虫学习笔记day3

一. 付费代理发送请求的两种方式

第一种方式：

（1）代理ip，形式如下：

money_proxy = {"http":"username:pwd@192.168.12.11:8080"}

（2）代理的处理器

proxy_handler = urllib.request.ProxyHandler(money_proxy)

（3）通过处理器创建opener

opener = urllib.request.build_opener(proxy_handler)

（4）open发送请求

opener.open("http://www.baidu.com")

第二种方式发送付费ip地址

use_name = "abcname"

pwd = "123456"

proxy_money = "123.158.63.130:8888"

# 创建密码管理器，添加用户名和密码

password_manager = urllib.request.HTTPasswordMgrWithDefaultRealm()

# uri定位 uri>url

# url 资源定位符

password_manager.add_password(None, proxy_money, use_name, pwd)

# 创建可以验证代理ip的处理器

handle_auth_proxy = urllib.request.ProxyBasicAuthHandler(password_manager)

# 根据处理器创建opener

handle_quth = urllib.request..build_opener(handle_auth_proxy)

# 发送请求

response = opener_auth.open("http://www.baidu.com")

import urllib.request

#付费的代理发送

#1.用户名密码(带着)

#通过验证的处理器来发送

def money_proxy_use():

    # #第一种方式付费代理发送请求

    # #1.代理ip

    # money_proxy ={"http":"username:pwd@192.168.12.11:8080"}

    # #2.代理的处理器

    # proxy_handler=urllib.request.ProxyHandler(money_proxy)

    #

    # #3.通过处理器创建opener

    # opener = urllib.request.build_opener(proxy_handler)

    # #4.open发送请求

    # opener.open("http://www.baidu.com")

    # #第二种方式发送付费的ip地址

    use_name = "abcname"

    pwd = "123456"

    proxy_money = "123.158.63.130:8888"

    #2.创建密码管理器,添加用户名和密码

    password_manager = urllib.request.HTTPPasswordMgrWithDefaultRealm()

    #uri定位 uri>url

    #url 资源定位符

    password_manager.add_password(None,proxy_money,use_name,pwd)

    #3.创建可以验证代理ip的处理器

    handle_auth_proxy = urllib.request.ProxyBasicAuthHandler(password_manager)

    #4.根据处理器创建opener

    opener_auth = urllib.request.build_opener(handle_auth_proxy)

    #5.发送请求

    response = opener_auth.open("http://www.baidu.com")

    print(response.read())

money_proxy_use()

二. 爬取自己公司的数据，做数据分析（admin）

import urllib.request

def auth_nei_wang():

    #1.用户名密码

    user = "admin"

    pwd = "adimin123"

    nei_url = "http://192.168.179.66"

    #2.创建密码管理器

    pwd_manager = urllib.request.HTTPPasswordMgrWithDefaultRealm()

    pwd_manager.add_password(None,nei_url,user,pwd)

    #创建认证处理器(requests)

    auth_handler = urllib.request.HTTPBasicAuthHandler(pwd_manager)

    opener = urllib.request.build_opener(auth_handler)

    response = opener.open(nei_url)

    print(response)

auth_nei_wang()

商业爬虫学习笔记day3的更多相关文章

商业爬虫学习笔记day1
day1 一. HTTP 1.介绍: https://www.cnblogs.com/vamei/archive/2013/05/11/3069788.html http://blog.csdn.ne ...
商业爬虫学习笔记day2
1. get传参 (1)url中包含中文报错解决方法 urllib.request.quote("包含中文的url", safe = "string.printtable ...
商业爬虫学习笔记day4
一.获取登录后页面信息的两种方法 1.第一种方法: 人为把有效cookies加到请求头中,代码如下 import urllib.request # 确定url url = "https:// ...
商业爬虫学习笔记day8-------json的使用
一. 简介 JSON,全称为JavaScript Object Notation(JavaScript对象标记),它通过对象和数组的组合来表示数据,是一种轻量级的数据交换格式.它基于 ECMAScri ...
商业爬虫学习笔记day7-------解析方法之bs4
一.Beautiful Soup 1.简介 Beautiful Soup 是python的一个库,最主要的功能是从网页抓取数据.其特点如下(这三个特点正是bs强大的原因,来自官方手册) a. Beau ...
商业爬虫学习笔记day6
一. 正则解析数据解析百度新闻中每个新闻的title,url,检查每个新闻的源码可知道,其title和url都位于<a></a>标签中,因为里面参数的具体形式不一样,同一个正 ...
商业爬虫学习笔记day5
一. 发送post请求 import requests url = "" # 发送post请求 data = { } response = requests.post(url, d ...
python网络爬虫学习笔记
python网络爬虫学习笔记 By 钟桓 9月 4 2014 更新日期:9月 4 2014 文章文件夹 1. 介绍: 2. 从简单语句中開始: 3. 传送数据给server 4. HTTP头-描写叙述 ...
python网络爬虫学习笔记（二）BeautifulSoup库
Beautiful Soup库也称为beautiful4库.bs4库,它可用于解析HTML/XML,并将所有文件.字符串转换为'utf-8'编码.HTML/XML文档是与“标签树一一对应的.具体地说, ...

随机推荐

Zabbix5.0实现监控系统登陆失败告警
环境zabbix5.0,配置思路,通过添加监控项和触发器实现,监控项监控对应的日志文件,触发器过滤日志文件中的关键字,当出现failed时就发出告警. 监控项配置类型选择zabbix客户端主动式,键 ...
Android App隐私合规检测辅助工具(Camille)
Camille Android App隐私合规检测辅助工具,项目仓库:https://github.com/zhengjim/camille 简介现如今APP隐私合规十分重要,各监管部门不断开展AP ...
设计系统（Design System），设计和开发之间的“DevOps”
最近,我们网站的上新增了几个新功能,比如通过导航栏的QR Code可以下载App:通过Carousel的方式,显示多条信息. 以往这样的功能可能需要2-3个Sprints完成,但是现在这些功能都是在一 ...
大一C语言学习笔记（6）---自省篇--流程控制；break，continue，return间的异同；数组应用到循环语句中需要注意的问题；++i 和 i++的异同等。
下面是傻瓜博主"曾经"犯过的错和一些心得: ༼ つ ◕_◕ ༽つ 1.要想流程控制学好,一定要学会化繁为简,举栗子: 三目运算符 (略?略:略)---就是一个数字嘛, ...
Java核心技术--Java程序设计
Java术语术语名缩写解释 Java Development Kit(Java开发工具包) JDK 编写Java程序的程序员使用的软件 Java Runtime Environment(Java ...
大爽Python入门教程 3-1 布尔值: True, False
大爽Python入门公开课教案点击查看教程总目录 1 布尔值介绍从判断说起回顾第一章介绍的简单的判断 >>> x = 10 >>> if x > 5: ...
菜鸡的Java笔记 - java 访问控制权限
java中四种访问控制权限的使用内容在java里面一共定义有四个权限,按照由小到大的顺序:private<defaule<prote ...
菜鸡的Java笔记 api 文档
package 包的用法为什么需要 package ? 为了解决类之间的重名问题为了便于管理类:合适类位于合适的包 package 怎么用? ...
js--history 对象详解
前言我们浏览一个网页时可能不太会注意网页前进后退这些操作,但是在开发时你是否想过页面之间的跳转经历了什么,浏览器时怎么保存的页面信息,重新返回上一个页面的时候是否需要重新加载页面呢,会有很对疑问,要 ...
时间处理，类似"xxxx-xx-xxTxx:xx:xx187+0000"格式
后端返回的时间:"2020-04-24T09:12:51.187+0000" 目标显示时间:2020-04-24 09:12:51 <!DOCTYPE html> ...

商业爬虫学习笔记day3

商业爬虫学习笔记day3的更多相关文章

随机推荐

热门专题