python学习-爬虫

转载自静觅的博客

最普通下载网页

 import urrlib2

 response = urllib2.urlopen("http://www.baidu.com")

 print response.read()

Post方式

 import urllib

 import urllib2

 values = {"username":"*****", "password":"*****"}

 url = "   "

 request = urllib2.Request(url,urllib.urlencode(values))

 response = urllib2.urlopen(request)

 print response.read()

设置headers

import urllib

import urllib2  

url = 'http://www.server.com/login'

user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'

values = {'username' : 'cqc',  'password' : 'XXXX' }

headers = { 'User-Agent' : user_agent }

data = urllib.urlencode(values)

request = urllib2.Request(url, data, headers)

response = urllib2.urlopen(request)

page = response.read()

Get方式

 import urllib2

 import urllib

 values = {}

 values["username"] =

 values["password"] =

 data = urlencode(values)

 url =

 geturl = url + "?" + data

 request = urllib2.Request(geturl)

 response = urllib2.urlopen(request)

 print response.read()

设置代理

 import urllib2

 enable_proxy = True

 proxy_handler = urllib2.ProxyHandler({"http" : 'http://some-proxy.com:8080'})

 null_proxy_handler = urllib2.ProxyHandler({})

 if enable_proxy:

     opener = urllib2.build_opener(proxy_handler)

 else:

     opener = urllib2.build_opener(null_proxy_handler)

 urllib2.install_opener(opener)

设置延时

 import urllib2

 response = urllib2.urlopen('http://www.baidu.com',data, 10)

异常处理

 import urllib2

 req = urllib2.Request('http://blog.csdn.net/cqcre')

 try:

     urllib2.urlopen(req)

 except urllib2.URLError, e:

     if hasattr(e,"code"):

         print e.code

     if hasattr(e,"reason"):

         print e.reason

 else:

     print "OK"

设置cookie

 import urllib

 import urllib2

 import cookielib

 filename = 'cookie.txt'

 #声明一个MozillaCookieJar对象实例来保存cookie，之后写入文件

 cookie = cookielib.MozillaCookieJar(filename)

 opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cookie))

 postdata = urllib.urlencode({

             'stuid':'',

             'pwd':''

         })

 #登录教务系统的URL

 loginUrl = 'http://jwxt.sdu.edu.cn:7890/pls/wwwbks/bks_login2.login'

 #模拟登录，并把cookie保存到变量

 result = opener.open(loginUrl,postdata)

 #保存cookie到cookie.txt中

 cookie.save(ignore_discard=True, ignore_expires=True)

 #利用cookie请求访问另一个网址，此网址是成绩查询网址

 gradeUrl = 'http://jwxt.sdu.edu.cn:7890/pls/wwwbks/bkscjcx.curscopre'

 #请求访问成绩查询网址

 result = opener.open(gradeUrl)

 print result.read()

python学习-爬虫的更多相关文章

Python学习—爬虫篇之破解ntml登陆问题
之前帮公司爬取过内部的一个问题单网站,要求将每个问题单的下的附件下载下来.一开始的时候我就遇到一个破解登陆验证的大坑...... (╬￣皿￣)=○ 由于在公司使用的都是内网,代码和网站的描述 ...
Python学习——爬虫篇
requests 使用requests进行爬取下面是我编写的第一个爬虫的脚本 import requests # 导入reques ...
Python学习---爬虫学习[scrapy框架初识]
Scrapy Scrapy是一个框架,可以帮助我们进行创建项目,运行项目,可以帮我们下载,解析网页,同时支持cookies和自定义其他功能. Scrapy是一个为了爬取网站数据,提取结构性数据而编写的 ...
Python学习---爬虫学习[requests模块]180411
模块安装安装requests模块 pip3 install requests 安装beautifulsoup4模块 [更多参考]https://blog.csdn.net/sunhuaqiang1/ ...
Python学习 —— 爬虫入门 - 爬取Pixiv每日排行中的图片
更新于 2019-01-30 16:30:55 我另外写了一个面向 pixiv 的库:pixiver 支持通过作品 ID 获取相关信息.下载等,支持通过日期浏览各种排行榜(包括R-18),支持通过 p ...
python 学习爬虫教程~
思路:: (本文没有用xpath定位,xpath需要导入第三方库 from lxml import etree) 1.首先通过urllib类获取到网页的所有内容 2.通过partition获取其中 ...
python网络爬虫学习笔记
python网络爬虫学习笔记 By 钟桓 9月 4 2014 更新日期:9月 4 2014 文章文件夹 1. 介绍: 2. 从简单语句中開始: 3. 传送数据给server 4. HTTP头-描写叙述 ...
[Python学习] 简单网络爬虫抓取博客文章及思想介绍
前面一直强调Python运用到网络爬虫方面很有效,这篇文章也是结合学习的Python视频知识及我研究生数据挖掘方向的知识.从而简介下Python是怎样爬去网络数据的,文章知识很easy ...
Python学习之路（二）爬虫（一）
Python基础基础教程参考廖雪峰的官方网站https://www.liaoxuefeng.com/ 一."大数据时代",数据获取的方式 1. 企业生产的用户数据:大型互联网公司 ...

随机推荐

python to be Windows Daemon
参考:http://assback.iteye.com/blog/1731565 安装 pywin32-.win32-py2..exe #32bit pywin32-.win-amd64-py2..e ...
向数据库中全部表中增加一个字段的SQL
SELECT 'ALTER TABLE ' + NAME + ' ADD 字段名 int not null default 0' FROM sysobjects AS sWHERE s.[type] ...
codeforces 518B. Tanya and Postcard 解题报告
题目链接:http://codeforces.com/problemset/problem/518/B 题目意思:给出字符串 s 和 t,如果 t 中有跟 s 完全相同的字母,数量等于或者多过 s,就 ...
C++基础练习题（一）：查找最短单词
/*<说明> 编程实现将字符串中最短的单词输出,在主函数中输入字符串,编写一个函数完成最短单词的查找 </说明>*/ #include<time.h> #inclu ...
【DPM】Deformable Part Models matlab代码在windows下的调试过程
我下载的是voc-release5 1.按照这篇文章,都操作了一遍:http://blog.csdn.net/pozen/article/details/7023742#quote 2.运行demo不 ...
HDU 1087 Super Jumping! Jumping! Jumping! --- DP入门之最大递增子序列
DP基础题 DP[i]表示以a[i]结尾所能得到的最大值但是a[n-1]不一定是整个序列能得到的最大值 #include <bits/stdc++.h> using namespace ...
java jsp调用shell（带参数）脚本并返回值
test.jsp <%@ page language="java" import="java.util.List,java.util.ArrayList,java. ...
FTL标签
<#if blockObject ??> <#else> </if>判断对象是否存在 <#if componentid ?? &&compon ...
Android利用Gson解析嵌套多层的Json
参考:http://www.cnblogs.com/jxgxy/p/3677256.html 比如我们要解析一个下面这种的Json: String json = {"a":&quo ...
《Thinking in Java》十七章_容器深入研究_练习14(Page486)
练习14 Properties的继承树如下:

python学习-爬虫

python学习-爬虫的更多相关文章

随机推荐

热门专题