python爬虫之基本知识

一、请求-响应

在利用python语言实现爬虫时，主要用到了urllib和urllib2两个库。首先用一段代码说明如下：

 import urllib

 import urllib2

 url="http://www.baidu.com"

 request=urllib2.Request(url)

 response=urllib2.urlopen(request)

 print response.read()

我们知道一个网页就是以html为骨架，js为肌肉，css为衣服所构成的。上述代码所实现的功能就是把百度网页的源码爬取到本地。

其中，url为要爬取的网页的网址；request发出请求，response是接受请求后给出的响应。最后用read（）函数输出的就是百度网页的源码。

二、GET-POST

两者都是向网页传递数据，最重要的区别是GET方式是直接以链接形式访问，链接中包含了所有的参数，当然如果包含了密码的话是一种不安全的选择，不过你可以直观地看到自己提交了什么内容。

POST则不会在网址上显示所有的参数，不过如果你想直接查看提交了什么就不太方便了，大家可以酌情选择。

POST方式：

 import urllib

 import urllib2

 values={'username':'2680559065@qq.com','Password':'XXXX'}

 data=urllib.urlencode(values)

 url='https://passport.csdn.net/account/login?from=http://my.csdn.net/my/mycsdn'

 request=urllib2.Request(url,data)

 response=urllib2.urlopen(request)

 print response.read()

GET方式：

import urllib

import urllib2

values={'username':'2680559065@qq.com','Password':'XXXX'}

data=urllib.urlencode(values)

url = "http://passport.csdn.net/account/login"

geturl = url + "?"+data

request=urllib2.Request(geturl)

response=urllib2.urlopen(request)

print response.read()

三、异常处理

处理异常时，用到了try-except语句。

 import urllib2

 try:

     response=urllib2.urlopen("http://www.xxx.com")

 except urllib2.URLError,e:

     print e.reason

通过上述的介绍及代码展示，我们已经初步认识了爬虫过程，希望对大家有所帮助。

爬取图片：

import urllib
import urllib.request
import re
import os
import ssl
ssl._create_default_https_context = ssl._create_unverified_context

def gethtml(url):
   headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:23.0) Gecko/20100101 Firefox/23.0'}
   req = urllib.request.Request(url=url, headers=headers)
   page=urllib.request.urlopen(req)
   html=page.read()
   html=html.decode('utf-8')
   return html

def getImg(html):
   reg='<img src="(http.*?\.png)"'
   imgre=re.compile(reg)
   imglist=imgre.findall(html)
   return imglist

def make_dir(floder):
   path=os.getcwd()+'/'+floder
   if not os.path.isdir(path):
       os.makedirs(path)
   return path

def save_image(path,imglist):
   x=0
   for imgurl in imglist:
       print(imgurl)
       urllib.request.urlretrieve(imgurl,'{}/{}.png'.format(path,x))
       x=x+1

if __name__=='__main__':
   html=gethtml('https://blog.csdn.net/yql_617540298/article/details/81411995')
   imglist=getImg(html)
   path=make_dir('test')
   save_image(path,imglist)

python爬虫之基本知识的更多相关文章

【Python爬虫】入门知识
爬虫基本知识这阵子需要用爬虫做点事情,于是系统的学习了一下python爬虫,觉得还挺有意思的,比我想象中的能干更多的事情,这里记录下学习的经历. 网上有关爬虫的资料特别多,写的都挺复杂的,我这里不打 ...
【图文详解】python爬虫实战——5分钟做个图片自动下载器
python爬虫实战——图片自动下载器之前介绍了那么多基本知识[Python爬虫]入门知识,(没看的先去看!!)大家也估计手痒了.想要实际做个小东西来看看,毕竟: talk is cheap sho ...
python爬虫实战：利用scrapy，短短50行代码下载整站短视频
近日,有朋友向我求助一件小事儿,他在一个短视频app上看到一个好玩儿的段子,想下载下来,可死活找不到下载的方法.这忙我得帮,少不得就抓包分析了一下这个app,找到了视频的下载链接,帮他解决了这个小问题 ...
Python 爬虫练习：爬取百度贴吧中的图片
背景:最近开始看一些Python爬虫相关的知识,就在网上找了一些简单已与练习的一些爬虫脚本实现功能:1,读取用户想要爬取的贴吧 2,读取用户先要爬取某个贴吧的页数范围 3,爬取每个贴吧中用户输入的页 ...
Python爬虫开发教程
正文现在Python语言大火,在网络爬虫.人工智能.大数据等领域都有很好的应用.今天我向大家介绍一下Python爬虫的一些知识和常用类库的用法,希望能对大家有所帮助.其实爬虫这个概念很简单,基 ...
python爬虫主要就是五个模块：爬虫启动入口模块，URL管理器存放已经爬虫的URL和待爬虫URL列表，html下载器，html解析器，html输出器同时可以掌握到urllib2的使用、bs4（BeautifulSoup）页面解析器、re正则表达式、urlparse、python基础知识回顾（set集合操作）等相关内容。
本次python爬虫百步百科,里面详细分析了爬虫的步骤,对每一步代码都有详细的注释说明,可通过本案例掌握python爬虫的特点: 1.爬虫调度入口(crawler_main.py) # coding: ...
Python爬虫（1）：基础知识
爬虫基础知识一.什么是爬虫? 向网站发起请求,获取资源后分析并提取有用数据的程序. 二.爬虫的基本流程 1.发起请求 2.获取内容 3.解析内容 4.保存数据三.Request和Response ...
python 爬虫与数据可视化--python基础知识
摘要:偶然机会接触到python语音,感觉语法简单.功能强大,刚好朋友分享了一个网课<python 爬虫与数据可视化>,于是在工作与闲暇时间学习起来,并做如下课程笔记整理,整体大概分为4个 ...
python爬虫工程师各个阶段需要掌握的技能和知识介绍
本文主要介绍,想做一个python爬虫工程师,或者也可以说是,如何从零开始,从初级到高级,一步一步,需要掌握哪些知识和技能. 初级爬虫工程师: Web前端的知识:HTML, CSS, JavaScri ...

随机推荐

java里程碑之泛型--泛型基本语法
1,java7提供的泛型菱形语法在java7之前,如果使用带泛型的接口和类定义变量初始化对象的时候,构造器后面也必须带上泛型,这有点恶心的.以前我在公司一直使用的java6,所以我也已经习惯了这种写 ...
谈谈JAVA程序的反编译
如今JAVA语言在全世界范围正如火如荼般的流行,它广范地应用在INTERNET的数据库.多媒体.CGI.及动态网页的制作方面.1999年在美国对JAVA程序员的需求量首次超过C++! 最近分析一些 ...
java中可变长参数的定义及使用方法
JAVA中可以为方法定义可变长参数( Varargs)来匹配不确定数量的多个参数,其定义用“...”表示.其实,这类似于为方法传了一个数组,且在使用方法上也和数组相同,如下: public void ...
验证插件——jquery.validate.js
下载地址:http://download.csdn.net/download/s592652578/9457421 教程:http://www.runoob.com/jquery/jquery-plu ...
A/X家FPGA架构及资源评估
评估对比xilinx以及altera两家FPGA芯片逻辑资源. 首先要说明, 现今FPGA除了常规逻辑资源,还具有很多其他片内资源比如块RAM.DSP单元.高速串行收发器.PLL.ADC等等,用以应对 ...
[C#] C# 与 MongoDB 的 CURD
C# 与 MongoDB 的 CURD static void Main(string[] args) { //建立连接 var client = new MongoClient(); //建立数据库 ...
datatables里面的search怎么去掉?
今天使用datatables插件的时候,由于需求是把自带的search去掉,并且给输入框加上placeholder="Search",使其看起来更简洁美观,于是乎简单粗暴的把代码改 ...
Asp.net mvc 下载文件
前言最近有需求需要下载文件,可能是image的图片,也可能是pdf报告,也可能是微软的word或者excel文件. 这里就整理了asp.net mvc 和asp.net webapi 下载的方法 A ...
CSS3动画详解（超详细）
本文最初发表于博客园,并在GitHub上持续更新前端的系列文章.欢迎在GitHub上关注我,一起入门和进阶前端. 以下是正文. 前言本文主要内容: 过渡:transition 2D 转换 trans ...
[eslint-plugin-vue] [vue/no-unused-vars] 'scope' is defined but never used.
前言今天在做项目的时候Visual Studio Code报了一个错这个错的意思是声明了scope却没有使用它,这是vue的eslink插件检测的. 我想这个scope的属性不是自己的吗,咋是我声 ...

python爬虫之基本知识

python爬虫之基本知识的更多相关文章

随机推荐

热门专题