一爬虫是什么

#如果我们把互联网比作一张大的蜘蛛网，数据便是存放于蜘蛛网的各个节点，而爬虫就是一只小蜘蛛，沿着网络抓取自己的猎物/数据

#爬虫指的是：向网站发起请求，获取资源后分析并提取有用数据的程序

#详细解释：

  用户获取网络数据的方式：

      浏览器提交请求->下载网页代码->解析成页面。而网页代码中便包含了我们想要的数据

  爬虫要做的就是：

      模拟浏览器发送请求(获取网页代码)->提取有用的数据->存放于数据库或文件中

二爬虫的基本流程

#1、发起请求

使用http库向目标站点发起请求，即发送一个Request

Request包含：请求头、请求体等

#2、获取响应内容

如果服务器能正常响应，则会得到一个Response

Response包含：html，json，图片，视频等

#3、解析内容

解析html数据：正则表达式，第三方解析库如Beautifulsoup，pyquery等

解析json数据：json模块

解析二进制数据:以b的方式写入文件

#4、保存数据

数据库

文件

三请求与响应

#Request：用户将自己的信息通过浏览器（socket client）发送给服务器（socket server）

#Response：服务器接收请求，分析用户发来的请求信息，然后返回数据（返回的数据中可能包含其他链接，如：图片，js，css等）

#ps：浏览器在接收Response后，会解析其内容来显示给用户，而爬虫程序在模拟浏览器发送请求然后接收Response后，是要提取其中的有用数据。

四 request

#1、请求方式：

    常用的请求方式：GET，POST

    其他请求方式：HEAD，PUT，DELETE，OPTHONS

    ps：用浏览器演示get与post的区别，（用登录演示post）

    post与get请求最终都会拼接成这种形式：k1=xxx&k2=yyy&k4=zzz

    post请求的参数放在请求体内：

        可用浏览器查看，存放于form data内

    get请求的参数直接放在url后

#2、请求url

    url全称统一资源定位符，如一个网页文档，一张图片

    一个视频等都可以用url唯一来确定

    url编码

    https://www.baidu.com/s?wd=图片

    图片会被编码（看示例代码）

    网页的加载过程是：

    加载一个网页，通常都是先加载document文档，

    在解析document文档的时候，遇到链接，则针对超链接发起下载图片的请求

#3、请求头

    User-agent：请求头中如果没有user-agent客户端配置，

    服务端可能将你当做一个非法用户

    host

    cookies：cookie用来保存登录信息

    一般做爬虫都会加上请求头

#4、请求体

    如果是get方式，请求体没有内容

    如果是post方式，请求体是format data

    ps：

    1、登录窗口，文件上传等，信息都会被附加到请求体内

    2、登录，输入错误的用户名密码，然后提交，就可以看到post，正确登录后页面通常会跳转，无法捕捉到post

from urllib.parse import urlencode

import requests

headers={

'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8',

'Cookie':'H_WISE_SIDS=101556_115474_115442_114743_108373_100099_115725_106201_107320_115339_114797_115553_116093_115546_115625_115446_114329_115350_114275_116040_110085; PSTM=1494300712; BAIDUID=42FE2934E37AF7AD1FA31D8CC7006D45:FG=1; BIDUPSID=2996557DB2710279BD865C50F9A68615; MCITY=-%3A; __cfduid=da9f97dea6458ca26aa4278280752ebb01508939712; BDSFRCVID=PGLsJeCCxG3wt_3ZUrBLDfv2D_qBZSjAgcEe3J; H_BDCLCKID_SF=tJAOoCLytI03qn5zq4Oh-4oHhxoJq5QxbT7Z0l8KtfcNVJQs-lCMhbtp-l3GJPoLWK6hBKQmWIQHDnbsbq0M2tcQXR5-WROCte74KKJx-4PWeIJo5tKh04JbhUJiB5OLBan7Lq7xfDDbbDtmej_3-PC3ql6354Rj2C_X3b7EfKjIOtO_bfbT2MbyeqrNQlTkLIvXoITJQD_bEP3Fbfj2DPQ3KabZqjDjJbue_I05f-oqebT4btbMqRtthf5KeJ3KaKrKW5rJabC3hPJeKU6qLT5Xjh6B5qDfyDoAbKOt-IOjhb5hMpnx-p0njxQyaR3RL2Kj0p_EWpcxsCQqLUonDh8L3H7MJUntKjnRonTO5hvvhb6O3M7-XpOhDG0fJjtJJbksQJ5e24oqHP-kKPrV-4oH5MQy5toyHD7yWCvjWlT5OR5Jj6KMjMkb3xbz2fcpMIrjob8M5CQESInv3MA--fcLD2ch5-3eQgTI3fbIJJjWsq0x0-jle-bQypoa-U0j2COMahkMal7xO-QO05CaD53yDNDqtjn-5TIX_CjJbnA_Hn7zepoxebtpbt-qJJjzMerW_Mc8QUJBH4tR-T3keh-83xbnBT5KaKO2-RnPXbcWjt_lWh_bLf_kQN3TbxuO5bRiL66I0h6jDn3oyT3VXp0n54nTqjDHfRuDVItXf-L_qtDk-PnVeUP3DhbZKxtqtDKjXJ7X2fclHJ7z-R3IBPCD0tjk-6JnWncKaRcI3poiqKtmjJb6XJkl2HQ405OT-6-O0KJcbRodobAwhPJvyT8DXnO7-fRTfJuJ_DDMJDD3fP36q4QV-JIehmT22jnT32JeaJ5n0-nnhP3mBTbA3JDYX-Oh-jjRX56GhfO_0R3jsJKRy66jK4JKjHKet6vP; ispeed_lsm=0; H_PS_PSSID=1421_24558_21120_17001_24880_22072; BD_UPN=123253; H_PS_645EC=44be6I1wqYYVvyugm2gc3PK9PoSa26pxhzOVbeQrn2rRadHvKoI%2BCbN5K%2Bg; BDORZ=B490B5EBF6F3CD402E515D22BCDA1598',

'Host':'www.baidu.com',

'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/61.0.3163.100 Safari/537.36'}

# response=requests.get('https://www.baidu.com/s?'+urlencode({'wd':'美女'}),headers=headers)

response=requests.get('https://www.baidu.com/s',params={'wd':'美女'},headers=headers) #params内部就是调用urlencode

print(response.text)

五 response

#1、响应状态

    200：代表成功

    301：代表跳转

    404：文件不存在

    403：权限

    502：服务器错误

#2、respone header

    set-cookie：可能有多个，是来告诉浏览器，把cookie保存下来

#3、preview就是网页源代码

    最主要的部分，包含了请求资源的内容

    如网页html，图片

    二进制数据等

六总结

#1、总结爬虫流程：

    爬取--->解析--->存储

#2、爬虫所需工具：

    请求库：requests,selenium

    解析库：正则，beautifulsoup，pyquery

    存储库：文件，MySQL，Mongodb，Redis

#3、爬虫常用框架：

    scrapy

import requests

import re

import time

import hashlib

def get_page(url):

    print('GET %s' %url)

    try:

        response=requests.get(url)

        if response.status_code == 200:

            return response.content

    except Exception:

        pass

def parse_index(res):

    obj=re.compile('class="items.*?<a href="(.*?)"',re.S)

    detail_urls=obj.findall(res.decode('gbk'))

    for detail_url in detail_urls:

        if not detail_url.startswith('http'):

            detail_url='http://www.xiaohuar.com'+detail_url

        yield detail_url

def parse_detail(res):

    obj=re.compile('id="media".*?src="(.*?)"',re.S)

    res=obj.findall(res.decode('gbk'))

    if len(res) > 0:

        movie_url=res[0]

        return movie_url

def save(movie_url):

    response=requests.get(movie_url,stream=False)

    if response.status_code == 200:

        m=hashlib.md5()

        m.update(('%s%s.mp4' %(movie_url,time.time())).encode('utf-8'))

        filename=m.hexdigest()

        with open(r'./movies/%s.mp4' %filename,'wb') as f:

            f.write(response.content)

            f.flush()

def main():

    index_url='http://www.xiaohuar.com/list-3-{0}.html'

    for i in range(5):

        print('*'*50,i)

        #爬取主页面

        index_page=get_page(index_url.format(i,))

        #解析主页面,拿到视频所在的地址列表

        detail_urls=parse_index(index_page)

        #循环爬取视频页

        for detail_url in detail_urls:

            #爬取视频页

            detail_page=get_page(detail_url)

            #拿到视频的url

            movie_url=parse_detail(detail_page)

            if movie_url:

                #保存视频

                save(movie_url)

if __name__ == '__main__':

    main()

#并发爬取

from concurrent.futures import ThreadPoolExecutor

import queue

import requests

import re

import time

import hashlib

from threading import current_thread

p=ThreadPoolExecutor(50)

def get_page(url):

    print('%s GET %s' %(current_thread().getName(),url))

    try:

        response=requests.get(url)

        if response.status_code == 200:

            return response.content

    except Exception as e:

        print(e)

def parse_index(res):

    print('%s parse index ' %current_thread().getName())

    res=res.result()

    obj=re.compile('class="items.*?<a href="(.*?)"',re.S)

    detail_urls=obj.findall(res.decode('gbk'))

    for detail_url in detail_urls:

        if not detail_url.startswith('http'):

            detail_url='http://www.xiaohuar.com'+detail_url

        p.submit(get_page,detail_url).add_done_callback(parse_detail)

def parse_detail(res):

    print('%s parse detail ' %current_thread().getName())

    res=res.result()

    obj=re.compile('id="media".*?src="(.*?)"',re.S)

    res=obj.findall(res.decode('gbk'))

    if len(res) > 0:

        movie_url=res[0]

        print('MOVIE_URL: ',movie_url)

        with open('db.txt','a') as f:

            f.write('%s\n' %movie_url)

        # save(movie_url)

        p.submit(save,movie_url)

        print('%s下载任务已经提交' %movie_url)

def save(movie_url):

    print('%s SAVE: %s' %(current_thread().getName(),movie_url))

    try:

        response=requests.get(movie_url,stream=False)

        if response.status_code == 200:

            m=hashlib.md5()

            m.update(('%s%s.mp4' %(movie_url,time.time())).encode('utf-8'))

            filename=m.hexdigest()

            with open(r'./movies/%s.mp4' %filename,'wb') as f:

                f.write(response.content)

                f.flush()

    except Exception as e:

        print(e)

def main():

    index_url='http://www.xiaohuar.com/list-3-{0}.html'

    for i in range(5):

        p.submit(get_page,index_url.format(i,)).add_done_callback(parse_index)

if __name__ == '__main__':

    main()

爬取校花网视频

原博文：http://www.cnblogs.com/linhaifeng/articles/7773496.html

【转】Python爬虫(1)_基本原理的更多相关文章

PYTHON爬虫实战_垃圾佬闲鱼爬虫转转爬虫数据整合自用二手急速响应捡垃圾平台_3(附源码持续更新)
说明文章首发于HURUWO的博客小站,本平台做同步备份发布. 如有浏览或访问异常图片加载失败或者相关疑问可前往原博客下评论浏览. 原文链接 PYTHON爬虫实战_垃圾佬闲鱼爬虫转转爬虫数据整合自用二 ...
python爬虫(一)_爬虫原理和数据抓取
本篇将开始介绍Python原理,更多内容请参考:Python学习指南为什么要做爬虫著名的革命家.思想家.政治家.战略家.社会改革的主要领导人物马云曾经在2015年提到由IT转到DT,何谓DT,DT ...
Python爬虫(九)_非结构化数据与结构化数据
爬虫的一个重要步骤就是页面解析与数据提取.更多内容请参考:Python学习指南页面解析与数据提取实际上爬虫一共就四个主要步骤: 定(要知道你准备在哪个范围或者网站去搜索) 爬(将所有的网站的内容全 ...
Python爬虫(十一)_案例：使用正则表达式的爬虫
本章将结合先前所学的爬虫和正则表达式知识,做一个简单的爬虫案例,更多内容请参考:Python学习指南现在拥有了正则表达式这把神兵利器,我们就可以进行对爬取到的全部网页源代码进行筛选了. 下面我们一起 ...
Python爬虫(十三)_案例：使用XPath的爬虫
本篇是使用XPath的案例,更多内容请参考:Python学习指南案例:使用XPath的爬虫现在我们用XPath来做一个简单的爬虫,我们尝试爬取某个贴吧里的所有帖子且将该帖子里每个楼层发布的图片下载 ...
【转】Python爬虫(5)_性能相关
爬虫性能相关一背景知识爬虫的本质就是一个socket客户端与服务端的通信过程,如果我们有多个url待爬取,采用串行的方式执行,只能等待爬取一个结束后才能继续下一个,效率会非常低. 需要强调的是: ...
Python爬虫(十)_正则表达式
本篇将介绍python正则表达式,更多内容请参考:[python正则表达式] 什么是正则表达式正则表达式,又称规则表达式,通常被用来检索.替换那些符合某个模式(规则)的文本. 正则表达式是对字符串操 ...
3.Python爬虫入门_正则表达式(简单例子)
#2019-11-23 import requests import time import re #Python正则表达式库 if __name__=='__main__': #海量爬取图片数据 # ...
python爬虫-喜马拉雅_晚安妈妈睡前故事
这里先说下思路: 1.首先要获取当前书的音频信息 '''获取当前书的音频信息''' all_list = [] for url in self.book_url: r = requests.get(u ...

随机推荐

C++语言基础(13)-抽象类和纯虚函数
一.基本语法在C++中,可以将虚函数声明为纯虚函数,语法格式为: ; 纯虚函数没有函数体,只有函数声明,在虚函数声明的结尾加上=0,表明此函数为纯虚函数. 最后的=0并不表示函数返回值为0,它只起形 ...
elasticJob分片跑批
业务迅速发展带来了跑批数据量的急剧增加.单机处理跑批数据已不能满足需要,另考虑到企业处理数据的扩展能力,多机跑批势在必行.多机跑批是指将跑批任务分发到多台服务器上执行,多机跑批的前提是”数据分片”.e ...
高分辨率转HTML成PDF（ephtmltopdf.dll）
今天看到园友分享的 wkhtmtopdf--高分辨率转HTML成PDF(三) 想起我做一键保存网页为PDF_V1.2 的时候,也研究过一段时间这个,一开始也看的是wkhtmltopdf,不过发现wk ...
linux 一行一行的读取文件
#!/bin/bash #reading data from a file count= cat test1 | while read line do echo "Line $count: ...
FreeBSD将SHELL从csh换成bash并支持中文显示
刚准备在FreeBSD下学习Shell,结果发现怎么好多命令都没有,比如declare.后来发现连bash都没有,好像bash用的多一些吧,于是就准备将csh换成bash. 由于没有bash,所以先得 ...
openWRT自学---针对backfire版本的主要目录和文件的作用的分析整理
特别说明:要编译backfire版本,一定要通过svn下载:svn co svn://svn.openwrt.org/openwrt/branches/backfire,而不能使用http://dow ...
java -- 路径中包含空格怎么处理
@.使用toURI()方法 String rootPath = this.getClass().getClassLoader().getResource(".").toURI(). ...
集合Map多对多映射（使用xml文件）
我们可以使用set,bag,map等来映射多对多关系.在这里,我们将使用map来进行多对多映射. 在这种情况下,将创建三个表. 多对多映射示例我们需要创建以下文件来映射map元素.首先创建一个项目: ...
自定义实现wcf的用户名密码验证
目前wcf分为[传输层安全][消息层安全]两种,本身也自带的用户名密码验证的功能,但是ms为了防止用户名密码明文在网络上传输,所以,强制要求一旦使用[用户名密码]校验功能,则必须使用证书,按照常理讲, ...
红外图像盲元补偿matlab实现源码与效果验证
在国内红外公司绝大多数一直以来国外进口的成像芯片,能够进行红外芯片自助开发的电学应该只有大立光电和广微积电光学方法只有上海巨哥和一直未能产品化的昆山光微电子.由于政治和历史原因,欧美对中国大陆还是实 ...

【转】Python爬虫(1)_基本原理

一 爬虫是什么

二 爬虫的基本流程

三 请求与响应

四 request

五 response

六 总结

【转】Python爬虫(1)_基本原理的更多相关文章

随机推荐

热门专题

一爬虫是什么

二爬虫的基本流程

三请求与响应

六总结