一、网络爬虫

网络爬虫（又被称为网页蜘蛛，网络机器人），是一种按照一定的规则，自动地抓取万维网信息的程序。

爬虫的基本流程：

发起请求：

通过HTTP库向目标站点发起请求，也就是发送一个Request，请求可以包含额外的header等信息，等待服务器响应

获取响应内容：

如果服务器能正常响应，会得到一个Response，Response的内容便是所要获取的页面内容，类型可能是HTML,Json字符串，二进制数据（图片或者视频）等类型

解析内容：

得到的内容可能是HTML,可以用正则表达式，页面解析库进行解析，可能是Json,可以直接转换为Json对象解析，可能是二进制数据，可以做保存或者进一步的处理

保存数据：

保存形式多样，可以存为文本，也可以保存到数据库，或者保存特定格式的文件

二、准备

准备安装以下三个库：

1、urllib库

Urllib是python内置的标准库模块，使用它可以像访问本地文本文件一样读取网页的内容。Python的Urllib库模块包括以下四个模块：

urllib.request 请求模块
urllib.error 异常处理模块
urllib.parse url解析模块
urllib.robotparser解析模块

2、urllib.request模块的常用方法

基本使用步骤：

（1）导入urllib.request模块

from urllib import request

（2）连接要访问的网站，发起请求

resp = request.urlopen("http://网站IP地址")

（3）获取网站代码信息

print(resp.read().decode())

3、BeautifulSoup模块

（1）BeautifulSoup模块的基本元素

（2）标签树

在解析网页文档的过程中，需要应用BeautifulSoup模块对HTML内容进行遍历。

设有如下的一个HTML文档：

<html>

  <head>

   ....

  </head>

  <body>

     <p class="title"> The demo Python Project.</p>

     <p class="course"> Python is a programming language.

         <a href="http://www.icourse163.com"> Basic Python </a>

   <a href="http:..www.python.org"> Advanced Python </a>

   </p>

  </body>

</html>

（3）BeautifulSoup模块对象“标签树”的上行遍历属性

（4）BeautifulSoup模块对象“标签树”的下行遍历属性

（5）BeautifulSoup模块对象的信息提取方法

三、入门练习

1、抓取湖北师范大学网站基本信息

import urllib.request

response=urllib.request.urlopen("http://www.hbnu.edu.cn/")

print(response.info())

print('\n*************************************************************\n')

print(response.getcode())

print('\n*************************************************************\n')

print(response.read())

2、爬取最好大学网站的大学排名榜

import bs4

from urllib import request

from bs4 import BeautifulSoup

def getHTMLText(url):

    '''获取页面'''

    try:

        resp = request.urlopen(url)

        html_data = resp.read().decode('utf-8')

        return html_data

    except:

        return ""

def fillUnivList(ulist, html):

    '''处理页面'''

    soup = BeautifulSoup(html, "html.parser")

    for tr in soup.find('tbody').children:    # 找到关键词'tbody'后，搜索'td'子项

        if isinstance(tr, bs4.element.Tag):

            tds = tr('td')

            ulist.append([tds[0].string, tds[1].string, tds[3].string])

def printUnivList(ulist, num):

    '''格式输出页面'''

    tplt = "{0:^10}\t{1:{3}^10}\t{2:^10}"

    print(tplt.format("排名", "学校名称", "学校类型", chr(12288)))

    for i in range(num):

        u = ulist[i]

        print(tplt.format(u[0], u[1], u[2], chr(12288)))

if __name__ == '__main__':

    uinfo = []

    url = 'http://www.zuihaodaxue.cn/zuihaodaxuepaiming2020.html' # 2020年

    html = getHTMLText(url)

    fillUnivList(uinfo, html)

    printUnivList(uinfo, 20)           #  输出20个大学排名

3、爬取网络版小说《红楼梦》

爬取某网站的网络版小说《红楼梦》。打开《红楼梦》小说的目录页面会如图所示。

运用F12，找对应章节的位置

首先爬取对应章节的网址：

from urllib import request

from bs4 import BeautifulSoup

if __name__ == '__main__':

    # 目录页

    url = 'http://www.136book.com/hongloumeng/'

    head = {}

    head['User-Agent'] = 'Mozilla/5.0 (Linux; Android 4.1.1; Nexus 7 Build/JRO03D) AppleWebKit/535.19 (KHTML, like Gecko) Chrome/18.0.1025.166  Safari/535.19'

    req = request.Request(url, headers = head)

    response = request.urlopen(req)

    html = response.read()

    # 解析目录页

    soup = BeautifulSoup(html, 'lxml')

    # find_next找到第二个<div>

    soup_texts = soup.find('div', id = 'book_detail', class_= 'box1').find_next('div')

    # 遍历ol的子节点，打印出章节标题和对应的链接地址

    for link in soup_texts.ol.children:

        if link != '\n':

            print(link.text + ':  ', link.a.get('href'))

爬取每一章节的内容：

from urllib import request

from bs4 import BeautifulSoup

if __name__ == '__main__':

    # 第1章的网址

    url = 'http://www.136book.com/hongloumeng/qlxecbzt/'

    head = {}

    # 使用代理

    #head['User-Agent'] = 'Mozilla/5.0 (Linux; Android 4.1.1; Nexus 7 Build/JRO03D) AppleWebKit/535.19 (KHTML, like Gecko) Chrome/18.0.1025.166  Safari/535.19'

    req = request.Request(url, headers = head)

    response = request.urlopen(req)

    html = response.read()

    # 创建request对象

    soup = BeautifulSoup(html, 'lxml')

    # 找出div中的内容

    soup_text = soup.find('div', id = 'content')

    # 输出其中的文本

    print(soup_text.text)

当然如此显示会很不好看，我们去试一下生成一本《红楼梦》.txt，默认存在我的D盘

from urllib import request

from bs4 import BeautifulSoup

if __name__ == '__main__':

    url = 'http://www.136book.com/hongloumeng/'

    head = {}

    req = request.Request(url, headers = head)

    response = request.urlopen(req)

    html = response.read()

    soup = BeautifulSoup(html, 'lxml')

    soup_texts = soup.find('div', id = 'book_detail', class_= 'box1').find_next('div')

    # 打开文件

    f = open('D:\hongloumeng.txt','w')

    # 循环解析链接地址

    for link in soup_texts.ol.children:

        if link != '\n':

            download_url = link.a.get('href')

            download_req = request.Request(download_url, headers = head)

            download_response = request.urlopen(download_req)

            download_html = download_response.read()

            download_soup = BeautifulSoup(download_html, 'lxml')

            download_soup_texts = download_soup.find('div', id = 'content')

            # 抓取其中文本

            download_soup_texts = download_soup_texts.text

            # 写入章节标题

            f.write(link.text + '\n\n')

            # 写入章节内容

            f.write(download_soup_texts)

            f.write('\n\n')

    f.close()

感悟：效果很不错，以后看小说不愁没资源了，自行爬取txt导入手机免费看（也可以复制粘贴到word自动分行），当然之前还在52pj看过爬妹子图，乐趣无穷。

Python网络爬虫实战入门的更多相关文章

关于Python网络爬虫实战笔记③
Python网络爬虫实战笔记③如何下载韩寒博客文章 Python网络爬虫实战笔记③如何下载韩寒博客文章 target:下载全部的文章 1. 博客列表页面规则也就是, http://blog.sina ...
python网络爬虫实战PDF高清完整版免费下载|百度云盘|Python基础教程免费电子书
点击获取提取码:vg1y python网络爬虫实战帮助读者学习Python并开发出符合自己要求的网络爬虫.网络爬虫,又被称为网页蜘蛛,网络机器人,是一种按照一定的规则,自动地抓取互联网信息的程序或者脚 ...
Python网络爬虫实战(一)快速入门
本系列从零开始阐述如何编写Python网络爬虫,以及网络爬虫中容易遇到的问题,比如具有反爬,加密的网站,还有爬虫拿不到数据,以及登录验证等问题,会伴随大量网站的爬虫实战来进行. 我们编写网络爬虫最主要 ...
python网络爬虫实战之快速入门
本系列从零开始阐述如何编写Python网络爬虫,以及网络爬虫中容易遇到的问题,比如具有反爬,加密的网站,还有爬虫拿不到数据,以及登录验证等问题,会伴随大量网站的爬虫实战来进行. 我们编写网络爬虫最主要 ...
关于Python网络爬虫实战笔记①
python网络爬虫项目实战笔记①如何下载韩寒的博客文章 python网络爬虫项目实战笔记①如何下载韩寒的博客文章 1. 打开韩寒博客列表页面 http://blog.sina.com.cn/s/ar ...
python网络爬虫之入门[一]
目录前言一.探讨什么是python网络爬虫? 二.一个针对于网络传输的抓包工具fiddler 三.学习request模块来爬取第一个网页 * 扩展内容(爬取top250的网页) 后记 @(目录) ...
Python网络爬虫实战：根据天猫胸罩销售数据分析中国女性胸部大小分布
本文实现一个非常有趣的项目,这个项目是关于胸罩销售数据分析的.是网络爬虫和数据分析的综合应用项目.本项目会从天猫抓取胸罩销售数据,并将这些数据保存到SQLite数据库中,然后对数据进行清洗,最后通过S ...
Python 网络爬虫 002 (入门) 爬取一个网站之前，要了解的知识
网站站点的背景调研 1. 检查 robots.txt 网站都会定义robots.txt 文件,这个文件就是给网络爬虫来了解爬取该网站时存在哪些限制.当然了,这个限制仅仅只是一个建议,你可以遵守,也 ...
Python网络爬虫实战(三)照片定位与B站弹幕
之前两篇已经说完了如何爬取网页以及如何解析其中的数据,那么今天我们就可以开始第一次实战了. 这篇实战包含两个内容. * 利用爬虫调用Api来解析照片的拍摄位置 * 利用爬虫爬取Bilibili视频中的 ...

随机推荐

centos7关于防火墙的一些操作
防火墙相关 # 检查防火墙状态 systemctl status firewalld # 开启防火墙 systemctl start firewalld # 关闭防火墙 systemctl stop ...
ci框架查询构造器类
$this->db->get() 该方法执行 SELECT 语句并返回查询结果,可以得到一个表的所有数据: $query = $this->db->get('mytable') ...
制作python程序windows安装包（飞机大战源码）
本文以飞机大战源码为例: 1.首先使用pyinstaller -w xxx.py打包 -w的意思是不显示命令行:飞机大战源码由多个.py文件以及一些图片,音乐文件组成,我们将main.py打包, ...
whistle手机抓包（以安卓手机为例）
环境:whistle:1.14.6 whistle手机抓包以安卓手机为例手机跟电脑要连同一个wifi. 1.启动whistle 使用w2 start启动whistle. 退出cmd后,whistl ...
Hive On Spark保姆级攻略
声明: 此博客参考了官网的配置方式,并结合笔者在实践网上部分帖子时的踩坑经历整理而成这里贴上官方配置说明: [官方]: https://cwiki.apache.org//confluence/di ...
如何基于Security实现OIDC单点登录？
一.说明本文主要是给大家介绍 OIDC 的核心概念以及如何通过对 Spring Security 的授权码模式进行扩展来实现 OIDC 的单点登录. OIDC 是 OpenID Connect 的简 ...
HBase 与 Cassandra 架构对比分析的经验分享
架构对比 HBase和Cassandra几乎是一个年份发起,又都是在2010年成为Apache的顶级项目,不过如果我们去细品其内部机制,我们会发现其实两者是完全不同的架构风格. HBASE起源于Goo ...
Stream之高级函数
上回文说到了有关Stream一些数学函数的用法.今天来说下Stream一些高级的函数用法,这些函数在日常工作中也是必不可少的,测试数据还是引用上一篇的数据. Map 这个方法我个人称之为转换函数,把一 ...
Java-爬虫-小项目
爬取数据:(获取请求返回的页面信息,筛选出我们想要的数据就可以了!) 项目地址:https://gitee.com/zwtgit/java-reptile 导入依赖,写一个工具类 <depend ...
极简SpringBoot指南-Chapter02-Spring依赖注入的方式
仓库地址 w4ngzhen/springboot-simple-guide: This is a project that guides SpringBoot users to get started ...

Python网络爬虫实战入门