项目为爬取Python词条的信息。

项目代码在我的码云仓库。

https://gitee.com/libo-sober/learn-python/tree/master/baike_spider

1.开发轻量级爬虫

1.1爬虫简介

爬虫：一段自动抓取互联网信息的程序。

自动访问互联网并且提取数据。

价值：互联网数据为我所用。

1.2简单爬虫架构

运行流程：

1.3URL管理器

URL管理器：管理待抓取URL集合和已抓取URL集合。防止重复抓取和循环抓取。

实现方式：

一般大公司都存在缓存数据库中。

1.4网页下载器

网页下载器：将互联网上URL对应的网页下载到本地的工具。

Python有哪几种网页下载器？

1.5 urllib2

urllib2下载网页方法1：最简洁方法

python3中把urllib2改为了urllib.request

对应到代码：

urllib2下载网页方法2：添加data、http header

urllib2下载网页方法3：添加特殊情景的处理器。

有些网页需要登录才能处理，需要添加Cookie的处理；

有些网页需要代理才能访问，使用ProxyHandler；

有些网页使用Https加密访问，使用HTTPSHandler；

有些网页url是相互自动跳转的关系，使用HTTPRedirectHandler。

对应到代码：

1.6网页解析器

网页解析器：从网页中提取出有价值的数据的工具。

python有哪几种网页解析器？

结构化解析-DOM（Document Object Model）树

1.7 Beautiful Soup

python第三方库，用于从HTML或XML中提取数据

安装并测试beautifulsoup4

安装：pip install beautifulsoup4

测试：import bs4

语法：

例如：

创建BeautifulSoup对象

搜索节点(find_all, find)

访问节点信息

1.8 实例爬虫

目标：百度百科python词条相关词条网页-标题和简介。

入口页：https://baike.baidu.com/item/Python/407313

词条页面URL:/item/opencv 这不是一个完整的URL，需要补全。

数据格式：

标题：

《dd class="lemmaWgt-lemmaTitle-title">

Python

简介：

《div class=''para''>

python爬虫学习过程记录的更多相关文章

Python爬虫个人记录（三）爬取妹子图
这此教程可能会比较简洁,具体细节可参考我的第一篇教程: Python爬虫个人记录(一)豆瓣250 Python爬虫个人记录(二)fishc爬虫一.目的分析获取煎蛋妹子图并下载 http://jan ...
Python爬虫个人记录（二）获取fishc 课件下载链接
参考: Python爬虫个人记录(一)豆瓣250 (2017.9.6更新,通过cookie模拟登陆方法,已成功实现下载文件功能!!) 一.目的分析获取http://bbs.fishc.com/for ...
python爬虫学习记录
爬虫基础 urllib,urllib2,re都是python自带的模块 urllib,urllib2区别是urllib2可以接受一个Request类的实例来设置url请求的headers,即可以模拟浏 ...
Python爬虫学习记录【内附代码、详细步骤】
引言: 昨天在网易云课堂自学了<Python网络爬虫实战>,视频链接老师讲的很清晰,跟着实践一遍就能掌握爬虫基础了,强烈推荐! 另外,在网上看到一位学友整理的课程记录,非常详细,可以优先 ...
Python爬虫之记录一次下载验证码的尝试
好久没有写过爬虫的文章了,今天在尝试着做验证码相关的研究时,遇到了验证码的收集问题. 一般,验证码的加载都有着比较复杂的算法和加密在里边,但是笔者今天碰到的验证码却比较幸运,有迹可循.在此,给 ...
Python爬虫实践 -- 记录我的第二只爬虫
1.爬虫基本原理我们爬取中国电影最受欢迎的影片<红海行动>的相关信息.其实,爬虫获取网页信息和人工获取信息,原理基本是一致的. 人工操作步骤: 1. 获取电影信息的页面 2. 定位(找到 ...
Python爬虫个人记录（四）利用Python在豆瓣上写一篇日记
涉及关键词:requests库 requests.post方法 cookies登陆 version 1.5(附录):使用post方法登陆豆瓣,成功! 缺点:无法获得登陆成功后的cookie,要使用js ...
Python 爬虫个人记录（一）豆瓣电影250
一.爬虫环境 Python3.6 scrapy1.4 火狐浏览器 qq浏览器二.scrapy shell 测试并获取 xpath 1.进入scrapy shell 2 .获取html fetch(' ...
Python爬虫实践 -- 记录我的第一只爬虫
一.环境配置 1. 下载安装 python3 .(或者安装 Anaconda) 2. 安装requests和lxml 进入到 pip 目录,CMD --> C:\Python\Scripts,输 ...

随机推荐

C#图解教程(第四版)—03—类和继承
1 使用基类的引用派生类的实例由基类的实例加上派生类新增的成员组成. 派生类的引用指向整个类对象,包括基类部分重点:使用对象的基类部分的引用来访问对象 (父 ...
使用部分函数时并未include其所在头文件，但是能编译成功且能运行，为什么？
最近在看APUE,试了上面的一些例子,其中有个例子是使用getpid函数获取进程id,但是在我写demo时,并未引入其所在的头文件unistd.h,结果也能编译成功,也能运行,于是就琢磨下为啥. En ...
Kubernetes实战总结 - 自定义Prometheus
一.概述首先Prometheus整体监控结构略微复杂,一个个部署并不简单.另外监控Kubernetes就需要访问内部数据,必定需要进行认证.鉴权.准入控制, 那么这一整套下来将变得难上加难,而且还需 ...
用python进行实际地址经纬度提取
实际地址经纬度提取请求接口: https://apis.map.qq.com/ws/place/v1/suggestion/ 所需参数: 参数名称是否必须参数类型说明 keyword 是 St ...
python基础 Day11
python Day11 函数中默认参数的陷阱只针对默认参数是可变的数据类型(如果你的默认参数指向的是可变的数据类型,那么你无论调用多少次默认参数,都是同一个) def test(name,list ...
Nginx进阶使用-负载均衡原理及配置实例
介绍跨多个应用程序实例的负载平衡是一种用于优化资源利用率,最大化吞吐量,减少延迟和确保容错配置的常用技术.可以将Nginx用作非常有效的HTTP负载平衡器,以将流量分配到多个应用程序服务器,并使用N ...
Kafka工作流程
Kafka生产过程分析 1 写入方式 producer采用推(push)模式将消息发布到broker,每条消息都被追加(append)到分区(patition)中,属于顺序写磁盘(顺序写磁盘效率比随机 ...
vmd与ovito的对比
1.minimize后,lammps生成的data文件 2.pdb:
GPU虚拟机创建时间深度优化
桔妹导读:GPU虚拟机实例创建速度慢是公有云面临的普遍问题,由于通常情况下创建虚拟机属于低频操作而未引起业界的重视,实际生产中还是存在对GPU实例创建时间有苛刻要求的业务场景.本文将介绍滴滴云在解决 ...
02.RDB持久化配置与工作流程
一.如何配置RDB持久化机制配置文件redis.conf save 60 1000 表示每隔60s,检查如果有超过1000个key发生了变更,那么就生成一个新的dump.rdb文件,就是当前redi ...

python爬虫学习过程记录