python爬虫学习过程记录
项目为爬取Python词条的信息。
项目代码在我的码云仓库。
https://gitee.com/libo-sober/learn-python/tree/master/baike_spider
1.开发轻量级爬虫
1.1爬虫简介
爬虫:一段自动抓取互联网信息的程序。

自动访问互联网并且提取数据。
价值:互联网数据为我所用。
1.2简单爬虫架构

运行流程:

1.3URL管理器
URL管理器:管理待抓取URL集合和已抓取URL集合。防止重复抓取和循环抓取。

实现方式:

一般大公司都存在缓存数据库中。
1.4网页下载器
网页下载器:将互联网上URL对应的网页下载到本地的工具。

Python有哪几种网页下载器?

1.5 urllib2
urllib2下载网页方法1:最简洁方法
python3中把urllib2改为了urllib.request

对应到代码:

urllib2下载网页方法2:添加data、http header


urllib2下载网页方法3:添加特殊情景的处理器。

有些网页需要登录才能处理,需要添加Cookie的处理;
有些网页需要代理才能访问,使用ProxyHandler;
有些网页使用Https加密访问,使用HTTPSHandler;
有些网页url是相互自动跳转的关系,使用HTTPRedirectHandler。
对应到代码:

1.6网页解析器
网页解析器:从网页中提取出有价值的数据的工具。

python有哪几种网页解析器?

结构化解析-DOM(Document Object Model)树

1.7 Beautiful Soup
python第三方库,用于从HTML或XML中提取数据
安装并测试beautifulsoup4
安装:pip install beautifulsoup4
测试:import bs4
语法:

例如:

创建BeautifulSoup对象

搜索节点(find_all, find)

访问节点信息

1.8 实例爬虫

目标:百度百科python词条相关词条网页-标题和简介。
入口页:https://baike.baidu.com/item/Python/407313
词条页面URL:/item/opencv 这不是一个完整的URL,需要补全。
数据格式:
标题:
《dd class="lemmaWgt-lemmaTitle-title">
Python
简介:
《div class=''para''>
python爬虫学习过程记录的更多相关文章
- Python爬虫个人记录(三)爬取妹子图
这此教程可能会比较简洁,具体细节可参考我的第一篇教程: Python爬虫个人记录(一)豆瓣250 Python爬虫个人记录(二)fishc爬虫 一.目的分析 获取煎蛋妹子图并下载 http://jan ...
- Python爬虫个人记录(二) 获取fishc 课件下载链接
参考: Python爬虫个人记录(一)豆瓣250 (2017.9.6更新,通过cookie模拟登陆方法,已成功实现下载文件功能!!) 一.目的分析 获取http://bbs.fishc.com/for ...
- python爬虫学习记录
爬虫基础 urllib,urllib2,re都是python自带的模块 urllib,urllib2区别是urllib2可以接受一个Request类的实例来设置url请求的headers,即可以模拟浏 ...
- Python爬虫学习记录【内附代码、详细步骤】
引言: 昨天在网易云课堂自学了<Python网络爬虫实战>,视频链接 老师讲的很清晰,跟着实践一遍就能掌握爬虫基础了,强烈推荐! 另外,在网上看到一位学友整理的课程记录,非常详细,可以优先 ...
- Python爬虫之记录一次下载验证码的尝试
好久没有写过爬虫的文章了,今天在尝试着做验证码相关的研究时,遇到了验证码的收集问题. 一般,验证码的加载都有着比较复杂的算法和加密在里边,但是笔者今天碰到的验证码却比较幸运,有迹可循.在此,给 ...
- Python爬虫实践 -- 记录我的第二只爬虫
1.爬虫基本原理 我们爬取中国电影最受欢迎的影片<红海行动>的相关信息.其实,爬虫获取网页信息和人工获取信息,原理基本是一致的. 人工操作步骤: 1. 获取电影信息的页面 2. 定位(找到 ...
- Python爬虫个人记录(四)利用Python在豆瓣上写一篇日记
涉及关键词:requests库 requests.post方法 cookies登陆 version 1.5(附录):使用post方法登陆豆瓣,成功! 缺点:无法获得登陆成功后的cookie,要使用js ...
- Python 爬虫个人记录(一)豆瓣电影250
一.爬虫环境 Python3.6 scrapy1.4 火狐浏览器 qq浏览器 二.scrapy shell 测试并获取 xpath 1.进入scrapy shell 2 .获取html fetch(' ...
- Python爬虫实践 -- 记录我的第一只爬虫
一.环境配置 1. 下载安装 python3 .(或者安装 Anaconda) 2. 安装requests和lxml 进入到 pip 目录,CMD --> C:\Python\Scripts,输 ...
随机推荐
- C#图解教程(第四版)—03—类和继承
1 使用基类的引用 派生类的实例由 基类的实例 加上 派生类 新增的成员 组成. 派生类的 引用 指向整个类对象,包括基类部分 重点:使用对象的 基类部分的引用 来访问对象 (父 ...
- 使用部分函数时并未include其所在头文件,但是能编译成功且能运行,为什么?
最近在看APUE,试了上面的一些例子,其中有个例子是使用getpid函数获取进程id,但是在我写demo时,并未引入其所在的头文件unistd.h,结果也能编译成功,也能运行,于是就琢磨下为啥. En ...
- Kubernetes实战总结 - 自定义Prometheus
一.概述 首先Prometheus整体监控结构略微复杂,一个个部署并不简单.另外监控Kubernetes就需要访问内部数据,必定需要进行认证.鉴权.准入控制, 那么这一整套下来将变得难上加难,而且还需 ...
- 用python进行实际地址经纬度提取
实际地址经纬度提取 请求接口: https://apis.map.qq.com/ws/place/v1/suggestion/ 所需参数: 参数名称 是否必须 参数类型 说明 keyword 是 St ...
- python基础 Day11
python Day11 函数中默认参数的陷阱 只针对默认参数是可变的数据类型(如果你的默认参数指向的是可变的数据类型,那么你无论调用多少次默认参数,都是同一个) def test(name,list ...
- Nginx进阶使用-负载均衡原理及配置实例
介绍 跨多个应用程序实例的负载平衡是一种用于优化资源利用率,最大化吞吐量,减少延迟和确保容错配置的常用技术.可以将Nginx用作非常有效的HTTP负载平衡器,以将流量分配到多个应用程序服务器,并使用N ...
- Kafka工作流程
Kafka生产过程分析 1 写入方式 producer采用推(push)模式将消息发布到broker,每条消息都被追加(append)到分区(patition)中,属于顺序写磁盘(顺序写磁盘效率比随机 ...
- vmd与ovito的对比
1.minimize后,lammps生成的data文件 2.pdb:
- GPU虚拟机创建时间深度优化
桔妹导读:GPU虚拟机实例创建速度慢是公有云面临的普遍问题,由于通常情况下创建虚拟机属于低频操作而未引起业界的重视,实际生产中还是存在对GPU实例创建时间有苛刻要求的业务场景.本文将介绍滴滴云在解决 ...
- 02.RDB持久化配置与工作流程
一.如何配置RDB持久化机制 配置文件redis.conf save 60 1000 表示每隔60s,检查如果有超过1000个key发生了变更,那么就生成一个新的dump.rdb文件,就是当前redi ...