在进行python爬虫学习前,需要进行如下准备工作: python3+pip官方配置 1.Anaconda(推荐,包括python和相关库)   [推荐地址:清华镜像] https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/ [安装过程中注意选择自动添加path到环境变量中,未选择需要自己添加] 红色提示的意思是:自动添加的环境变量会处于最前面,自动成为默认,可能会使原本使用默认的软件报错,未防止以上问题,可以打开环境变量后,调整顺序将Ana…
学习目的: 学习非关系型数据库环境安装,为后续的分布式爬虫做基建 正式步骤 Step1:安装Redis 打开http://www.runoob.com/,搜索redis安装 打开搜索的内容,得到redis下载网址: https://github.com/MSOpenTech/redis/releases 点击Redis-x64-3.2.100.msi链接下载,选择自定义路径安装 安装过程中,记得勾选添加防火墙例外,或者你关闭防火墙,不然图形化安装无法连接上数据库 Step2:安装redis可视化…
本文是博主原创随笔,转载时请注明出处Maple2cat|Python爬虫学习:三.爬虫的基本操作与流程 一般我们使用Python爬虫都是希望实现一套完整的功能,如下: 1.爬虫目标数据.信息: 2.将数据或信息存入数据库中: 3.数据展示,即在Web端进行显示,并有自己的分析说明. 这次我先介绍第一个功能中所需要实现的基本操作: 爬虫的基本操作:      表示必须步骤           表示可选步骤 导入爬虫所需要的库(如:urllib.urllib2.BeautifulSoup.Scrap…
这个爬虫集训课第三章的作业讲得是Scrapy 课程主要是使用Scrapy + Redis实现分布式爬虫 惯例贴一下作业: Python爬虫可以使用Requests库来进行简单爬虫的编写,但是Requests的性能很差,一个请求耗时在2秒左右,毫无性能. 当然也可以使用gevent和asyncio来实现协程提升性能.但是要实现分布式爬虫的话,还是要用Scrapy, Scrapy内部是使用的 twisted实现的异步功能. 贴下作业目录. 下边记录下作业完成中遇到的问题 作业实现过程:1.windo…
Cookies: 以抓取https://www.yaozh.com/为例 Test1(不使用cookies): 代码: import urllib.request # 1.添加URL url = "https://www.yaozh.com/" # 2.添加请求头 headers = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, l…
学习目的: 爬虫有请求库(request.selenium).解析库.存储库(MongoDB.Redis).工具库,此节学习安装常用库的安装 正式步骤 Step1:urllib和re库 这两个库在安装Python中,会默认安装,下面代码示例调用: >>> import urllib >>> import urllib.request >>> urllib.request.urlopen("http://www.baidu.com")…
学习目的: 解决AJAX请求的爬虫,网页解析库的学习,MongoDB的简单应用 正式步骤 Step1:流程分析 抓取单页内容:利用requests请求目标站点,得到单个页面的html代码,返回结果: 抓取页面详情内容:解析返回结果,得到详情页的链接,并进一步抓取详情页的信息: 下载图片并保存数据库:将图片下载到本地,把页面信息及图片url保存至MongoDB: 开启循环及多线程:对多页面内容遍历,开启多线程并提高抓取效率. Step2:实例分析 1. 打开今日头条搜索页,搜索“中超”,查看页面的…
学习目的: 掌握爬虫相关的基本概念 正式步骤 Step1:什么是爬虫 请求网站并提取数据的自动化程序 Step2:爬虫的基本流程 Step3:Request和Response 1.request 2.response Step4:能抓怎样的数据 Step5:怎么样来解析 Step6:怎样保存数据 学习总结: 结构化的爬虫还需要学很多,还有Python的基础技能要进一步学习,多应用才能巩固…
学习目的: urllib提供了url解析函数,所以需要学习正式步骤 Step1:什么是urllib urllib库是Python自带模块,是Python内置的HTTP请求库 包含4个模块: >>> import urllib >>> # urllib.request 请求模块 >>> # urllib.error 异常处理模块 >>> # urllib.parse url解析模块 >>> # urllib.robot…
学习目的: 掌握MySQL数据库的安装 正式步骤 Step1:安装数据库 百度MySQL,下载软件 端口设置 设置密码,我的密码123456 下一步 下一步 查看MySQL服务器是否启动 PS:未申明的步骤为默认,选择自定义安装是因为不想默认安装在C盘系统盘,时间久了以后,系统越来越慢,主要原因还是因为我C盘太小了 Step2:安装MySQL可视化客户端 百度下载MySQL-Front 指定路径后安装 连接MYSQL数据库 学习总结: MySQL的卸载需要删除干净本地所有的目录,以及隐藏目录C:…