三个步骤就能让你轻松掌握Python爬虫

前言

文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。

作者：NicePython

PS：如有需要Python学习资料的小伙伴可以加点击下方链接自行获取http://t.cn/A6Zvjdun

运行环境

python3.7
Windows
vscode

运行依赖包

requests ( pip install requests 即可安装)
re

爬虫可以简单的分为：

获取数据
分析数据
存储数据

下载数据

简单来说一个网页是由一个html文件解析构成，我们需要获取这个文本内容。

每个浏览器都可以通过开发者工具获取到文本内容，以chrome为例，打开网页后，右键->检查。

右边的 Elements 就是我们要下载的数据。

让我们看看 requests 是如何获取这个数据的。

url='http://lamyoung.com/';

html=requests.get(url);

if html.status_code == 200:

    html_bytes=html.content;

    html_str=html_bytes.decode();

上面的 html_str 就是我们需要的源数据。获取数据我们需要一个网页地址，获取后判断状态码是否为200，最后再将内容decode就得到需要的整个html源数据。

分析数据

这次我们用正则表达式去解析源数据，截取到我们需要。关于详细的正则知识可以在这篇文章史上最全面的正则表达式教程中学习。

现在我们的目标是抓取博客的文章标题和链接，我们可以通过刚才的开发者工具获取文章标题和链接的特征。

可以看到我们要的内容都具有以下这种格式。

<a href="链接">

        <h2 class="post-title">

            标题

        </h2>

        xxxxxx

    </a>

我们就为这种格式写出正则表达式。(ps: 我也写了几次才写对，看不懂的话我们私下交流交流

)

regex = r"<a href=\"(.*)\">[\s]*?<h2 class=\"post-title\">[\s]*(.*)[\s]*</h2>[\s\S]*?</a>"

使用正则表达式中的 findall 把所有内容找出来，并保存在字符串中。

write_content = ''

all_items = re.findall(regex,html_str);

for item in all_items:

  write_content=f'{write_content}\n{item[1]}\nhttp://lamyoung.com{item[0]}\n'

但是，我们只爬了其中的一页。还有许多页没有爬呢！(ps: 骄傲脸，我已经写了好多✌️页的原创内容了。)

我们可以点几个下一页，很容易发现其中的规律。

- 第一页:http://lamyoung.com/

- 第二页:http://lamyoung.com/page2/

- 第三页:http://lamyoung.com/page3/

...

为此，我们加个循环判断就可以啦。

index=1

while True:

  page_url = '';

  if index>1:

    page_url=f'page{index}/'

  url=f'http://lamyoung.com/{page_url}';

  html=requests.get(url);

  if html.status_code != 200:

    print(html);

    break;

在判断状态码为200时，退出循环。

存储数据

这次我们就用文本存储来结束我们的教程吧。

with open('lamyoung_title_out.txt','w',encoding='utf-8') as f:

  f.write(write_content)

最后看下输出结果吧～

三个步骤就能让你轻松掌握Python爬虫的更多相关文章

数据可视化之powerBI技巧（二十一）简单三个步骤，轻松管理你的Power BI度量值
最近碰到几个星友的问题,都是问我之前分享的源文件是如何把度量值分门别类放到不同的文件夹中的,就像这样, 其实在之前的文章中也曾提及过做法,这里再详细说一下制作步骤: 01 | 新建一个空表点击菜单栏 ...
Quatre 2D的绘图功能的三个步骤（上下文，绘图，渲染）
一.qurza2d是怎么将绘图信息和绘图的属性绘制到图形上下文中去的? 说明: 新建一个项目,自定义一个view类和storyboard关联后,重写该类中的drowrect方法. 画线的三个步骤: ( ...
阿里云ECS专有网络产品三个步骤配置教程
阿里云ECS专有网络产品三个步骤配置教程阿里云专有网络节点已开通地域:美国硅谷可用区1B,新加坡可用区A,北京可用区A,深圳可用区A,杭州可用区D,上海可用区B 举个栗子:购买美国硅谷可用区1B ...
梁敬彬老师的《收获，不止SQL优化》，关于如何缩短SQL调优时间，给出了三个步骤，
梁敬彬老师的<收获,不止SQL优化>,关于如何缩短SQL调优时间,给出了三个步骤, 1. 先获取有助调优的数据库整体信息 2. 快速获取SQL运行台前信息 3. 快速获取SQL关联幕后信息 ...
算法数据结构 | 三个步骤完成强连通分量分解的Kosaraju算法
强连通分量分解的Kosaraju算法今天是算法数据结构专题的第35篇文章,我们来聊聊图论当中的强连通分量分解的Tarjan算法. Kosaraju算法一看这个名字很奇怪就可以猜到它也是一个根据人名起 ...
Python爬虫框架Scrapy安装使用步骤
一.爬虫框架Scarpy简介Scrapy 是一个快速的高层次的屏幕抓取和网页爬虫框架,爬取网站,从网站页面得到结构化的数据,它有着广泛的用途,从数据挖掘到监测和自动测试,Scrapy完全用Python ...
Python爬虫学习：三、爬虫的基本操作流程
本文是博主原创随笔,转载时请注明出处Maple2cat|Python爬虫学习:三.爬虫的基本操作与流程一般我们使用Python爬虫都是希望实现一套完整的功能,如下: 1.爬虫目标数据.信息: 2.将 ...
Python爬虫个人记录（三）爬取妹子图
这此教程可能会比较简洁,具体细节可参考我的第一篇教程: Python爬虫个人记录(一)豆瓣250 Python爬虫个人记录(二)fishc爬虫一.目的分析获取煎蛋妹子图并下载 http://jan ...
Python爬虫进阶三之Scrapy框架安装配置
初级的爬虫我们利用urllib和urllib2库以及正则表达式就可以完成了,不过还有更加强大的工具,爬虫框架Scrapy,这安装过程也是煞费苦心哪,在此整理如下. Windows 平台: 我的系统是 ...

随机推荐

Python进制的转换
Python整数能够以十六进制,八进制和二进制来编写,作为一般以10位基数的十进制计数法的补充. 一: 上面三种进制的常用表示 >>> 0o1, 0o20, 0o377 # 八进制 ...
Oracle数据库开机自启动的配置
如果服务器断电重启或计划内重启,在服务器的操作系统启动后,需要手工启动数据库实例和监听,本文介绍如何把Oracle数据库的启动和关闭配置成系统服务,在操作系统启动/关闭时,自动启动/关闭Oracle实 ...
AssociatedObject
在 Objective-C 中可以通过 Category 给一个现有的类添加属性,但是却不能添加实例变量,值得庆幸的是,我们可以通过 Associated Objects 来弥补这一不足. 在阅读本文 ...
Java 异常处理与输入输出
一.异常 1.1 package exception; import java.util.Scanner; public class ArrayIndex { public static void m ...
Redis 笔记（二）—— STRING 常用命令
字符串中不仅仅可以存储字符串,它可以存储以下 3 中类型的值 : 字符串整数浮点数 Redis 可以对字符串进行截取等相关操作,对整数.浮点数进行增减操作. 自增自减命令命令用例和描述 INC ...
典型的MVC架构图
通常,当使用MVC时,应用程序中的每个逻辑部分都有一个单一的控制器.在这些控制器的前面还有一个Router:这是一个看门人,用于确定用户请求的内容,以便应用程序满足用户需要.常用php的mvc框架:Y ...
Scratch 怎么打开SB文件怎么打开
扩展名是.sb( )的文件均可以用匹配版本的scratch或比匹配版本高的scratch打开,列表如下:类型可打开.sb ···1.4(1.3).sb2 ···2.0.sb3··· 3.0或3.0b ...
php--一些新知识总结
魔术方法__invoke() 当尝试以调用函数的方式调用一个对象时,__invoke() 方法会被自动调用 class Test { public function __invoke($a) { va ...
打造一款刷Java 知识的小程序（一）
一.为什么要打造 Java要学的东西太多了,所以准备把这些知识汇总到一起,而小程序是一个比较好的入口,借助微信客户端,打开方便. 二.打造成什么样首页展示:包含了Java各大知识点模块知识点展示: ...
MySQL InnoDB存储引擎体系架构 —— 索引高级
转载地址:https://mp.weixin.qq.com/s/HNnzAgUtBoDhhJpsA0fjKQ 世界上只两件东西能震撼人们的心灵:一件是我们心中崇高的道德标准:另一件是我们头顶上灿烂的星 ...

三个步骤就能让你轻松掌握Python爬虫

前言

三个步骤就能让你轻松掌握Python爬虫的更多相关文章

随机推荐

热门专题