【Python】爬虫汇总

主要流程：

获取url
下载网页
从网页中找寻自己需要的保存（解析+输出）
主要概念
URL：分大小写
统一资源定位符，对可以从互联网上得到的资源的位置和访问方法的一种简洁的表示，是互联网上标准资源的地址。互联网上的每个文件都有一个唯一的URL，它包含的信息指出文件的位置以及浏览器应该怎么处理它。

基本URL包含模式/协议、服务器名称/IP地址、路径和文件名
模式/协议（scheme）：它告诉浏览器如何处理将要打开的文件。最常用的模式是超文本传输协议（Hypertext Transfer Protocol，缩写为HTTP）

文件所在的服务器的名称或IP地址，后面是到达这个文件的路径和文件本身的名称。服务器的名称或IP地址后面有时还跟一个冒号和一个端口号。它也可以包含接触服务器必须的用户名称和密码。路径部分包含等级结构的路径定义，一般来说不同部分之间以斜线（/）分隔。询问部分一般用来传送对服务器上的数据库进行动态询问时所需要的参数。 [2]

注释：有时候，URL以斜杠“/”结尾，而没有给出文件名，在这种情况下，URL引用路径中最后一个目录中的默认文件（通常对应于主页），这个文件常常被称为 index.html 或 default.htm。

URL管理器：
包括：管理待抓取URL集合&已抓取URL集合

作用：

1、添加新URL到带爬取集合中（判断是否重复抓取）

2、从管理器集合中获取带爬取URL（判断是否取完），放入已爬取集合（帮助判断是否重复）

实现方式

网页下载器：
Python包括urllib，requests等库下载网页

主要工具模板：
urllib
requests
注：urllib2改为urllib.request

案例：
图虫爬取 Github

主要Main：

if __name__ == '__main__':
root_url = "https://baike.baidu.com/item/%E7%99%BE%E5%BA%A6%E7%99%BE%E7%A7%91/85895?fr=aladdin"
obj_spider = SpiderMain()
obj_spider.craw(root_url)
主类：

class SpiderMain(object):
def __init__(self, ):
self.urls = url.UrlManager()
self.downloader = downloader.HtmlDownloader()
self.parser = parser.HtmlParser()
self.outputer = outputer.HtmlOutputer()

def craw(self, root_url): # 调度程序
count = 1
self.urls.add_new_url(root_url) # 只使用一次，获取根url
while self.urls.has_new_url(): # 判别是否有新的url
try:
new_url = self.urls.get_new_url() # 获取待爬取的新url
print('craw %d : %s' % (count, new_url))
html_cont = self.downloader.download(new_url) # 下载
new_urls, new_data = self.parser.parse(new_url, html_cont) # 解析

self.urls.add_new_urls(new_urls) # 新增界面一堆urls
self.outputer.collect_data(new_data) # 收集价值数据
count += 1

if count == 100:
break

except:
print('craw failed')

self.outputer.output_html()

---------------------
作者：YZXnuaa
来源：CSDN
原文：https://blog.csdn.net/YZXnuaa/article/details/91005849
版权声明：本文为博主原创文章，转载请附上博文链接！

【Python】爬虫汇总的更多相关文章

Python 爬虫的代理 IP 设置方法汇总
本文转载自:Python 爬虫的代理 IP 设置方法汇总 https://www.makcyun.top/web_scraping_withpython15.html 需要学习的地方:如何在爬虫中使用 ...
python爬虫学习 —— 总目录
开篇作为一个C党,接触python之后学习了爬虫. 和AC算法题的快感类似,从网络上爬取各种数据也很有意思. 准备写一系列文章,整理一下学习历程,也给后来者提供一点便利. 我是目录听说你叫爬虫 - ...
Python爬虫与数据分析之爬虫技能：urlib库、xpath选择器、正则表达式
专栏目录: Python爬虫与数据分析之python教学视频.python源码分享,python Python爬虫与数据分析之基础教程:Python的语法.字典.元组.列表 Python爬虫与数据分析 ...
Python爬虫与数据分析之模块：内置模块、开源模块、自定义模块
专栏目录: Python爬虫与数据分析之python教学视频.python源码分享,python Python爬虫与数据分析之基础教程:Python的语法.字典.元组.列表 Python爬虫与数据分析 ...
Python爬虫与数据分析之进阶教程：文件操作、lambda表达式、递归、yield生成器
专栏目录: Python爬虫与数据分析之python教学视频.python源码分享,python Python爬虫与数据分析之基础教程:Python的语法.字典.元组.列表 Python爬虫与数据分析 ...
Python 爬虫的工具列表附Github代码下载链接
Python爬虫视频教程零基础小白到scrapy爬虫高手-轻松入门 https://item.taobao.com/item.htm?spm=a1z38n.10677092.0.0.482434a6E ...
Python 爬虫的工具列表大全
Python 爬虫的工具列表大全这个列表包含与网页抓取和数据处理的Python库.网络通用 urllib -网络库(stdlib). requests -网络库. grab – 网络库(基于pyc ...
【Python】【爬虫】如何学习Python爬虫？
如何学习Python爬虫[入门篇]? 路人甲 1 年前想写这么一篇文章,但是知乎社区爬虫大神很多,光是整理他们的答案就够我这篇文章的内容了.对于我个人来说我更喜欢那种非常实用的教程,这种教程对于想直 ...
Python爬虫教程-34-分布式爬虫介绍
Python爬虫教程-34-分布式爬虫介绍分布式爬虫在实际应用中还算是多的,本篇简单介绍一下分布式爬虫什么是分布式爬虫分布式爬虫就是多台计算机上都安装爬虫程序,重点是联合采集.单机爬虫就是只在一 ...
Python 爬虫的工具列表
Python 爬虫的工具列表这个列表包含与网页抓取和数据处理的Python库网络通用 urllib -网络库(stdlib). requests -网络库. grab – 网络库(基于pycur ...

随机推荐

servlet_cdi自动注入
@WebServlet("/cdiservlet")//url映射,即@WebServlet告诉容器,如果请求的URL是"/cdiservlet",则由NewS ...
Django2.1 authenticate 会关联数据库 is_active 的解决办法
# 会检测用户是否是活跃状态(is_active),不活跃则返回None(默认配置)AUTHENTICATION_BACKENDS = ['django.contrib.auth.backends.M ...
redis配置文档细节问题
在window10环境下,redis的.conf配置文件在使用时,不可以有多余的空白符.比如为了对其在配置的前方添加两个空格. 这么做会导致redis-server使用这个配置文件的时候无法正常启动, ...
APP_测试流程(测试点)
1 APP测试基本流程 1.1流程图 1.2测试周期测试周期可按项目的开发周期来确定测试时间,一般测试时间为两三周(即15个工作日),根据项目情况以及版本质量可适当缩短或延长测试时间. 1.3测试资 ...
如何看待yandex开源clickhouse这个列式文档数据库?
如何看待yandex开源clickhouse这个列式文档数据库? 大数据云计算 water 5天前 24℃ 0评论欧阳辰<Druid实时大数据分析>作者,”互联居”作者编辑推荐1 ...
Chrome开发者工具详解（一）之使用断点来调试代码上
1.断点调试是啥?难不难? 断点调试其实并不是多么复杂的一件事,简单的理解无外呼就是打开浏览器,打开sources找到js文件,在行号上点一下罢了.操作起来似乎很简单,其实很多人纠结的是,是在哪里打断 ...
O013、动手实践Linux VLAN
参考https://www.cnblogs.com/CloudMan6/p/5326737.html 本节我们来看如何在实验环境中实施和部署如下的VLAN 网络
java实现spark常用算子之filter
import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaRDD;import org.apache.spark.a ...
07 MySQL之索引原理
一.介绍为什么有索引:使用索引可快速访问数据库表中的特定信息.索引是对数据库表中一列或多列的值进行排序的一种结构. 作用: 1. 快速查询数据 2. 保证数据的唯一性 3 ...
PostMan测试Web Service
1.设置URL 2.设置请求模式:Post 3.设置Header:添加 Content-Type ,值为 text/xml;charset=utf-8 4.设置Body:勾选raw 5.输入Body内 ...

【Python】爬虫汇总

【Python】爬虫汇总的更多相关文章

随机推荐

热门专题