Python之爬虫的理解

# -*- coding: utf-8 -*- 中文用户一定先用这行来声明编码方式

爬虫：爬虫是自动访问互联网，并且提取数据的程序 (从网络上获取非结构化的数据，ETL将这些数据转换为结构化数据存储，然后做分析挖掘)

　　　爬虫的核心，是页面规律的探索和反爬机制的处理

　　　爬虫的价值，互联网数据为我所用

　　轻量级的爬虫，是静态网页数据的抓取，是除了需要登录和Ajax异步加载之外的爬虫

爬虫的开发: 确定目标 --- 分析目标 --- 编写代码 --- 执行爬虫

　　目标网站的格式，是在不停升级的，爬虫的抓取策略也需要做相应升级

爬虫的一般架构:

　　 1. 调度器　　启动爬虫

　　　2. URL管理器　　管理等待抓取URL和已经抓取URL的集合，防止循环和重复抓取

　　　　　　( 实现方式: 内存中的set集合，关系数据库的表，缓存数据库redis等）

　　　3. 网页下载器　　爬虫的核心部分，主要是urllib/requests模块

　　　　　　( 实现方式：无参 urlopen()+response.read(), 有参 Request()对象+urlopen()+response.read(), 各类handler+opener+install_opener()+urlopen() )

　　　4. 网页解析器　　主要是BeautifulSoup、lxml 、html.parser、正则表达式，前三种是结构化解析，正则是模糊匹配

　　　　　　(beautifulSoup，可以解析html和xml， pip install beautifulSoup4, import bs4)

　　　　　　在BeautifulSoup中，# 是id选择器， . 是css选择器

爬虫的最终结果： json或者list

　　　Pandas是后续ETL主要使用的

Python格式化输出的两种方式：

　　　占位符： %s %d %f...　　　　print('His name is %s and he is %d year old' %('Daivd', 18))

　　　　　　　　　　　　　　　　　 print("I am %(name)s age %(age)d" % {"name": "Alex", "age": 18})

　　　Format方式：　　　　print("i am {}, age {}, {}".format("seven", 18, 'alex'))

　　　　　　　　　　　　　 print("I am {0}, age {1}, really {0}".format("Steven", 18))

　　　　　　　　　　　　　 print("I am {name}, age {age}, really {name}".format(name="steven", age=18))

Python之爬虫的理解的更多相关文章

Python简单爬虫入门二
接着上一次爬虫我们继续研究BeautifulSoup Python简单爬虫入门一上一次我们爬虫我们已经成功的爬下了网页的源代码,那么这一次我们将继续来写怎么抓去具体想要的元素首先回顾以下我们Bea ...
GJM : Python简单爬虫入门（二） [转载]
感谢您的阅读.喜欢的.有用的就请大哥大嫂们高抬贵手"推荐一下"吧!你的精神支持是博主强大的写作动力以及转载收藏动力.欢迎转载! 版权声明:本文原创发表于 [请点击连接前往] ,未经 ...
Python网络爬虫
http://blog.csdn.net/pi9nc/article/details/9734437 一.网络爬虫的定义网络爬虫,即Web Spider,是一个很形象的名字. 把互联网比喻成一个蜘蛛 ...
Python 正则表达式 (python网络爬虫)
昨天 2018 年 01 月 31 日,农历腊月十五日.20:00 左右,152 年一遇的月全食.血月.蓝月将今晚呈现空中,虽然没有看到蓝月亮,血月.月全食也是勉强可以了,还是可以想像一下一瓶蓝月亮洗 ...
《精通python网络爬虫》笔记
<精通python网络爬虫>韦玮著目录结构第一章什么是网络爬虫第二章爬虫技能概览第三章爬虫实现原理与实现技术第四章 Urllib库与URLError异常处理第五章正则 ...
第三百七十二节，Python分布式爬虫打造搜索引擎Scrapy精讲—scrapyd部署scrapy项目
第三百七十二节,Python分布式爬虫打造搜索引擎Scrapy精讲—scrapyd部署scrapy项目 scrapyd模块是专门用于部署scrapy项目的,可以部署和管理scrapy项目下载地址:h ...
第三百六十节，Python分布式爬虫打造搜索引擎Scrapy精讲—elasticsearch(搜索引擎)的基本概念
第三百六十节,Python分布式爬虫打造搜索引擎Scrapy精讲—elasticsearch(搜索引擎)的基本概念 elasticsearch的基本概念 1.集群:一个或者多个节点组织在一起 2.节点 ...
Python网络爬虫与信息提取
1.Requests库入门 Requests安装用管理员身份打开命令提示符: pip install requests 测试:打开IDLE: >>> import requests ...
如何利用Python网络爬虫抓取微信好友数量以及微信好友的男女比例
前几天给大家分享了利用Python网络爬虫抓取微信朋友圈的动态(上)和利用Python网络爬虫爬取微信朋友圈动态——附代码(下),并且对抓取到的数据进行了Python词云和wordart可视化,感兴趣 ...

随机推荐

android:layout_weight属性详解
weight:重量.权重. 当我们给一个view设置了android:layout_weight属性,意味着赋予它话语权,常规思维就是谁的weight大,谁说了算(空间占比大). 下面我们来看下具体的 ...
Git默认用户名和密码设置
使用git的时候每次都需要输入密码,操作过程十分繁琐,非常不人性化,增加开发工作时间,也特别烦恼. 今天我们就来说说这个问题: 首先,如果我们git clone的下载代码的时候是连接的https:// ...
虚拟机中安装Ubuntu后，安装VMwareTools出错的解决办法：Not enough free space to extract VMwareTools
1.选择安装VMwareTools 2.将加载后的Vmware Tools中的*.tar.gz文件,复制到桌面后提取,否则会报错: 3.然后进入提取后的文件下,运行终端 sudo ./vmware-i ...
Sql server数据库定时任务，数据库作业，数据库定时任务
当需要周期性的去执行一个方法时,我们可以先写好方法,然后交给数据库去完成就可以的. 步骤:首先打开SQL数据库中SQLServer代理-->右键作业-->新建作业: 如果SQL Serve ...
Iterm2/Mac自带终端工具快速进入你想进入的虚拟机教程
一.首先我们在终端本地要写一个登录的脚本,eg: 当然首先要touch login.sh 啦,下面就是脚本文件,比较low,大神勿喷,会更炫酷写法的小伙伴可以自己参考这个思路写,不会的直接复制就好啦 ...
记录SoapUI使用说明
一.SoapUI简介 SoapUI是一个开源测试工具,通过soap/http来检查.调用.实现Web Service的功能/负载/符合性测试.该工具既可作为一个单独的测试软件使用,也可利用插件集成到E ...
巧妙地使用typora编辑有道云笔记
设置方法找到有道云笔记本地保存路径: 找到有道云笔记的保存的路径:启动有道云 - 设置 - 有道云笔记(本地文件) - 打开文件夹使用typora打开有道云笔记目录: typora 菜单栏 - O ...
ReactNative之参照具体示例来看RN中的FlexBox布局
今天是重阳节,祝大家节日快乐,今天继续更新RN相关的博客.上篇博客<ReactNative之从HelloWorld中看环境搭建.组件封装.Props及State>中我们通过一个HelloW ...
【死磕 Spring】----- IOC 之 Spring 统一资源加载策略
原文出自:http://cmsblogs.com 在学 Java SE 的时候我们学习了一个标准类 java.net.URL,该类在 Java SE 中的定位为统一资源定位器(Uniform Reso ...
Linux+.Net Core+Nginx(在Linux上使用Nginx反向代理.Net Core 项目)
Linux+.Net Core+Nginx 之前的文章中有提到关于使用Nginx在linux来实现反向代理,今天我们继续加点料.在Centos7中部署.NetCore,然后使用Nginx进行反向代理! ...

Python之爬虫的理解

Python之爬虫的理解的更多相关文章

随机推荐

热门专题