初识Python和使用Python爬虫

一.python基础知识了解：

1.特点：

Python的语言特性：

Python是一门具有强类型(即变量类型是强制要求的)、动态性、隐式类型(不需要做变量声明)、大小写敏感(var和VAR代表了不同的变量)以及面向对象(一切皆为对象)等特点的编程语言。

优点：

　　容易上手，代码简洁，代码量小，编写快速，三方库成熟

缺点：

　　第一个缺点就是运行速度慢，和C程序相比非常慢，因为Python是解释型语言，你的代码在执行时会一行一行地翻译成CPU能理解的机器码，这个翻译过程非常耗时，所以很慢。而C程序是运行前直接编译成CPU能执行的机器码，所以非常快。

　　第二个缺点就是代码不能加密。如果要发布你的Python程序，实际上就是发布源代码，这一点跟C语言不同，C语言不用发布源代码，只需要把编译后的机器码（也就是你在Windows上常见的xxx.exe文件）发布出去。要从机器码反推出C代码是不可能的，所以，凡是编译型的语言，都没有这个问题，而解释型的语言，则必须把源码发布出去。

2.python能做什么：

网络应用：包括网站、后台服务等等，构建网络应用一般使用Django 或者 Flask这俩相对流行的框架。
数据科学：包括机器学习(scikit-learn和TensorFlow)、数据分析和数据可视化(Matplotlib)
脚本、爬虫

3.python的版本问题：

目前，Python有两个版本，一个是2.x版，一个是3.x版，这两个版本是不兼容的（语法发生改变）。由于3.x版越来越普及，所以直接使用3.x版本

4.hello world：

print("hello world")

5.一段简单的代码：

# 这是一行注释 a = 100 if a >= 0: print(a) else: print(-a)

python中使用#来表示注释

当语句以冒号:结尾时，缩进的语句视为代码块。

缩进有利有弊。好处是强迫你写出格式化的代码，但没有规定缩进是几个空格还是Tab。按照约定俗成的管理，应该始终坚持使用4个空格的缩进。

缩进的另一个好处是强迫你写出缩进较少的代码，你会倾向于把一段很长的代码拆分成若干函数，从而得到缩进较少的代码。

二.python爬虫：

1.什么是爬虫(spider)：

爬虫(spider)的本质是一个向网站或URL发送请求, 获取资源后分析并提取有用数据的应用程序。它可以用来获取文本数据，也可以用来下载图片或音乐，还可以用来抢票。各大IT公司如阿里, 百度, 新浪和今日头条都大规模的应用了爬虫技术。比如阿里云网站上的IT技术类文章都是从CSDN, CNBlogs和微信公众号等原创平台上爬来的。新浪上的政府新闻很多也是直接从各大部委网站直接爬过来的。

2.为什么用python来写爬虫：

1）PHP语言虽然是世界上最好的语言，但是他天生不是干这个的，而且对多线程、异步支持不够好，并发处理能力很弱。爬虫是工具性程序，对速度和效率要求比较高。

2）Java 语言 Java 的网络爬虫生态圈也很完善，是Python爬虫最大的对手。但是Java语言本身很笨重，代码量很大。重构成本比较高，任何修改都会导致代码的大量变动。爬虫经常需要修改部分采集代码。

3）C/C++语言运行效率和性能几乎最强，但是学习成本很高，代码成型比较慢，是很慢。能用C/C++做爬虫，只能说是能力的表现，但是不是正确的选择。

4）Python 语言语法优美、代码简洁、开发效率高、支持的模块多，相关的HTTP请求模块和HTML解析模块非常丰富。还有强大的爬虫Scrapy框架，以及成熟高效的 scrapy-redis分布式策略。而且，调用其他语言的接口也非常方便（胶水语言）

关于scrapy-redis 引用这里：https://www.cnblogs.com/pythoner6833/p/9148937.html

总结：各个语言都有办法能写爬虫程序，只是python更加适合，而且有成熟的框架，写起来比较简单易上手

3.爬虫的工作流程：

请求发送: 确定需要爬取数据的目标url以及发送请求(request)时所需要携带的数据和各种HTTP头部信息 (如user-agent, proxy IP, cookie)。发送请求时我们最常用的有python 3自带的urllib库和需要安装的第三方包requests库。
数据解析: 对返回的数据(response)进行解析，提取我们所需要的信息。常用的数据解析的库有python自带的html.parser, beautifulsoup（第三方库）、lxml（第三方库)。
数据存储: 对第2步提取的数据我们有时候需要对其进行清洗，有时会直接存入数据库，写入文件或缓存。

4.一个最简单的爬虫：

# 使用RequestsCookieJar来构建cookie

cookie_jar = RequestsCookieJar()

for k, v in d.items():

cookie_jar.set(k, v)

# 创建headers

user_agent = 'Mozilla/5.0 (Windows NT 6.1; Win64; x64; Trident/7.0; rv:11.0) like Gecko'

header = {

     "User-Agent": user_agent

}

1.使用requests创建请求

req = requests.get(url, headers=header, cookies=cookie_jar)

2.使用beautifulsoup来解析请求到的数据

if req.status_code == 200:

     soup = bs(str(req.content, 'GBK'), 'html.parser')

3.soup中保存了方便解析的请求到的数据

result = soup.find_all('div', class_='paper-bt')[0].get_text()

4.对抓取到的数据保存或者输出

print(result)

5.使用scrapy构建爬虫

1） Scrapy是Python开发的一个快速、高层次的屏幕抓取和web抓取框架，用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛，可以用于数据挖掘、监测和自动化测试。

2）安装 scrapy框架

3）构建scrapy框架项目

4）初始化一个spider 叫做movie 针对主机名是“douban.com”

这时一个基本的Python爬虫框架就完成了，这里会根据模板生成一套代码

scrapy.cfg：配置文件

spiders：存放你Spider文件，也就是你爬取的py文件

items.py：相当于一个容器，和字典较像

middlewares.py：定义Downloader Middlewares(下载器中间件)和Spider Middlewares(蜘蛛中间件)的实现

pipelines.py:定义Item Pipeline的实现，实现数据的清洗，储存，验证。

settings.py：全局配置

此时scrapy基本功能构建完成，需要进行目标功能构建

5）创建一个spider文件：

这里以动漫观看排行榜的数据为例子

#爬虫类

#数据item

#pipeline后处理类

5）执行写好的爬虫，得到数据

scrapy crawl agefans --nolog

6）结果：

6.解析库

1）lxml的使用

使用pip3 install lxml安装库

XPath的常用规则:

/ 表示选取直接子节点
// 表示选取所有子孙节点
. 选取当前节点
.. 选取当前结点的父节点
@ 选取属性

还是拿上面的解析方法来举例：

response.xpath('//li[@class="rank_text"]')

代表选取所有li标签class属性为“rank_text”的子孙节点

直接就筛选到了如下数据的集合

接着从集合中遍历每个节点下的数据

2）BeautifulSoup的使用

使用 pip3 install BeautifulSoup安装

soup = BeautifulSoup(str(req.content, 'utf-8'), 'lxml') 这里是使用了lxml的解析器来解析，python自带的解析器为'html.parser'

2.2获取属性值

比如，我们想要获取img的src属性，我们只需要，soup.img['src']就可以获取到，soup.img.arrts['src']也可以获取到。

如果想获取到所有的属性就这样写：soup.img.arrts即可

2.3获取直接子节点和子孙节点，父节点，祖先节点，兄弟节点

获取直接子节点：contents，例如我想获取p标签的直接子节点：soup.p.contents即可
获取子孙节点：descendants,例如我想获取p标签的子孙节点：soup.p.descendants即可
获取父节点：parent属性，例如我想获取p标签的父节点：soup.p.parent即可
获取祖先节点：parents属性，例如我想获取p标签的祖先节点：soup.p.parents即可
获取兄弟节点：next_sibling,previous_sibling,next_siblings,previous_siblings分别为下一个兄弟节点，上一个兄弟节点，上面所有的兄弟节点，下面所有的兄弟节点。

2.4获取文本属性

string为获取文本

attrs为获取属性

2.5方法选择器

find_all()返回的一个列表，匹配所有符合要求的元素

如果我们想要获取ul可以这样写：soup.find_all(name='ul')
如果我们想要获取id为id1属性可以这样写：soup.find_all(arrts[id='id1'])
如果我们想要获取class为class1属性可以这样写：soup.find_all(arrts[class_='class1'])因为class有特殊意义，所以我们获取class的时候价格_即可
如果我们想要获取文本值可以这样写：soup.find_all(text=re.compile(''))匹配text需要用到正则，匹配你想要的text值
find()只返回一个值，匹配到符合要求的第一个值。用法和上面的方法一样

解析结果：

by 张轶

初识Python和使用Python爬虫的更多相关文章

Python初学者之网络爬虫(二)
声明:本文内容和涉及到的代码仅限于个人学习,任何人不得作为商业用途.转载请附上此文章地址本篇文章Python初学者之网络爬虫的继续,最新代码已提交到https://github.com/octans ...
智普教育Python培训之Python开发视频教程网络爬虫实战项目
网络爬虫项目实训:看我如何下载韩寒博客文章Python视频 01.mp4 网络爬虫项目实训:看我如何下载韩寒博客文章Python视频 02.mp4 网络爬虫项目实训:看我如何下载韩寒博客文章Pytho ...
【Python】：简单爬虫作业
使用Python编写的图片爬虫作业: #coding=utf-8 import urllib import re def getPage(url): #urllib.urlopen(url[, dat ...
使用python/casperjs编写终极爬虫-客户端App的抓取-ZOL技术频道
使用python/casperjs编写终极爬虫-客户端App的抓取-ZOL技术频道使用python/casperjs编写终极爬虫-客户端App的抓取
[Python学习] 简单网络爬虫抓取博客文章及思想介绍
前面一直强调Python运用到网络爬虫方面很有效,这篇文章也是结合学习的Python视频知识及我研究生数据挖掘方向的知识.从而简介下Python是怎样爬去网络数据的,文章知识很easy ...
洗礼灵魂，修炼python（70）--爬虫篇—补充知识：json模块
在前面的某一篇中,说完了pickle,但我相信好多朋友都不懂到底有什么用,那么到了爬虫篇,它就大有用处了,而和pickle很相似的就是JSON模块 JSON 1.简介 1)JSON(JavaScrip ...
洗礼灵魂，修炼python（69）--爬虫篇—番外篇之feedparser模块
feedparser模块 1.简介 feedparser是一个Python的Feed解析库,可以处理RSS ,CDF,Atom .使用它我们可从任何 RSS 或 Atom 订阅源得到标题.链接和文章的 ...
洗礼灵魂，修炼python（52）--爬虫篇—【转载】爬虫工具列表
与爬虫相关的常用模块列表. 原文出处:传送门链接网络通用 urllib -网络库(stdlib). requests -网络库. grab – 网络库(基于pycurl). pycurl – 网络 ...
洗礼灵魂，修炼python（50）--爬虫篇—基础认识
爬虫 1.什么是爬虫爬虫就是昆虫一类的其中一个爬行物种,擅长爬行. 哈哈,开玩笑,在编程里,爬虫其实全名叫网络爬虫,网络爬虫,又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者 ...
使用Python + Selenium打造浏览器爬虫
Selenium 是一款强大的基于浏览器的开源自动化测试工具,最初由 Jason Huggins 于 2004 年在 ThoughtWorks 发起,它提供了一套简单易用的 API,模拟浏览器的各种操 ...

随机推荐

css 把图片变成灰色
3.14号刚下班,噩耗传来,伟大的物理学家斯蒂芬·威廉·霍金去世了. 同事正好叫我吃饭,几分钟内去看了一眼百度百科,一看也都变黑白了,可是查看图片还是彩色的,也是哪有这么快的时间来p图呢,回来搜了一下 ...
caffe 模型的加载
在caffe中模型的加载是通过这个函数加载的: void Net<Dtype>::CopyTrainedLayersFrom(const string trained_filename)
介绍Mobility Group
Mobility或Roaming是无线客户端能够安全地从一个AP无缝关联到另一个AP的能力,并且延迟尽可能的短. 当无线客户端和AP关联并通过AP进行身份验证时,注册AP的WLC会将客户端条目放在自己 ...
MYSQL 传汉字获取拼音首字母
--获取单个汉字首字母拼音 --CREATE DEFINER=`by`@`%` FUNCTION `fun_first_pinyin`(`P_NAME` VARCHAR(5)) RETURNS var ...
【PAT甲级】1094 The Largest Generation (25 分)（DFS）
题意: 输入两个正整数N和M(N<100,M<N),表示结点数量和有孩子结点的结点数量,输出拥有结点最多的层的结点数量和层号(根节点为01,层数为1,层号向下递增). AAAAAccept ...
通过POI实现上传EXCEL的批量读取数据写入数据库
最近公司新增功能要求导入excel,并读取其中数据批量写入数据库.于是就开始了这个事情,之前的文章,记录了上传文件,本篇记录如何通过POI读取excel数据并封装为对象上传. 上代码: 1.首先这是一 ...
HTML中的meta元素
<meta>元素必须放在<head>标记内,而且必须写在HTML文件前1024B之内 <meta>元素的主要目的是提供有关这份HTML文件的相关信息.例如编码方式, ...
ASP.NET Core搭建多层网站架构【8.3-编写角色业务的增删改】
2020/01/29, ASP.NET Core 3.1, VS2019 摘要:基于ASP.NET Core 3.1 WebApi搭建后端多层网站架构[8.3-编写角色业务的增删改] 编写最简单的增删 ...
ICCV2019 oral：Wavelet Domain Style Transfer for an Effective Perception-distortion Tradeoff in Single Image Super-Resolution
引言基于低分辨率的图像恢复高分辨图像具有重要意义,近年来,利用深度学习做单张图像超分辨主要有两个大方向:1.减小失真度(distortion, 意味着高PSNR)的图像超分辨,这类方法主要最小化均方 ...
从零搭建vue+express开发环境
1.express,vue运行环境,2建express项目,3建vue项目,4将vue项目(3)输出文件拷贝到express静态根目录里一:---------PC全局安装express 和 vue- ...

初识Python和使用Python爬虫

初识Python和使用Python爬虫的更多相关文章

随机推荐

热门专题