Python 正则表达式 (python网络爬虫)

　　昨天 2018 年 01 月 31 日，农历腊月十五日。20:00 左右，152 年一遇的月全食、血月、蓝月将今晚呈现空中，虽然没有看到蓝月亮，血月、月全食也是勉强可以了，还是可以想像一下一瓶蓝月亮洗衣液悬于空上，耳边是"大家好，我是渣渣灰，给大家推荐一款好玩的游戏--贪玩蓝月......" 22:00左右的样子，月亮已经出来了，坐下来写写博客啦。

　　对计算机程序员而言，要问当下前沿什么方向最流行？我想在大数据、云计算、人工智能这些方向中，目前位于翘楚的就是大AL(人工智能了)，一种产品的流行总是会带动其依赖品的流行。说的就是 Python 语言，近几年的势头Python越Java座于编程语言首位。Python流行不仅是因为人工智能机器学习的支持，其自身也是有原因的，Python语言学习起来很容易、易懂，这不小学课堂都开Python课了么。Python又被称为"胶水语言"，与其它的语言的兼容性很好。这也让不少程序员转向了Python，更何况当前的人工智能时代即将来临。

　　我最近也在学习Python，说到学习Python极大可能会接触到爬虫。关于爬虫，通俗说就是抓取网上数据的机器。涉及到爬虫，就与本文的点正则表达式就是分不开了。

　　正则表达式:又称为规则表达式，百度百科解释其为通常被用来检索、替换那些符合某个模式(规则)的文本。这就有点像那些暴力破解密码的软件，通过字典一个个组合进行破解。这也是挺考验计算机运算能力的.

　　关于Python正则表达式的知识，我也是从视频中学习来的。不知道全面否，大家可以进行评论补充。

　　正则表达式有以下特殊字符:
　　1) ^ . $ * ? + {2} {2, } {2, 5}
　　2) [] [^] [a-z] | ()
　　3) \s \S \w \W
　　4) [\u4E00-\u9FA5] \d

　　我将对每个符号进行讲解，并举以实例。

　　打开 Eclipse+Pydev、Pycharm 等可以写Python的IDE(集成开发环境)，本人就以 Eclipse+Pydev 配置为例。

　　Eclipse 是Java的IDE，功能很强大，安装好 Pydev 就可以愉快地写python。所以学习使用Eclipse是不错的选择，如果你写 java 又写 python 的话，当然你安装个 CDT 就可以写 c/c++ 了。

　　安装 Eclipse:

　　首先要安装配置 JDK 环境，去 Oracle（甲骨文）官网下载 JDK 。 http://www.oracle.com/technetwork/cn/java/javase/downloads/jdk8-downloads-2133151-zhs.html

　　然后下载 Eclipse 安装。 https://www.eclipse.org/downloads/

　　再下载 Python 安装配置 Python 环境(python 2 \ python 3 看个人需求了)。 https://www.python.org/

　　打开 Eclipse ， Help > Install New Software 在后边的文本框中填入 http://pydev.org/updates 然后点击 Add... 随便取个名，然后确定下边的方框应该就有 PyDev 和 PyDev Mylyn Integration (optional) 两项，第一项必选啦，第二项看你心情吧。然后 Next 什么的安装吧。

　　安装好了之后就会提示重启 Eclipse ，配置 pydev 了，这时 Windows > Preferences 中右栏就多出了个 PyDev 选项，展开其下的 Interpreters > Python Interpreter 配置 Python 环境。可以点击右侧的 Quick Auto-Config 快速自动配置，笔者安装了 Python 2 和 Python 3 两种版本。一般点击这个按钮只能配置好 Python 2，而 Python 3 就需要手动去 New 配置了。Python 3 默认安装位置在 C:\Windows 下，如果你更改了安装位置请自行找到对应的目录。

　　点击上方对应的 Python ，下方就会显示对应的已安装的软件包，右侧的 Install/Uninstall with pip 就可以安装软件包，像做爬虫时用到的 BeautifulSoup 就可以在些进行安装，在框中输入 -m pip install beautifulsoup 点击后边的 Run 就可以搜索并安装了，不管安装成功与否都会有说明的(这些简单的英语，自行翻译一下就可以了)。

　　然后就可以写 Python 了，File > New > Projects 选择 PyDev > PyDevProject 新建 PyDev Package 在 __init__.py 就可以写 python 了。

　　首先在编辑框中写入

#coding:utf-8

import re

　　声明一下编码 UTF-8 不然有打印中文时会报错

导入正则表达式模块

　　1). ^ 表示必须以特定的字符开头如 ^e 则是表示待匹配字符串必须以 e 字符开头

　　　　$ 表示必须以特定的字符结尾与 ^ 恰恰相反字符放置也是相反如 $e 则是表示待匹配字符串必须以 e 字符结尾

　　　　. 表示任意字符匹配任意字符表示在待匹配字符串指定位置可以出现任意字符

　　　　* 表示指定字符可以出现任意次 (n >= 0) 如 e* 表达在待匹配字符串中指定位置可以出现任意次数

　　　就　^ $ . * 举个粟子吧（match 函数从首字母开始开始匹配，regex_str如果包含line子串，则匹配成功，返回Match对象，失败则返回None，若要完全匹配，line要以$结尾）

#coding:utf-8

import re

#导入正则表达式模块

line = "Hello World"

#待匹配字符串

regex_str = "(^H.*d$)"

if re.match(regex_str, line):

# match 函数  (传入的参数,要匹配的字符串) 
# 从首字母开始开始匹配，regex_str如果包含line子串，则匹配成功，
# 返回Match对象，失败则返回None，若要完全匹配，line要以$结尾。

    print 'True'

else:

  print 'False'

　　运行结果 True 说明匹配成功，^H 以 H 字符开头、 .* 任意字符出现任意次、d$以 d 字符结尾，以上都满足故 True .

　　? 非贪婪匹配，在正则表达式中匹配是贪婪的，程序会尽可能匹配更多的字符，当然这有时候非我们所愿.为了防止其贪婪匹配，于是 ? 就派上用场了。(group()用来提出分组截获的字符串，（）用来分组)

#coding:utf-8

import re

#导入正则表达式模块

line = "heedeeehhlhloooooooo world"

regex_str = ".*(h.*h).*"

match_obj = re.match(regex_str, line)

if match_obj:

    print (match_obj.group(1))
#group()用来提出分组截获的字符串，（）用来分组

#结果中本来 'heedeeeh' 'hh' 'hhlh' 都是满足条件的

#但由于贪婪匹配，尽可能匹配更多的的后面的字符，
#这就匹配到最后一个满足条件的 'hlh'

　　运行结果为: hlh ，那么问题来了 heedeeeh hh hhlh hlh 这样也满足条件同时也先出现，那为什么提取的是 hlh 呢? 原来程序是贪婪匹配的的，程序想尽多可能匹配后面更多的然后就像猴子捡了芝麻丢了西瓜,最后就提取出最后一个符合条件的 hlh ,我们也可以这样理解贪婪匹配就是反向(从右往左)进行匹配,匹配到的第一项就是贪婪的结果了。

　　防止贪婪你可以在之前加上 ? 这样满足么？来看看

#coding:utf-8

import re

#导入正则表达式模块

line = "heedeeehhlhloooooooo world"

regex_str = ".*?(h.*h).*"

match_obj = re.match(regex_str, line)

if match_obj:

    print (match_obj.group(1))

　　运行结果为 heedeeehhlh 好像不是所料到的结果吧，我只是提取个 heedeeeh 。为么呢，原来到上述一样你正向是非贪婪匹配了，而反向却没有，所以呢只需在后面也加上百贪婪匹配就行了(注意加在后面字符前边即下代码中 h 前)。运行结果 heedeeeh 就对了。

#coding:utf-8

import re

#导入正则表达式模块

line = "heedeeehhlhloooooooo world"

regex_str = ".*?(h.*?h).*"

#注意 加在 h 之前

match_obj = re.match(regex_str, line)

if match_obj:

    print (match_obj.group(1))

　　+ 表示指定字符至少出现一次及一次以上， h+ 就表示在待匹配字符串指定位置出现 h 至少一次以上

　　{2} 表示指定字符出现2次， h{2} 就表示在待匹配字符串中指定位置出现 h 两次

　　{2,} 表示指定字符至少出现2次及以上，(注意 , 后面不能留有空格) 数字不固定如 h{3,} 表示待匹配字符串中指定位置出现3次以上

　　{2,6} 表示指定字符出现 2次-6次之间，如 h{3,5} 表示在字符串中指定位置出现次数在 3次-5次之间

　　见代码运行结果 heeh 其它就不演示了，差不多的

#coding:utf-8

import re

line = "heehhlhloooooooo world"

regex_str = ".*(he{2,}h).*"

match_obj = re.match(regex_str, line)

if match_obj:

    print (match_obj.group(1))

　　2). [adbc] 表示在待匹配字符串中指定位置指定字符是 adbc 中任一个就满足条件

　　　　同时可以写成区间形式如 [a-z] [0-9] 也可以区间叠加如 [a-zA-z0-9]

　　　　[^h] 则表示待匹配字符串中指定位置指定字符非 h 就满足条件

　　　　注意: [.] [*] 此[]中的 . * 就不再表示任意字符和出现任意次数这个就表示它们本身

　　　　看看粟子吧运行结果为 hloooo0

#coding:utf-8

import re

line = "heehhlhloooo0 world"

regex_str = ".*(h[^e][a-z].*[0-9]).*"

match_obj = re.match(regex_str, line)

if match_obj:

    print (match_obj.group(1))

　　　　| 就是或的关系，（h|r）表示待匹配字符串中指定位置只要出现 h 和 r 中的任一个就符合条件

　　　　() 在之前提到过，用来分组，在本实例中与之搭配用的group()就是用来提出分组截获的字符串 group(1) 就表示截获第1个分组的字符串当然要有分组即需有 ()

　　实例

#coding:utf-8

import re

line = "hello365"

regex_str = "((hello|hell0o)365)"

match_obj = re.match(regex_str, line)

if match_obj:

    print (match_obj.group(1))

    print (match_obj.group(2))

　　运行分别输入结果 hello365 hello group(2)就截获第2个分组中的字符串即 hello 或 hell0o 中一个

　　3). \s 表示待匹配字符串中指定位置指定字符为空格，而 \S 则是表示非空格同样的对单独使用只对指定的单个字符有效若要多个则需加上 +

　　　　\w 表示待匹配字符串中指定位置指定字符为 a-z A-Z _ 等同于 [a-zA-Z0-9_]， \W 则是除去这些字符的其它字符像 ~ ！ @ # $ % ^ & *

　　　　用实例说话

#coding:utf-8

import re

line = "hello world~"

regex_str = "(\wello\sworld\W)"

match_obj = re.match(regex_str, line)

if match_obj:

    print (match_obj.group(1))

　　运行结果 hello world~ 对吧没毛病

　　4). \d 表示待匹配字符串中指定位置为数字 [\u4E00-\u9FA5] 则是表示为中文

#coding:utf-8

import re

line = "hello world365嗨"

regex_str = "(hello\sworld\d+[\u4e00-\u9fa5]+)"

match_obj = re.match(regex_str, line)

if match_obj:

    print (match_obj.group(1))

　　运行结果为 hello world365嗨

　　好，以上就是我学习Python 网络爬虫中重要的一节正则表达式，可能不是很全面，甚至还有点小问题，更多的可以去菜鸟教程等各大知名资料网查询。本人所写仅供参考。

Python 正则表达式 (python网络爬虫)的更多相关文章

Python初学者之网络爬虫(二)
声明:本文内容和涉及到的代码仅限于个人学习,任何人不得作为商业用途.转载请附上此文章地址本篇文章Python初学者之网络爬虫的继续,最新代码已提交到https://github.com/octans ...
[Python学习] 简单网络爬虫抓取博客文章及思想介绍
前面一直强调Python运用到网络爬虫方面很有效,这篇文章也是结合学习的Python视频知识及我研究生数据挖掘方向的知识.从而简介下Python是怎样爬去网络数据的,文章知识很easy ...
Python 利用Python编写简单网络爬虫实例3
利用Python编写简单网络爬虫实例3 by:授客 QQ:1033553122 实验环境 python版本:3.3.5(2.7下报错实验目的获取目标网站“http://bbs.51testing. ...
Python 利用Python编写简单网络爬虫实例2
利用Python编写简单网络爬虫实例2 by:授客 QQ:1033553122 实验环境 python版本:3.3.5(2.7下报错实验目的获取目标网站“http://www.51testing. ...
Python中的网络爬虫怎么用？
爬虫概述 (约2016年)网络爬虫个人使用和科研范畴基本不存在问题,但商业盈利范畴就要看对方了. 通过网站的Robots协议(爬虫协议)可以知道可以和不可以抓取的内容,其中User-Agent: 为允 ...
Python 基础教程 —— 网络爬虫入门篇
前言 Python 是一种解释型.面向对象.动态数据类型的高级程序设计语言,它由 Guido van Rossum 于 1989 年底发明,第一个公开发行版发行于 1991 年.自面世以后,Pytho ...
智普教育Python培训之Python开发视频教程网络爬虫实战项目
网络爬虫项目实训:看我如何下载韩寒博客文章Python视频 01.mp4 网络爬虫项目实训:看我如何下载韩寒博客文章Python视频 02.mp4 网络爬虫项目实训:看我如何下载韩寒博客文章Pytho ...
从零开始学Python 三（网络爬虫）
本章由网络爬虫的编写来学习python.首先写几行代码抓取百度首页,提提精神,代码如下: import urllib.request file=urllib.request.urlopen(" ...
【Python开发】【神经网络与深度学习】如何利用Python写简单网络爬虫
平时没事喜欢看看freebuf的文章,今天在看文章的时候,无线网总是时断时续,于是自己心血来潮就动手写了这个网络爬虫,将页面保存下来方便查看先分析网站内容,红色部分即是网站文章内容div,可以看 ...

随机推荐

python_IO编程
本篇文章将介绍python里面的I/O编程.更多内容请参考:python学习指南 I/O编程读写文件时最常见的IO操作.Python内置了读写文件的函数,用法和C是兼容的. 读写文件前,我们必须了解 ...
七牛php-sdk使用-在线打包
如果需要将空间中的多个文件,打包成一个压缩文件,该怎么做,不需要自己本地打包好再上传,七牛已经为我们提供了这项服务. 命令:mkzip/2/url/xx/alias/xxx; 不仅可以将文件打包,还可 ...
mysqlfront提示过期解决方式
帮助菜单(help)->登记(registration) 粘贴就好了 gNBpPFgyOw9Rwt/ozsnjgM7tJNo2 bhaaAThangemMkaz2tQhq3/f7dZ7Vj29W ...
C#要点补充
1字符串与时间的互转 DateTime.TryParse将空字符串.为null或格式不正确,则转换为的DateTime所代表的值为:0001/1/1 0:00:00,此为DateTime.MinVal ...
wifi入侵思路
一.得到wifi密码系统:Kali Linux 工具:Aircrack-ng,EWSA 方法: 1.WEP加密:deauth攻击:得到足够报文直接破解. 2.WPA加密:deau ...
CTF---Web入门第十三题拐弯抹角
拐弯抹角分值:10 来源: cwk32 难度:易参与人数:5765人 Get Flag:2089人答题人数:2143人解题通过率:97% 如何欺骗服务器,才能拿到Flag? 格式:CTF{} 解 ...
linux中mv命令使用详解
mv命令是move的缩写,可以用来移动文件或者将文件改名(move (rename) files),是Linux系统下常用的命令,经常用来备份文件或者目录. 1．命令格式: mv [选项] 源文件或目 ...
Android Studio解决导入项目非常慢的问题
http://www.androidchina.net/5527.html Android Studio比Eclipse ADT有巨大的优势. Android Studio原生支持使用Gradle来构 ...
[国嵌攻略][153][I2C裸机驱动设计]
eeprom简介 eeprom电可擦除可编程只读存储器,是一种类似于flash的固态存储器,但是与flash相比又存在一些区别: 1.eeprom可以按位擦写,而flash只能大片擦除. 2.eepr ...
Sql Server——约束
约束是什么: 每个人都在网站或者APP上注册过账号,在注册账号时会限制用户名.密码等格式,如果格式不对就不能注册.在数据库中我们可以通过约束来进行限制,超过约束范围的数据就不能写入. 约束的种类: 主 ...

Python 正则表达式 (python网络爬虫)

Python 正则表达式 (python网络爬虫)的更多相关文章

随机推荐

热门专题