python爬虫的一些小小问题、python动态正则表达式

1.首先urllib不能用了，需要引入的是urllib2，正则re。

#coding=utf-8

# import urllib

import urllib2

import re

def getHtml(url):

    page = urllib2.urlopen(url)

    html = page.read()

    return html

def getCountry(html):

    reg = r'<td>(.*?)</td>'

    #imgre = re.compile(reg)#编译会出错，不要再编译了。

    imglist = re.findall(reg, html, re.S|re.M)

    #re.S|re.M   'i'、'L'、'm'、's'、'u'、'x'里的一个或多个字母。

    # 表达式不匹配任何字符，但是指定相应的标志：re.I(忽略大小写)、re.L(依赖locale)、re.M(多行模式)、re.S(.匹配所有字符)、re.U(依赖Unicode)、re.X(详细模式)。

    return imglist

html = getHtml("https://en.wikipedia.org/wiki/List_of_countries_by_electricity_consumption")

print getCountry(html)

要注意一下注释里面的内容。

2.python动态正则表达式写法：

import re

f = open("b.txt")

ll = f.read(1000000)

print ll

for i in range(1,220):

    reg = "'"+ str(i) + "'" + '(.*?)'+ "'"+str(i+1)+"'"#这里可以实现动态匹配

    reg2 = re.compile(r''+reg+'')#每次编译的正则表达式都不一样

    list = re.findall(reg2,ll)

    # print i,reg

    print list

注意看写法。

python爬虫的一些小小问题、python动态正则表达式的更多相关文章

Python爬虫之使用Fiddler+Postman+Python的requests模块爬取各国国旗
介绍本篇博客将会介绍一个Python爬虫,用来爬取各个国家的国旗,主要的目标是为了展示如何在Python的requests模块中使用POST方法来爬取网页内容. 为了知道POST方法所需要传 ...
首部讲Python爬虫电子书 Web Scraping with Python
首部python爬虫的电子书2015.6pdf<web scraping with python> http://pan.baidu.com/s/1jGL625g 可直接下载 waterm ...
Python爬虫爬取qq视频等动态网页全代码
环境:py3.4.4 32位需要插件:selenium BeautifulSoup xlwt # coding = utf-8 from selenium import webdriverfrom ...
Python爬虫(二十三)_selenium案例：动态模拟页面点击
本篇主要介绍使用selenium模拟点击下一页,更多内容请参考:Python学习指南 #-*- coding:utf-8 -*- import unittest from selenium impor ...
Python爬虫学习==>第十章：使用Requests+正则表达式爬取猫眼电影
学习目的: 通过一个一个简单的爬虫应用,初窥门径. 正式步骤 Step1:流程框架抓取单页内容:利用requests请求目标站点,得到单个页面的html代码,返回结果: 正则表达式分析:根据html ...
Python爬虫学习（4）: python中re模块中的向后引用以及零宽断言
使用小括号的时候,还有很多特定用途的语法.下面列出了最常用的一些: 表4.常用分组语法分类代码/语法说明捕获 (exp) 匹配exp,并捕获文本到自动命名的组里 (?<name>e ...
【Python爬虫学习笔记（2）】正则表达式（re模块）相关知识点总结
1. 正则表达式正则表达式是可以匹配文本片段的模式. 1.1 通配符正则表达式能够匹配对于一个的字符串,可以使用特殊字符创建这类模式.(图片来自cnblogs) 1.2 特殊字符的转义由于在正则 ...
【Python爬虫案例学习2】python多线程爬取youtube视频
转载:https://www.cnblogs.com/binglansky/p/8534544.html 开发环境: python2.7 + win10 开始先说一下,访问youtube需要那啥的,请 ...
Python 爬虫实例（12）—— python selenium 爬虫
# coding:utf- from common.contest import * def spider(): url = "http://www.salamoyua.com/es/sub ...

随机推荐

HTTP及XMLHTTP状态代码一览
(一) HTTP 1.1支持的状态代码 100 Continue 初始的请求已经接受,客户应当继续发送请求的其余部分 101 Switching Protocols 服务器将遵从客户的请求转换到另外一 ...
IDEA实用的第三方插件和工具介绍设置
一:grep console grep-console插件可以让idea显示多颜色调试日志,使Log4j配置输出的不同级别error warn info debug fatal显示不同颜色开发起来区 ...
[原创]Spring Boot + Mybatis 简易使用指南（二）多参数方法支持与 Joda DateTime类型支持
前言今天在开发练习项目时遇到两个mybatis使用问题第一个问题是mapper方法参数问题,在参数大于一个时,mybatis不会自动识别参数命名第二个问题是Pojo中使用Joda DateTim ...
Android 截屏检测
最近项目中新接到一个需求,对手机截屏进行检测并进行后续操作,类似于Snapchat,iOS具有先天优势,因iOS系统提供了相关API!Google无果之后原作者决定再次造轮子,为了持续表达对Rx的敬意 ...
java中的类型安全问题-Type safety: Unchecked cast from Object to ...
首先,java语言室类型安全的,通常我们遇到这个问题是出现在Object转化为目标类型时, 这个转化并不是安全的.这个问题普遍认为因为使用了jdk1.5或者1.6的泛型, request.getAtt ...
angular与avalon对复杂对象的修改
angular的实现 <!doctype html> <html ng-app> <head> <script src="http://files. ...
S3C6410的启动代码分析 一
本文开始第一篇,启动代码的编写,注意,仅仅是启动代码,并不是bootloader,因为只有boot,没有loader. 第一要明确:CPU上电之后,会从某个固定地址执行指令.ARM结构的CPU从地址0 ...
强大的HTML5开发工具推荐
HTML5被看做是Web开发者创建流行Web应用的利器,增加了对视频和Canvas 2D的支持.HTML5的诞生还让人们重新审视浏览器专用多媒体插件的未来,如Adobe的Flash和微软的Silver ...
简单的so修改
今天有点小高兴哈,终于能修改so了虽然只是hello,word..改成了.come,on,men.. 但是感觉也不错了. 只用两个工具. 1.盗版的ida定位可疑代码地址. 2.盗版的ultralE ...
codeforce465DIV2——D. Fafa and Ancient Alphabet
概率的计算答案给出的这张图很清楚了,然后因为要求取模,a/b%M=a*b^-1%M=a*inv(b,M)%M; #include <cstdio> #include <cstring ...

python爬虫的一些小小问题、python动态正则表达式

python爬虫的一些小小问题、python动态正则表达式的更多相关文章

随机推荐

热门专题