python简易爬虫，帮助理解re模块

20161203更新：

1.使用了BS4解析html

2.使用了mysql-connector插入了数据库表

pip install mysql-connector

import urllib.request

from bs4 import BeautifulSoup

import re

import mysql.connector

def getMovieInfo():

    url="https://movie.douban.com"

    data=urllib.request.urlopen(url).read()

    page_data=data.decode('UTF-8')

    '''''print(page_data)'''  
　　

    soup=BeautifulSoup(page_data,"html.parser")

    #连接mysql

    conn = mysql.connector.connect(host='locahost',user='root',password='',database='test')

    cursor = conn.cursor()

    cursor.execute('delete from doubanmovie where 1=1')

    for link in soup.findAll('li',attrs={"data-actors": True}):

        moviename=link['data-title']

        actors = link['data-actors']

        region=link['data-region']

        release=link['data-release']

        duration = link['data-duration']

        director = link['data-director']

        rate = link['data-rate']

        imgsrc =link.img['src']

        cursor.execute("INSERT INTO doubanmovie VALUES ('', %s, %s, %s, %s, %s, %s, %s, %s,now())",[moviename,actors,region,release,duration,director,rate,imgsrc])

        conn.commit()

        print('mysql',cursor.rowcount)

        print(link['data-title'])

        print('演员：',link['data-actors'])

        print(link.img['src'])

    cursor.close()

    conn.close()

#函数调用

getMovieInfo()

更新：基于python3的爬虫教程

两个版本代码区别：

1.在3中，urllib.urlopen变成urllib.request.urlopen,之前的都要加request

2.在3中，print后面要加(),即输出代码：print()

3.在3中，

html = urllib.request.urlopen(url).read()返回的是byte类型，字节码，需要转换成UTF-8，
代码：html = html.decode('utf-8')

#coding=utf-8

import urllib.request

import re

def getHtml(url):

    page = urllib.request.urlopen(url)

    html = page.read()

    html =html.decode('utf-8')

    return html

def getImg(html):

    reg = r'src="(.+?\.jpg)" pic_ext'

    imgre = re.compile(reg)

    imglist = re.findall(imgre,html)

    x = 0

    for imgurl in imglist:

        urllib.request.urlretrieve(imgurl,'%s.jpg' % x)

        x+=1

html = getHtml("http://tieba.baidu.com/p/2460150866")

print (getImg(html))

以下是基于python2的：

把筛选的图片地址通过for循环遍历并保存到本地，代码如下：

#coding=utf-8

import urllib

import re

def getHtml(url):

    page = urllib.urlopen(url)

    html = page.read()

    return html

def getImg(html):

    reg = r'src="(.+?\.jpg)" pic_ext'

    imgre = re.compile(reg)

    imglist = re.findall(imgre,html)

    x = 0

    for imgurl in imglist:

        urllib.urlretrieve(imgurl,'%s.jpg' % x)

        x+=1

html = getHtml("http://tieba.baidu.com/p/2460150866")

print getImg(html)

　　这里的核心是用到了urllib.urlretrieve()方法，直接将远程数据下载到本地。

　我们又创建了getImg()函数，用于在获取的整个页面中筛选需要的图片连接。re模块主要包含了正则表达式：

　　re.compile() 可以把正则表达式编译成一个正则表达式对象.

　　re.findall() 方法读取html 中包含 imgre（正则表达式）的数据。

　　运行脚本将得到整个页面中包含图片的URL地址。

python简易爬虫，帮助理解re模块的更多相关文章

python简易爬虫来实现自动图片下载
菜鸟新人刚刚入住博客园,先发个之前写的简易爬虫的实现吧,水平有限请轻喷. 估计利用python实现爬虫的程序网上已经有太多了,不过新人用来练手学习python确实是个不错的选择.本人借鉴网上的部分实现 ...
爬虫系列1：python简易爬虫分析
决定写一个小的爬虫系列,本文是第一篇,讲爬虫的基本原理和简易示例. 1.单个网页的简易爬虫以下爬虫的主要功能是爬取百度贴吧中某一页面的所有图片.代码由主要有两个函数:其中getHtml()通过页面u ...
python网络爬虫之二requests模块
requests http请求库 requests是基于python内置的urllib3来编写的,它比urllib更加方便,特别是在添加headers, post请求,以及cookies的设置上,处理 ...
Python简易爬虫
经常需要下载论文,每次都需要去网页上搜索,然后点击下载,实在麻烦,正好最近刚入门Python,心血来潮,想着写一个爬虫经过一天查阅资料,基本算是完成了,但是还是不足,比如对知网和万方暂时还不行,但是 ...
Python简易爬虫爬取百度贴吧图片
通过python 来实现这样一个简单的爬虫功能,把我们想要的图片爬取到本地.(Python版本为3.6.0) 一.获取整个页面数据 def getHtml(url): page=urllib.requ ...
Python之爬虫的理解
# -*- coding: utf-8 -*- 中文用户一定先用这行来声明编码方式爬虫: 爬虫是自动访问互联网,并且提取数据的程序 (从网络上获取非结构化的数据,ETL将这些数据转换为结构化数 ...
【Python】Python简易爬虫爬取百度贴吧图片
通过python 来实现这样一个简单的爬虫功能,把我们想要的图片爬取到本地.(Python版本为3.6.0) 一.获取整个页面数据 def getHtml(url): page=urllib.requ ...
python简易爬虫实现
目的:爬取昵称目标网站:糗事百科依赖的库文件:request.sys.beautifulSoup4.imp.io Python使用版本:3.4 说明:参考http://cn.python-requ ...
python网络爬虫之三re正则表达式模块
""" re正则表达式,正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符,及这些特定字符的组合,组成一个"规则字符串",然后用 ...

随机推荐

spring 中bean学习笔记
spring 中bean 一.bean的定义和应用 1. bean 形象上类似于getXX()和setXX()的一种. 2. 由于java是面向对象的,类的方法和属性在使用中需要实例化. 3. 规律: ...
Mac终端给命令设置别名alias的办法
在Mac里使用curl https://www.google.com,运行后得不到期望看到的google首页的HTML source code. vi ~/.bashrc, 输入下面两行内容. 以后每 ...
MINST手写数字识别（二）—— 卷积神经网络（CNN）
今天我们的主角是keras,其简洁性和易用性简直出乎David 9我的预期.大家都知道keras是在TensorFlow上又包装了一层,向简洁易用的深度学习又迈出了坚实的一步. 所以,今天就来带大家写 ...
工程化---cnpm不是内部命令的解决
(1)问题描述安装完,执行cnpm -v发现报出不是内部命令. 安装成功如下图: (2)解决方案: 之前配置过默认安装都会在D:\\nodejs\node_global中,所有我们cd 到这个路径 ...
[Android 测试] 压力稳定性测试之: Monkey 详解分析脚本(转载)
一.什么是稳定性测试? 通过随机点击屏幕一段时间,看看app会不会奔溃,能不能维持正常运行. 二. Money是什么? Monkey测试是Android平台自动化测试的一种手段,通过Monkey程序模 ...
POI读word doc 03 文件的两种方法
Apache poi的hwpf模块是专门用来对word doc文件进行读写操作的.在hwpf里面我们使用HWPFDocument来表示一个word doc文档.在HWPFDocument里面有这么几个 ...
人脸识别源代码Open cv
#include <stdio.h> #include <string.h> #include "cv.h" #include "cvaux.h& ...
iOS开发遇到的坑之四--图片命名不规范
最近上手并主导一个小项目的研发,在开发地图模块的时候,UI切图给我们使用,他给的图片命名是1.1.1.png 1.1.2.png 1.1.3.png 我也没有多看,就直接打包发给小组成员叫他添加到Im ...
【tarjan 拓扑排序 dp】bzoj1093: [ZJOI2007]最大半连通子图
思维难度不大,关键考代码实现能力.一些细节还是很妙的. Description 一个有向图G=(V,E)称为半连通的(Semi-Connected),如果满足:?u,v∈V,满足u→v或v→u,即对于 ...
（42）zabbix使用IT services 了解服务器SLA整体情况
什么是IT Services 服务器或者某项服务.业务的可用率,不懂技术的上级领导会过问最近服务器可用率如何.所有api的状况怎么样? 通常一些技术人员会说负载怎么样,哪些cpu使用率怎么样,硬盘使用 ...

python简易爬虫，帮助理解re模块

python简易爬虫，帮助理解re模块的更多相关文章

随机推荐

热门专题