python爬虫--爬取某网站电影信息并写入mysql数据库

书接上文，前文最后提到将爬取的电影信息写入数据库，以方便查看，今天就具体实现。

首先还是上代码：

# -*- coding:utf-8 -*-

import requests

import re

import mysql.connector

#changepage用来产生不同页数的链接

def changepage(url,total_page):

    page_group = ['https://www.dygod.net/html/gndy/jddy/index.html']

    for i in range(2,total_page+1):

        link = re.sub('jddy/index','jddy/index_'+str(i),url,re.S)

        page_group.append(link)

    return page_group

#pagelink用来产生页面内的视频链接页面

def pagelink(url):

    base_url = 'https://www.dygod.net/html/gndy/jddy/'

    headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.101 Safari/537.36'}

    req = requests.get(url , headers = headers)

    req.encoding = 'gbk'#指定编码，否则会乱码

    pat = re.compile('<a href="/html/gndy/jddy/(.*?)" class="ulink" title=(.*?)/a>',re.S)#获取电影列表网址

    reslist = re.findall(pat, req.text)

    finalurl = []

    for i in range(1,25):

        xurl = reslist[i][0]

        finalurl.append(base_url + xurl)

    return finalurl #返回该页面内所有的视频网页地址

#getdownurl获取页面的视频地址和信息

def getdownurl(url):

    headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.101 Safari/537.36'}

    req = requests.get(url , headers = headers)

    req.encoding = 'gbk'#指定编码，否则会乱码

    pat = re.compile('<a href="ftp(.*?)">ftp',re.S)#获取下载地址

    reslist = re.findall(pat, req.text)

    furl = 'ftp'+reslist[0]

    pat2 = re.compile('<!--Content Start-->(.*?)<!--duguPlayList Start-->',re.S)#获取影片信息

    reslist2 = re.findall(pat2, req.text)

    reslist3 = re.sub('[<p></p>]','',reslist2[0])

    fdetail = reslist3.split('◎')

    return (furl,fdetail)

#创建表movies

def createtable(con,cs):

    #创建movies表，确定其表结构:

    cs.execute('create table if not exists movies (film_addr varchar(1000), cover_pic varchar(1000), name varchar(100) primary key,\

     ori_name varchar(100),prod_year varchar(100), prod_country varchar(100), category varchar(100), language varchar(100), \

     subtitle varchar(100), release_date varchar(100), score varchar(100), file_format varchar(100), video_size varchar(100), \

     file_size varchar(100), film_length varchar(100), director varchar(100), actors varchar(500), profile varchar(2000),capt_pic varchar(1000))')

    # 提交事务:

    con.commit()

#将电影地址和简介插入表中

def inserttable(con,cs,x,y):

    try:

        cs.execute('insert into movies values (%s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s)',\

    (x,y[0],y[1],y[2],y[3],y[4],y[5],y[6],y[7],y[8],y[9],y[10],y[11],y[12],y[13],y[14],y[15],y[16],y[17]))

    except:

        pass

    finally:

        con.commit()

if __name__ == "__main__" :

    html = "https://www.dygod.net/html/gndy/jddy/index.html"

    print('你即将爬取的网站是：https://www.dygod.net/html/gndy/jddy/index.html')

    pages = input('请输入需要爬取的页数：')

    createtable

    p1 = changepage(html,int(pages))

    #打开数据库

    conn = mysql.connector.connect(user='py', password='Unix_1234', database='py_test')

    cursor = conn.cursor()

    createtable(conn,cursor)

    #插入数据

    j = 0

    for p1i in p1 :

        j = j + 1

        print('正在爬取第%d页,网址是 %s ...'%(j,p1i))

        p2 = pagelink(p1i)

        for p2i in p2 :

            p3,p4 = getdownurl(p2i)

            if len(p3) == 0 :

                pass

            else :

                inserttable(conn,cursor,p3,p4)

    #关闭数据库

    cursor.close()

    conn.close()

    print('所有页面地址爬取完毕!')

用到的知识点和前面比，最重要是多了数据库的操作，下面简要介绍下python如何连接数据库。

一、python中使用mysql需要驱动，常用的有官方的mysql-connect-python，还有mysqldb(Python 2.x)和pymysql(Python 3.x)，这几个模块既是驱动，又是工具，可以用来直接操作mysql数据库，也就是说它们是通过在Python中写sql语句来操作的，例如创建user表：

cursor.execute('create table user (id int, name varchar(20))')

#这里的create table语句就是典型的sql语句。

二、还有很多情况下我们用ORM(object relational mapping)即对象映射关系框架，将编程语言的对象模型和数据库的关系模型（RDBMS关系型数据库）进行映射，这样可以直接使用编程语言的对象模型操作数据库，而不是使用sql语言。同样创建user表：

user=Table('user',metadata,
Column('id',Integer),
Column('name', String(20))
)
metadata.create_all()
#这里可以看到根本没有sql语句的影子，这样我们可以专注在Python代码而不是sql代码上了。（注意ORM并不包含驱动，如要使用同样要安装前面提到的驱动）

如有兴趣可以自行学习，这不是本文的重点。为简单起见，文中用的是mysql-connect-python。

正则匹配部分也很简单，因为源网页比较规则，如下网页图和对应的源代码：

直接用◎匹配即可。

程序运行完后，数据都写入movies表中。

比如我想筛选豆瓣评分>7的，

是不是很简单，你GET到了吗？

python爬虫--爬取某网站电影信息并写入mysql数据库的更多相关文章

python爬虫--爬取某网站电影下载地址
前言:因为自己还是python世界的一名小学生,还有很多路要走,所以本文以目的为向导,达到目的即可,对于那些我自己都没弄懂的原理,不做去做过多解释,以免误人子弟,大家可以网上搜索. 友情提示:本代码用 ...
Python爬虫抓取东方财富网股票数据并实现MySQL数据库存储
Python爬虫可以说是好玩又好用了.现想利用Python爬取网页股票数据保存到本地csv数据文件中,同时想把股票数据保存到MySQL数据库中.需求有了,剩下的就是实现了. 在开始之前,保证已经安装好 ...
python爬虫爬取腾讯招聘信息（静态爬虫）
环境: windows7,python3.4 代码:(亲测可正常执行) import requests from bs4 import BeautifulSoup from math import c ...
用Python爬虫爬取广州大学教务系统的成绩（内网访问）
用Python爬虫爬取广州大学教务系统的成绩(内网访问) 在进行爬取前,首先要了解: 1.什么是CSS选择器? 每一条css样式定义由两部分组成,形式如下: [code] 选择器{样式} [/code ...
Python爬虫|爬取喜马拉雅音频
"GOOD Python爬虫|爬取喜马拉雅音频喜马拉雅是知名的专业的音频分享平台,用户规模突破4.8亿,汇集了有声小说,有声读物,儿童睡前故事,相声小品等数亿条音频,成为国内发展最快.规模 ...
Python爬虫爬取一篇韩寒新浪博客
网上看到大神对Python爬虫爬到非常多实用的信息,认为非常厉害.突然对想学Python爬虫,尽管自己没学过Python.但在网上找了一些资料看了一下,看到爬取韩寒新浪博客的视频.共三集,第一节讲爬取 ...
使用Python爬虫爬取网络美女图片
代码地址如下:http://www.demodashi.com/demo/13500.html 准备工作安装python3.6 略安装requests库(用于请求静态页面) pip install ...
python爬虫—爬取英文名以及正则表达式的介绍
python爬虫—爬取英文名以及正则表达式的介绍爬取英文名: 一. 爬虫模块详细设计 (1)整体思路对于本次爬取英文名数据的爬虫实现,我的思路是先将A-Z所有英文名的连接爬取出来,保存在一个cs ...
一个简单的python爬虫,爬取知乎
一个简单的python爬虫,爬取知乎主要实现爬取一个收藏夹里所有问题答案下的图片文字信息暂未收录,可自行实现,比图片更简单具体代码里有详细注释,请自行阅读项目源码: # -*- cod ...

随机推荐

IOLI-crackme0x01-0x05 writeup
上一篇开了个头, 使用Radare2并用3中方法来解决crackme0x00, 由于是第一篇, 所以解释得事无巨细, 今天就稍微加快点步伐, 分析一下另外几个crackme. 如果你忘记了crackm ...
bzoj 4830: [Hnoi2017]抛硬币 [范德蒙德卷积扩展lucas]
4830: [Hnoi2017]抛硬币题意:A投a次硬币,B投b次硬币,a比b正面朝上次数多的方案数,模$10^k$. \(b \le a \le b+10000 \le 10^{15}, k ...
BZOJ 2244: [SDOI2011]拦截导弹 [CDQ分治树状数组]
传送门题意:三维最长不上升子序列以及每个元素出现在最长不上升子序列的概率 $1A$了好开心首先需要从左右各求一遍,长度就是$F[0][i]+F[1][i]-1$,次数就是$G[0][i]*G[1] ...
POJ 1625 Censored! [AC自动机高精度]
Censored! Time Limit: 5000MS Memory Limit: 10000K Total Submissions: 9793 Accepted: 2686 Descrip ...
IntelliJ IDEA使用心得之基础篇
今天和大家分享一个非常好用的Java开发工具-IntelliJ IDEA. 下载地址:https://www.jetbrains.com/idea/ 目录: 1)IntelliJ IDEA使用心得之基 ...
Linux知识体系之磁盘与档案系统管理
硬盘的物理组成:由许许多多的圆形硬盘盘所组成.宜居硬盘盘能够容纳的数据量,而有所谓的单碟或者多碟. 首先,硬盘里一定会有所谓的磁头(Head)在进行该硬盘上面的读写动作,而磁头是固定在机械手臂上的,机 ...
给Linux系统/网络管理员的nmap的29个实用例子
Nmap亦称为Network Mapper(网络映射)是一个开源并且通用的用于Linux系统/网络管理员的工具.nmap用于探查网络.执行安全扫描.网络核查并且在远程机器上找出开放端口.它可以扫描在线 ...
机器学习03：K近邻算法
本文来自同步博客. P.S. 不知道怎么显示数学公式以及排版文章.所以如果觉得文章下面格式乱的话请自行跳转到上述链接.后续我将不再对数学公式进行截图,毕竟行内公式截图的话排版会很乱.看原博客地址会有更 ...
Django开发基础----创建项目/应用
环境: 1.python 3.6.2 2.安装django:pip install django==1.10.3 *下面以开发一个简单的用户签到系统介绍Django的使用创建Django项目: 命 ...
[原创]ubuntu14.04部署ELK+redis日志分析系统
ubuntu14.04部署ELK+redis日志分析系统 [环境] host1:172.17.0.4 搭建ELK+redis服务 host2:172.17.0.3 搭建logstash+nginx服务 ...

python爬虫--爬取某网站电影信息并写入mysql数据库

python爬虫--爬取某网站电影信息并写入mysql数据库的更多相关文章

随机推荐

热门专题