Python3.5爬取豆瓣电视剧数据并且同步到mysql中

#!/usr/local/bin/python

# -*- coding: utf-8 -*-

# Python:                  3.5

# Author:                  zhenghai.zhang@xxx.com

# Program:                 爬取豆瓣网站上所有电视剧的名称并写入数据库。

# Version:                 0.1

# History:                 2017.11.01

import requests,time, pymysql, re, datetime, json

from exchangelib import DELEGATE, Account, Credentials, Message, Mailbox, HTMLBody

host = 'xxx'

user = 'xxx'

passwd = 'xxx'

dbme = 'crawl'

dbtarget = 'back_brace'

table = 'tv_hotwords'

tabledelta = 'tv_hotwords_delta'

tablesync = 'slot_value'

port = 3306

tolist = ['zhenghai.zhang@xxx.com']

def get_tvs(urlbase, page):

    try:

        url = urlbase + str(page)

        print(url)

        try:

            result = requests.get(url).text

            jresult = json.loads(result)

            tvs = jresult.get('subjects')

        except:

            print('爬取' + urlbase + str(page) + '失败！')

        time.sleep(2)

        return tvs

    except:

        print('获取第%s页电影列表失败' % page)

def tv_insert(host, user, passwd, dbme, port, table, tvs_list):

    conn = pymysql.connect(host=host, user=user, passwd=passwd, db=dbme, port=port, charset="utf8")

    cur = conn.cursor()

    new_tvs = []

    punc = "！？｡＂＃＄％＆＇（）＊＋，－／：；＜＝＞＠［＼］＾＿｀｛｜｝～｟｠｢｣､、〃》「」『』【】〔〕〖〗〘〙〚〛〜〝〞〟〰〾〿–—‘’‛“”„‟…‧﹏.():：。· "

    punctuation = punc

    for tv in tvs_list:

        try:

            tv['title'] = re.sub(r"[%s]+" % punctuation, "", tv.get('title'))

            cmd = 'insert into %s(tv_id, tv_name) values("%s", "%s")' % (

                table, tv.get('id'), tv.get('title'))

            cur.execute(cmd)

            new_tvs.append(tv)

        except:

            print(" " * 20, tv.get('title'), "already exists, skip……")

    cur.close()

    conn.commit()

    conn.close()

    return new_tvs

def tv_new_and_sync(host, user, passwd, dbme, dbtarget, port, tabledelta, tvs_list, tablesync):

    conn = pymysql.connect(host=host, user=user, passwd=passwd, db=dbme, port=port, charset="utf8")

    cur = conn.cursor()

    cur.execute("delete from %s " % dbme+"."+tabledelta)

    for tv in tvs_list:

        try:

            cmd = 'insert into %s(tv_id, tv_name) values("%s", "%s")' % (tabledelta, tv['id'], tv['title'])

            cmdsync = 'insert into %s(slot_type_id, slot_value, create_by, modify_by, gmt_create, gmt_modify, out_value) values("%s", "%s", "%s", "%s", "%s", "%s", "%s")' % (dbtarget+"."+tablesync, "xxxxxx", tv['title'], "system", "system", datetime.datetime.now().strftime("%Y-%m-%d %H:%M:%S"), datetime.datetime.now().strftime("%Y-%m-%d %H:%M:%S"), "")

            cur.execute(cmd)

            cur.execute(cmdsync)

        except pymysql.Error:

            print(" " * 20, tv['title'], "already exists, skip……")

    cur.close()

    conn.commit()

    conn.close()

def tv_new_to_release(host, user, passwd, dbtarget, port):

    conn = pymysql.connect(host=host, user=user, passwd=passwd, db=dbtarget, port=port, charset="utf8")

    cur = conn.cursor()

    try:

        cmdbacktoskill = 'insert into back_brace.release_task(app_type,app_status,type,ref_id,status,register_id,create_by,modify_by,gmt_create,gmt_modify) values("BACKBRACE","testpass","SLOT","xxxxxx","init","SLOT_BACKBRACE_TESTPASS" ,"zhenghai.zhang","zhenghai.zhang","%s","%s")' % (datetime.datetime.now().strftime("%Y-%m-%d %H:%M:%S"), datetime.datetime.now().strftime("%Y-%m-%d %H:%M:%S"))

        cmdskilltoskillpro = 'insert into back_brace.release_task(app_type,app_status,type,ref_id,status,register_id,create_by,modify_by,gmt_create,gmt_modify) values("SKILL","deploy","SLOT","xxxxxx","init","SLOT_SKILL_DEPLOY" ,"zhenghai.zhang","zhenghai.zhang","%s","%s")' % (datetime.datetime.now().strftime("%Y-%m-%d %H:%M:%S"), datetime.datetime.now().strftime("%Y-%m-%d %H:%M:%S"))

        print(cmdbacktoskill)

        cur.execute(cmdbacktoskill)

        print(cmdskilltoskillpro)

        cur.execute(cmdskilltoskillpro)

    except pymysql.Error:

        print("write into back_brace.release_task error!!!")

    cur.close()

    conn.commit()

    conn.close()

def Email(to, subject, body):

    creds = Credentials(

        username='xxxxxx',

        password='xxxxxx')

    account = Account(

        primary_smtp_address='xxx@xxx.com',

        credentials=creds,

        autodiscover=True,

        access_type=DELEGATE)

    m = Message(

        account=account,

        subject=subject,

        body=HTMLBody(body),

        to_recipients=[Mailbox(email_address=to)])

    m.send_and_save()

if __name__ == '__main__':

    update_tvs = []

    pages = 25 # 豆瓣每项电视剧只有前500部

    # 美剧 英剧 韩剧 日剧 国产剧 港剧 日本动画 综艺

    urlbaselist = ['https://movie.douban.com/j/search_subjects?type=tv&tag=%E7%BE%8E%E5%89%A7&sort=recommend&page_limit=20&page_start=',

                       'https://movie.douban.com/j/search_subjects?type=tv&tag=%E8%8B%B1%E5%89%A7&sort=recommend&page_limit=20&page_start=',

                       'https://movie.douban.com/j/search_subjects?type=tv&tag=%E9%9F%A9%E5%89%A7&sort=recommend&page_limit=20&page_start=',

                       'https://movie.douban.com/j/search_subjects?type=tv&tag=%E6%97%A5%E5%89%A7&sort=recommend&page_limit=20&page_start=',

                       'https://movie.douban.com/j/search_subjects?type=tv&tag=%E5%9B%BD%E4%BA%A7%E5%89%A7&sort=recommend&page_limit=20&page_start=',

                       'https://movie.douban.com/j/search_subjects?type=tv&tag=%E6%B8%AF%E5%89%A7&sort=recommend&page_limit=20&page_start=',

                       'https://movie.douban.com/j/search_subjects?type=tv&tag=%E6%97%A5%E6%9C%AC%E5%8A%A8%E7%94%BB&sort=recommend&page_limit=20&page_start=',

                       'https://movie.douban.com/j/search_subjects?type=tv&tag=%E7%BB%BC%E8%89%BA&sort=recommend&page_limit=20&page_start=']

    for urlbase in urlbaselist:

        for i in range(pages):

            print("*"*30, i, "*"*30)

            tvs_list = get_tvs(urlbase, i * 20)

            new_tvs = tv_insert(host, user, passwd, dbme, port, table, tvs_list)

            for tv in new_tvs:

                print(tv['title'],"Added")

                onetv = {}

                onetv["id"] = tv["id"]

                onetv["title"] = tv["title"]

                update_tvs.append(onetv)

            time.sleep(1)

        print(update_tvs)

        try:

            tv_new_and_sync(host, user, passwd, dbme, dbtarget, port, tabledelta, update_tvs, tablesync)  # 将增加的电影写入movie_hotwords_delta表中

        except:

            print("tv update and sync Error!")

    try:

        tv_new_to_release(host, user, passwd, dbtarget, port)

    except:

        print("tv_new_to_release error!!!")

    subject = '本次新增电视剧名称'

    body = "本次新增的电影名称为：<hr>"

    for movie in update_tvs:

        body += movie['title'] + "<br>"

    for to in tolist:

        Email(to, subject, body)

还请各位大侠指点

Python3.5爬取豆瓣电视剧数据并且同步到mysql中的更多相关文章

Python3.5爬取cbooo.cn数据并且同步到mysql中
#!/usr/local/bin/python # -*- coding: utf-8 -*- # Python: 3.5 # Author: wucl(),zhenghai.zhang # Prog ...
Scrapy 通过登录的方式爬取豆瓣影评数据
Scrapy 通过登录的方式爬取豆瓣影评数据爬虫 Scrapy 豆瓣 Fly 由于需要爬取影评数据在来做分析,就选择了豆瓣影评来抓取数据,工具使用的是Scrapy工具来实现.scrapy工具使用起来 ...
【python数据挖掘】爬取豆瓣影评数据
概述: 爬取豆瓣影评数据步骤: 1.获取网页请求 2.解析获取的网页 3.提速数据 4.保存文件源代码: # 1.导入需要的库 import urllib.request from bs4 impo ...
python系列之（3）爬取豆瓣图书数据
上次介绍了beautifulsoup的使用,那就来进行运用下吧.本篇将主要介绍通过爬取豆瓣图书的信息,存储到sqlite数据库进行分析. 1.sqlite SQLite是一个进程内的库,实现了自给自足 ...
python爬虫-爬取豆瓣电影数据
#!/usr/bin/python# coding=utf-8# 作者 :Y0010026# 创建时间 :2018/12/16 16:27# 文件 :spider_05.py# IDE :PyChar ...
node 爬虫 --- 将爬取到的数据，保存到 mysql 数据库中
步骤一:安装必要模块 (1)cheerio模块 ,一个类似jQuery的选择器模块,分析HTML利器. (2)request模块,让http请求变的更加简单 (3)mysql模块,node连接mysq ...
利用selenium 爬取豆瓣武林外传数据并且完成数据可视化情绪分析
全文的步骤可以大概分为几步: 一:数据获取,利用selenium+多进程(linux上selenium 多进程可能会有问题)+kafka写数据(linux首选必选耦合)windows直接采用的是写my ...
Scrapy爬取豆瓣图书数据并写入MySQL
项目地址 BookSpider 介绍本篇涉及的内容主要是获取分类下的所有图书数据,并写入MySQL 准备 Python3.6.Scrapy.Twisted.MySQLdb等演示代码一.创建项目 ...
python3 爬虫---爬取豆瓣电影TOP250
第一次爬取的网站就是豆瓣电影 Top 250,网址是:https://movie.douban.com/top250?start=0&filter= 分析网址'?'符号后的参数,第一个参数's ...

随机推荐

linux shell 脚本攻略学习9--rename命令详解
rename命令详解: 对文件重命名是常用的操作之一,一般对单个文件的重命名用mv命令,如: amosli@amosli-pc:~/learn/example$ ls abc.txt amosli@a ...
【LeetCode】211. Add and Search Word - Data structure design
Add and Search Word - Data structure design Design a data structure that supports the following two ...
permission denied (publickey)问题的解决和向github添加ssh key
使用ssh key这种方式进行clone ,pull github上面的项目,使用 git clone或者git pull origin master出现permission denied (publ ...
【java】break outer,continue outer的使用
break默认是结束当前循环,有时我们在使用循环时,想通过内层循环里的语句直接跳出外层循环,java提供了使用break直接跳出外层循环,此时需要在break后通过标签指定外层循环.java中的标签是 ...
Mac Vim 编辑器
1.常用命令 /xxx 查找xxx n 执行上一次查找 0 到行首 w 光标往后移动一个词 b 光标往前移动一个词 x 删除当前一个字符 dw 删除一个单词 D 删除到行尾 dd 删除整行 V 选中整 ...
【Algorithm】自顶向下的归并排序
一. 算法描述自顶向下的归并排序:采用分治法进行自顶向下的程序设计方式,分治法的核心思想就是分解.求解.合并. 先将长度为N的无序序列分割平均分割为两段然后分别对前半段进行归并排序.后半段进行归并 ...
numpy 数组创建例程
1 numpy.empty empty(shape[, dtype=float, order='C']) 创建指定 shape 和dtype 的未初始化数组返回:ndarray. 说明:order ...
Android 热修复 Tinker接入及源码浅析
一.概述放了一个大长假,happy,先祝大家2017年笑口常开. 假期中一行代码没写,但是想着马上要上班了,赶紧写篇博客回顾下技能,于是便有了本文. 热修复这项技术,基本上已经成为项目比较重要的模块 ...
Java 9 揭秘（1. 入门介绍）
文 by / 林本托在第一部分中,主要讲解如下内容: JDK 9 包含了哪些内容运行代码的系统要求如何安装 NetBeans 1 JDK 介绍 JDK 9是Java开发工具包的第九个主要版本,计 ...
Android自带的TTS功能
在Android1.6之后添加了TextToSpeech,也叫TTS,把相应的文字转化成语音播报,增强了用户体验.可以根据语言播报界面上的控件如下: 可以选择的语言但有的语言不支持,比如中文就不支 ...

Python3.5爬取豆瓣电视剧数据并且同步到mysql中

Python3.5爬取豆瓣电视剧数据并且同步到mysql中的更多相关文章

随机推荐

热门专题