Python3.5爬取cbooo.cn数据并且同步到mysql中

#!/usr/local/bin/python

# -*- coding: utf-8 -*-

# Python:                  3.5

# Author:                  wucl(),zhenghai.zhang

# Program:                 爬取CBO网站上所有电影的名称并写入数据库。

# Version:                 0.1

# History:                 2017.10.25

import requests,time, pymysql, re, datetime

from exchangelib import DELEGATE, Account, Credentials, Message, Mailbox, HTMLBody

host = 'xxx'

user = 'xxx'

passwd = 'xxx'

dbme = 'crawl'

dbtarget = 'back_brace'

table = 'movie_hotwords'

tabledelta = 'movie_hotwords_delta'

tablesync = 'slot_value'

port = 3306

tolist = ['xxx@xxx.com']

def get_info():

    try:

        url = 'http://www.cbooo.cn/Mdata/getMdata_movie?area=50&type=0&year=0&initial=%E5%85%A8%E9%83%A8&pIndex=1'

        pData = requests.get(url).json()

        return pData['tPage'], pData['tCount']

    except:

        print("获取总页数和总电影数失败")

def get_movies(page):

    try:

        url = 'http://www.cbooo.cn/Mdata/getMdata_movie?area=50&type=0&year=0&initial=%E5%85%A8%E9%83%A8&pIndex=' + str(page)

        pData = requests.get(url).json()

        movies_list = pData['pData']

        return movies_list

    except:

        print('获取第%s页电影列表失败' % page)

def Movie_insert(host, user, passwd, dbme, port, table, movies_list):

    conn=pymysql.connect(host=host, user=user, passwd=passwd, db=dbme, port=port, charset="utf8")

    cur=conn.cursor()

    new_movies = []

    punc = "！？｡＂＃＄％＆＇（）＊＋，－／：；＜＝＞＠［＼］＾＿｀｛｜｝～｟｠｢｣､、〃》「」『』【】〔〕〖〗〘〙〚〛〜〝〞〟〰〾〿–—‘’‛“”„‟…‧﹏.():：。·"

    punctuation = punc

    for movie in movies_list:

        try:

            movie['MovieName'] = re.sub(r"[%s]+" % punctuation, "", movie["MovieName"])

            cmd = 'insert into %s(movie_id, movie_name) values("%s", "%s")' % (table, movie['ID'], movie['MovieName'])

            cur.execute(cmd)

            new_movies.append(movie)

        except pymysql.Error:

            print(" "*20, movie['MovieName'], "already exists, skip……")

    cur.close()

    conn.commit()

    conn.close()

    return new_movies

def Movie_new_and_sync(host, user, passwd, dbme, dbtarget, port, tabledelta, movies_list, tablesync):

    conn = pymysql.connect(host=host, user=user, passwd=passwd, db=dbme, port=port, charset="utf8")

    cur = conn.cursor()

    cur.execute("delete from %s " % dbme+"."+tabledelta)

    for movie in movies_list:

        try:

            cmd = 'insert into %s(movie_id, movie_name) values("%s", "%s")' % (tabledelta, movie['ID'], movie['MovieName'])

            cmdsync = 'insert into %s(slot_type_id, slot_value, create_by, modify_by, gmt_create, gmt_modify, out_value) values("%s", "%s", "%s", "%s", "%s", "%s", "%s")' % (dbtarget+"."+tablesync, "xxxxxx", movie['MovieName'], "system", "system", datetime.datetime.now().strftime("%Y-%m-%d %H:%M:%S"), datetime.datetime.now().strftime("%Y-%m-%d %H:%M:%S"),"")

            cur.execute(cmd)

            cur.execute(cmdsync)

        except pymysql.Error:

            print(" " * 20, movie['MovieName'], "already exists, skip……")

    try:

        cmdbacktoskill = 'insert into back_brace.release_task(app_type,app_status,type,ref_id,status,register_id,create_by,modify_by,gmt_create,gmt_modify) values("BACKBRACE","testpass","SLOT","xxxxxx","init","SLOT_BACKBRACE_TESTPASS" ,"zhenghai.zhang","zhenghai.zhang","%s","%s")' % (datetime.datetime.now().strftime("%Y-%m-%d %H:%M:%S"), datetime.datetime.now().strftime("%Y-%m-%d %H:%M:%S"))

        cmdskilltoskillpro = 'insert into back_brace.release_task(app_type,app_status,type,ref_id,status,register_id,create_by,modify_by,gmt_create,gmt_modify) values("SKILL","deploy","SLOT","xxxxxx","init","SLOT_SKILL_DEPLOY" ,"zhenghai.zhang","zhenghai.zhang","%s","%s")' % (datetime.datetime.now().strftime("%Y-%m-%d %H:%M:%S"), datetime.datetime.now().strftime("%Y-%m-%d %H:%M:%S"))

        print(cmdbacktoskill)

        cur.execute(cmdbacktoskill)

        print(cmdskilltoskillpro)

        cur.execute(cmdskilltoskillpro)

    except pymysql.Error:

        print("write into back_brace.release_task error!!!")

    cur.close()

    conn.commit()

    conn.close()

def Email(to, subject, body):

    creds = Credentials(

        username='xxxxxx',

        password='xxxxxx')

    account = Account(

        primary_smtp_address='xxx@xxx.com',

        credentials=creds,

        autodiscover=True,

        access_type=DELEGATE)

    m = Message(

        account=account,

        subject=subject,

        body=HTMLBody(body),

        to_recipients=[Mailbox(email_address=to)])

    m.send_and_save()

if __name__ == '__main__':

    update_movies = []

    pages, counts = get_info()

    pages = 1

    for i in range(1,pages + 1):

        print("*"*30,i,"*"*30)

        movies_list = get_movies(i)

        new_movies = Movie_insert(host, user, passwd, dbme, port, table, movies_list)

        for new_movie in new_movies:

            print(new_movie['MovieName'],"Added")

            onemovie = {}

            onemovie["ID"] = new_movie["ID"]

            onemovie["MovieName"] = new_movie["MovieName"]

            update_movies.append(onemovie)

        time.sleep(1)

    print(update_movies)

    try:

        Movie_new_and_sync(host, user, passwd, dbme, dbtarget, port, tabledelta, update_movies, tablesync)  # 将增加的电影写入movie_hotwords_delta表中

    except:

        print("Movie update and sync Error!")

    subject = '本次新增电影名称'

    body = "本次新增的电影名称为：<hr>"

    for movie in update_movies:

        body += movie["MovieName"] + "<br>"

    for to in tolist:

        Email(to, subject, body)

欢迎大侠指点

Python3.5爬取cbooo.cn数据并且同步到mysql中的更多相关文章

Python3.5爬取豆瓣电视剧数据并且同步到mysql中
#!/usr/local/bin/python # -*- coding: utf-8 -*- # Python: 3.5 # Author: zhenghai.zhang@xxx.com # Pro ...
node 爬虫 --- 将爬取到的数据，保存到 mysql 数据库中
步骤一:安装必要模块 (1)cheerio模块 ,一个类似jQuery的选择器模块,分析HTML利器. (2)request模块,让http请求变的更加简单 (3)mysql模块,node连接mysq ...
Python爬取新浪微博评论数据，写入csv文件中
因为新浪微博网页版爬虫比较困难,故采取用手机网页端爬取的方式操作步骤如下: 1. 网页版登陆新浪微博 2.打开m.weibo.cn 3.查找自己感兴趣的话题,获取对应的数据接口链接 4.获取cook ...
一个简易的Python爬虫，将爬取到的数据写入txt文档中
代码如下: import requests import re import os #url url = "http://wiki.akbfun48.com/index.php?title= ...
Python3从零开始爬取今日头条的新闻【三、滚动到底自动加载】
Python3从零开始爬取今日头条的新闻[一.开发环境搭建] Python3从零开始爬取今日头条的新闻[二.首页热点新闻抓取] Python3从零开始爬取今日头条的新闻[三.滚动到底自动加载] Pyt ...
Python3：爬取新浪、网易、今日头条、UC四大网站新闻标题及内容
Python3:爬取新浪.网易.今日头条.UC四大网站新闻标题及内容以爬取相应网站的社会新闻内容为例: 一.新浪: 新浪网的新闻比较好爬取,我是用BeautifulSoup直接解析的,它并没有使用J ...
吴裕雄--天生自然python数据清洗与数据可视化：MYSQL、MongoDB数据库连接与查询、爬取天猫连衣裙数据保存到MongoDB
本博文使用的数据库是MySQL和MongoDB数据库.安装MySQL可以参照我的这篇博文:https://www.cnblogs.com/tszr/p/12112777.html 其中操作Mysql使 ...
Python爬取招聘网站数据，给学习、求职一点参考
1.项目背景随着科技的飞速发展,数据呈现爆发式的增长,任何人都摆脱不了与数据打交道,社会对于“数据”方面的人才需求也在不断增大.因此了解当下企业究竟需要招聘什么样的人才?需要什么样的技能?不管是对于 ...
Java爬取同花顺股票数据（附源码）
最近有小伙伴问我能不能抓取同花顺的数据,最近股票行情还不错,想把数据抓下来自己分析分析.我大A股,大家都知道的,一个概念火了,相应的股票就都大涨. 如果能及时获取股票涨跌信息,那就能在刚开始火起来的时 ...

随机推荐

使用Thrift让Python为Java提供服务
Thrift是基于TCP的,谷歌的GRPC是基于HTTP的.Thrift和GRPC都是比直接写个web接口进行调用更完美的方式,最明显的一点就是:我们可以定义结构体,避免了手动解析的过程. 但是,在将 ...
聊聊阻塞与非阻塞、同步与异步、I/O模型
1. 概念理解在进行网络编程时,我们常常见到同步(Sync)/异步(Async),阻塞(Block)/非阻塞(Unblock)四种调用方式: 同步/异步主要针对C端: 同步: 所谓同步,就是在c端 ...
nginx配置文件结构，语法，配置命令解释
摘要: nginx的配置文件类似于一门优雅的编程语言,弄懂了它的规范就可以自定义配置文件了,这个很重要~ 1,结构分析 nginx配置文件中主要包括六块:main,events,http,server ...
【java】break outer,continue outer的使用
break默认是结束当前循环,有时我们在使用循环时,想通过内层循环里的语句直接跳出外层循环,java提供了使用break直接跳出外层循环,此时需要在break后通过标签指定外层循环.java中的标签是 ...
java反射之获取枚举对象
项目中导入大量枚举对象,用来定义常量.随着带来一个问题,就是每个枚举类都需要通过key来获取对应枚举的需求. public enum ExamType { CRAFT(1, "草稿" ...
ASP.NET 的ClientIDMode属性
在ASP.NET 4.0之前我们总是要为控件的ClientID头疼,比如明明一个叫lblName的Label放在一个叫做grd的GridView里面后,在页面上改Label的ID就变成了诸如grd_c ...
LICEcap 录制Gif动画
使用能录制Gif动画
MySQL -- 内存使用监控详解
问题: 1.我们怎么确定MySQL的各个部分分别使用了多少内存? 2.当有MySQL由于内存泄露引起OOM时.我们怎么提前发现? 怎么监控MySQL内存使用: 答案是通过performance_sch ...
Mac笔记本安装mysql
在浏览器当中输入地址:dev.mysql.com/downloads/mysql/,如下图所示: 进入以下界面,直接点击下面位置 ,选择跳过登录,点过这后直接下载,如下图所示: 下载完成后, ...
supervisor 安装脚本
mkdir /data/tools && cd /data/tools wget --no-check-certificate https://bootstrap.pypa.io/ez ...

Python3.5爬取cbooo.cn数据并且同步到mysql中

Python3.5爬取cbooo.cn数据并且同步到mysql中的更多相关文章

随机推荐

热门专题