python 爬虫之requests+日志+配置文件读取+mysql入库

#!/usr/bin/env python

# -*- coding: utf-8 -*-


# 日志管理

import logging

import sys

reload(sys)

sys.setdefaultencoding('utf-8')

def getlogger(logName, logFile):

    logger=logging.getLogger(logName)

    logger.setLevel(logging.DEBUG)

    screenHandle = logging.StreamHandler()

    screenHandle.setLevel(logging.DEBUG)

    fileHandle = logging.FileHandler(logFile,'a')

    fileHandle.setLevel(logging.DEBUG)

    formatter = logging.Formatter('%(asctime)s - %(name)s - %(levelname)s - %(message)s')

    screenHandle.setFormatter(formatter)

    fileHandle.setFormatter(formatter)

    logger.addHandler(fileHandle)

    logger.addHandler(screenHandle)

    return logger

mysql.conf

[mysql]
user=你的root
password=你的password
database=你的database
host=localhost
port =3306

requests_to_mysql.py

#!/usr/bin/env python

# -*- coding: utf-8 -*-

import ConfigParser

import json

import random

import sys

import time

import pymysql

import requests

import log_config

import datetime

logger = log_config.getlogger('reference_mysql', 'reference_mysql.log')

conf = ConfigParser.ConfigParser()

conf.read("mysql.conf")

user = conf.get("mysql", "user")

password = conf.get("mysql", "password")

database = conf.get("mysql", "database")

host = conf.get("mysql", "host")

port = conf.get("mysql", "port")

siteURL = '你要爬取得请求'

fileurl = '可能爬取路径需要拼接的域名'

headers = {'Host': '爬取网站的域名',

           'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko)'

                         ' Chrome/53.0.2785.104 Safari/537.36 Core/1.53.3103.400 QQBrowser/9.6.11372.400'}

#你爬取的网站可能有很多层条件去过滤，所以你都需要列举处理，一般也包括时间段

cate_dict = {'key':'value'}

moudue_dict = {'key': 'value'}

industry_dict = {'key':'value'}

date_list = ['2018-10-10']

date = time.strftime('%Y-%m-%d', time.localtime(time.time()))

logger.info("start get %s data" % date)

# 启动参数决定是否爬取今天的还是所有的历史数据sys.argv为list,启动不带参数sys.argv[0]默认为当前文件所在位置

if len(sys.argv) != 1:

    if sys.argv[1] == 'all':

        date = ''

    else:

        logger.info('input error,please input all')

        exit()

# 获取总页数

def get_page(dates, category, mod, industry):

    data = {'seDate': dates,

            'pageNum': 1,

            'pageSize': 30,

            'category': cate_dict[category],

            'column': 'szse',

            'plate': mod,

            'tabName': 'fulltext',

            'trade': industry}

    req = requests.post(siteURL, headers=headers, data=data)

    content = req.text

    content = json.loads(content)

    # filelist = content['announcements']

    filesum = content['totalAnnouncement']

    # print filesum

    if filesum != 0:

        if filesum % 30 == 0:

            pages = filesum / 30

        else:

            pages = filesum / 30 + 1

        return pages

    else:

        return 0

# 获取一页数据

def get_page_data(dates, category, page, module_type, industry):

    # 当前时间必须通过下面方式获取，否者mysql datetime类型不能接受该参数

    now_date = datetime.datetime.now().strftime("%Y-%m-%d %H:%M:%S")

    data = {'seDate': dates,

            'pageNum': page,

            'pageSize': 30,

            'category': cate_dict[category],

            'column': 'szse',

            'plate': module_type,

            'tabName': 'fulltext',

            'trade': industry}

    logger.info("getting page %s" % str(page))

    retries = 0

    content = ""

    while retries < 3:

        try:

            req = requests.post(siteURL, headers=headers, data=data)

            content = req.text

            break

        except Exception as e:

            logger.error("get data failed", e)

            retries += 1

            logger.info('req error retry %s ' % retries)

            # logger.info('req error retry %s '%retries)

            t = random.uniform(1, 2)

            time.sleep(t)

    try:

        content = json.loads(content)

        filelist = content['announcements']

        logger.info("filelist=%s" % len(filelist))

        page_datas = []

        for fileone in filelist:

            # 文件处理状态,mysql中的

            pro_status = 0

            # java中解析url重试次数，这里不用管，默认设为0

            retry_count = 0

            sec_code = fileone['secCode']

            sec_name = fileone['secName']

            announcement_title = fileone['announcementTitle']

            announcement_time = fileone['announcementTime']

            public_time = date_long_to_str(announcement_time)

            adjunct_url = fileurl + fileone['adjunctUrl']

            page_data = [category, cate_dict[category], industry_dict[industry], module_type, public_time, public_time,

                         sec_code, sec_name, announcement_title, adjunct_url, pro_status, retry_count,

                         now_date, now_date]

            page_datas.append(page_data)

        if len(page_datas) > 0:

            set_data_mysql(page_datas)

    except Exception as e:

        logger.error(

            'get this page detail error... [cat:' + category + '  industry:' + industry + ''

            '  module_type:' + module_type + '  date:' + dates + ']', e)

# 批量插入mysql

def set_data_mysql(page_datas):

    # 创建连接

    conn = pymysql.connect(host=host, port=int(port), user=user, passwd=password, db=database)

    # 创建游标

    cursor = conn.cursor()

    sql = "INSERT INTO test(这里有14个字段) values(%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s)"

    effect_row = cursor.executemany(sql, page_datas)

    # 提交sql，不提交不会进入mysql

    conn.commit()

    logger.info("already into dabatabase %s" % effect_row)

    # # 下面两行是单行插入

    # # listOne = ('年度报告', 'category_ndbg_szsh;', dt)

    # # effect_row = cursor.execute(sql, listOne)

    # conn.commit() #需要提交来进入数据库

    # print effect_row

# long转str类型时间1539187200000  1539001526000->2018-10-08 20:25:26

def date_long_to_str(long_date):

    if long_date == "" or long_date == 0:

        return datetime.datetime.now().strftime("%Y-%m-%d %H:%M:%S")

    fommat_time = time.localtime(long(long_date)/1000)

    time_str = time.strftime("%Y-%m-%d %H:%M:%S", fommat_time)

    return time_str

# 全局循环爬取

def collect_cate():

    if date == '':

        for seDate in date_list:

            for mod in moudue_dict:

                for category in cate_dict:

                    for industry in industry_dict:

                        #logger.info("category=%s, mod=%s, industry=%s" % (category, mod, industry))

                        pages = get_page(seDate, category, moudue_dict[mod], industry)

                        #logger.info("pages = %s" % pages)

                        for page in range(1, pages + 1):

                            get_page_data(seDate, category, page, moudue_dict[mod], industry)

    else:

        for mod in moudue_dict:

            for category in cate_dict:

                for industry in industry_dict:

                    #logger.info("category = %s, mod=%s, industry=%s" % (category, mod, industry))

                    pages = get_page(date, category, moudue_dict[mod], industry)

                    #logger.info("pages = %s" % pages)

                    if 0 != pages:

                        for page in range(1, pages + 1):

                            get_page_data(date, category, page, moudue_dict[mod], industry)

if __name__ == "__main__":

    collect_cate()

python 爬虫之requests+日志+配置文件读取+mysql入库的更多相关文章

Python爬虫练习(requests模块)
Python爬虫练习(requests模块) 关注公众号"轻松学编程"了解更多. 一.使用正则表达式解析页面和提取数据 1.爬取动态数据(js格式) 爬取http://fund.e ...
孤荷凌寒自学python第六十七天初步了解Python爬虫初识requests模块
孤荷凌寒自学python第六十七天初步了解Python爬虫初识requests模块 (完整学习过程屏幕记录视频地址在文末) 从今天起开始正式学习Python的爬虫. 今天已经初步了解了两个主要的模块: ...
python爬虫之requests库
在python爬虫中,要想获取url的原网页,就要用到众所周知的强大好用的requests库,在2018年python文档年度总结中,requests库使用率排行第一,接下来就开始简单的使用reque ...
日志配置文件读取spring boot配置文件中的属性
如果是读取 application.properties 这种spring boot的默认配置文件时其中 scope固定为context 指明从上下文中获取, name 根据自己的意思给, sou ...
Python爬虫之requests
爬虫之requests 库的基本用法基本请求: requests库提供了http所有的基本请求方式.例如 r = requests.post("http://httpbin.org/pos ...
Python爬虫之requests库的使用
requests库虽然Python的标准库中 urllib模块已经包含了平常我们使用的大多数功能,但是它的 API 使用起来让人感觉不太好,而 Requests宣传是 "HTTP for ...
Python爬虫【requests】request for humans
安装 pip install requests 源码 git clone git://github.com/kennethreitz/requests.git 导入 import requests 发 ...
Python 爬虫二 requests模块
requests模块 Requests模块 get方法请求整体演示一下: import requests response = requests.get("https://www.baid ...
python爬虫之requests库介绍(二)
一.requests基于cookie操作引言:有些时候,我们在使用爬虫程序去爬取一些用户相关信息的数据(爬取张三“人人网”个人主页数据)时,如果使用之前requests模块常规操作时,往往达不到我们 ...

随机推荐

ACM学习历程—2016"百度之星" - 资格赛（Astar Round1）
http://bestcoder.hdu.edu.cn/contests/contest_show.php?cid=690 A题: 给定字符串,求任意区间的Hash值. 根据题目给定的Hash方式,属 ...
横向排列两个多个div盒子的方法(CSS浮动清除float-clear/inline)/办法
最近在做一个div css切割,昨晚发现了长期以来一直无记录下来的问题!关于兼容IE跟FF的float属性.趁现在还清醒赶紧记下笔记先:一.并排在一行的两个div样式有这种情况:ie或者ff下对于子d ...
手机访问PC网站自动跳转到手机网站代码（转）
4G时代,手机网站已经非常普遍了,一般手机网站都有一个二级域名来访问,比如 m.16css.com 如果手机直接访问www.16css.com 就是PC网站,在手机上浏览电脑版网站体验非常不好. 如果 ...
BZOJ4303：数列
浅谈\(K-D\) \(Tree\):https://www.cnblogs.com/AKMer/p/10387266.html 题目传送门:https://lydsy.com/JudgeOnline ...
CF 19E Fairy——树上差分
题目:http://codeforces.com/contest/19/problem/E 去掉一条边,使无向图变成二分图. 该边应该被所有奇环经过,且不被偶环经过. 因为一条非树边一定只在一个环里. ...
Filebeat 5.x 日志收集器安装和配置
Filebeat 5.x版本风来了.fox 1.下载和安装 https://www.elastic.co/downloads/beats/filebeat 这里选择 LINUX 64-BIT 即方式 ...
机器学习：数据归一化（Scaler）
数据归一化(Feature Scaling) 一.为什么要进行数据归一化原则:样本的所有特征,在特征空间中,对样本的距离产生的影响是同级的: 问题:特征数字化后,由于取值大小不同,造成特征空间中样本 ...
问题：只能在执行 Render() 的过程中调用 RegisterForEventValidation；结果：只能在执行 Render() 的过程中调用 RegisterForEventValidation
只能在执行 Render() 的过程中调用 RegisterForEventValidation 当在导出Execl或Word的时候,会发生只能在执行 Render() 的过程中调用 Register ...
canvas,绘制七巧板
<!DOCTYPE html> <html> <head> <meta charset="UTF-8"> <title> ...
Maven构建war项目添加版本号
上午接到一个新的需求,项目的war包打包之后,放在了阿里的OSS上,供其他项目下载更新时使用,但是只有一个项目名,也就是pom的artifactId,预期的结果是要加上一个版本号,能区分出是什么时候打 ...

python 爬虫之requests+日志+配置文件读取+mysql入库

python 爬虫之requests+日志+配置文件读取+mysql入库的更多相关文章

随机推荐

热门专题