Python 爬取bangumi网页信息

1.数据库连接池

#######db.py##########

import time

import pymysql

import threading

from DBUtils.PooledDB import PooledDB, SharedDBConnection

POOL = PooledDB(

    creator=pymysql,  # 使用链接数据库的模块

    maxconnections=6,  # 连接池允许的最大连接数，0和None表示不限制连接数

    mincached=2,  # 初始化时，链接池中至少创建的空闲的链接，0表示不创建

    maxcached=5,  # 链接池中最多闲置的链接，0和None不限制

    maxshared=3,  # 链接池中最多共享的链接数量，0和None表示全部共享。PS: 无用，因为pymysql和MySQLdb等模块的 threadsafety都为1，所有值无论设置为多少，_maxcached永远为0，所以永远是所有链接都共享。

    blocking=True,  # 连接池中如果没有可用连接后，是否阻塞等待。True，等待；False，不等待然后报错

    maxusage=None,  # 一个链接最多被重复使用的次数，None表示无限制

    setsession=[],  # 开始会话前执行的命令列表。如：["set datestyle to ...", "set time zone ..."]

    ping=0,

    # ping MySQL服务端，检查是否服务可用。# 如：0 = None = never, 1 = default = whenever it is requested, 2 = when a cursor is created, 4 = when a query is executed, 7 = always

    host='127.0.0.1',

    port=3306,

    user='root',

    password='',

    database='bgm',

    charset='utf8'

)

2.核心代码

import re

import requests

from bs4 import BeautifulSoup

import pymysql

from db import POOL

from threading import Thread

header={'User-Agent':"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/22.0.1207.1 Safari/537.1"}

conn = POOL.connection()

cursor = conn.cursor()

sql = '''insert into bgm_info(CNAME,JNAME,CON,FEN,NUM,IMG_URL,TEXT_URL) VALUES (%s,%s,%s,%s,%s,%s,%s)'''

def sql_data(*args):

    # print(args)

    res=cursor.execute(sql,args)

    conn.commit()

    # cursor.close()

    conn.close()

def get_text(url):

    res=requests.get(url,headers=header)

    # print(res.url)

    res.encoding='utf-8'

    html=res.text

    soup_html=BeautifulSoup(html,'html.parser')

    try:

        all_li=soup_html.find('ul',class_='browserFull').find_all('li',class_='item odd clearit')

        for div in all_li:

            c_name=div.find('div',class_='inner').find('a').get_text()

            j_name=div.find('small').string

            rank=div.find('span',class_='rank').get_text()

            con=div.find('p',class_='info tip').string

            fade=div.find('small',class_='fade').string

            num=div.find('span',class_='tip_j').get_text()

            num = re.search('\d+',num).group()

            img_url = 'http:'+div.find('img')['src']

            url2 = 'http://bangumi.tv/'+div.find('div',class_='inner').find('a')['href']

            # print(img_url)

            sql_data(c_name,j_name,con,fade,num,img_url,url2)

    except:

        print(url)

if __name__ == '__main__':

    for i in range(500):

        url = 'http://bangumi.tv/anime/browser?sort=rank&page=%s'%i

        # get_text(url)

        t = Thread(target=get_text,args=(url,))

        t.start()

Python 爬取bangumi网页信息的更多相关文章

python爬取某个网页的图片-如百度贴吧
python爬取某个网页的图片-如百度贴吧作者:vpoet mail:vpoet_sir@163.com 注:随意copy,不用告诉我 #coding:utf-8 import urllib imp ...
Python 爬取单个网页所需要加载的地址和CSS、JS文件地址
Python 爬取单个网页所需要加载的URL地址和CSS.JS文件地址通过学习Python爬虫,知道根据正式表达式匹配查找到所需要的内容(标题.图片.文章等等).而我从测试的角度去使用Python爬 ...
python爬取豆瓣视频信息代码
目录一:代码二:结果如下(部分例子) 这里是爬取豆瓣视频信息,用pyquery库(jquery的python库). 一:代码 from urllib.request import quote ...
Python爬取拉勾网招聘信息并写入Excel
这个是我想爬取的链接:http://www.lagou.com/zhaopin/Python/?labelWords=label 页面显示如下: 在Chrome浏览器中审查元素,找到对应的链接: 然后 ...
python爬取基础网页图片
python基础爬虫总结 1.爬取信息原理与浏览器客户端类似,向网站的服务器发送一个请求,该请求一般是url,也就是网址.之后服务器响应一个html页面给客户端,当然也有其他数据类型的信息,这些就是 ...
python爬取动态网页数据，详解
原理:动态网页,即用js代码实现动态加载数据,就是可以根据用户的行为,自动访问服务器请求数据,重点就是:请求数据,那么怎么用python获取这个数据了? 浏览器请求数据方式:浏览器向服务器的api(例 ...
python爬取梦幻西游召唤兽资质信息（不包含变异）
一.分析 1.爬取网站:https://xyq.163.com/chongwu/ 2.获取网页源码: request.get("https://xyq.163.com/chongwu/&qu ...
Python 爬取美团酒店信息
事由:近期和朋友聊天,聊到黄山酒店事情,需要了解一下黄山的酒店情况,然后就想着用python 爬一些数据出来,做个参考主要思路:通过查找,基本思路清晰,目标明确,仅仅爬取美团莫一地区的酒店信息,不过 ...
python 爬取豆瓣书籍信息
继爬取猫眼电影TOP100榜单之后,再来爬一下豆瓣的书籍信息(主要是书的信息,评分及占比,评论并未爬取).原创,转载请联系我. 需求:爬取豆瓣某类型标签下的所有书籍的详细信息及评分语言:pyth ...

随机推荐

setInterval的用法
function show1(){ console.log("每隔1秒显示一次");}function show2(str){ console.log(str);}se ...
eclipse引入系统类库
引入系统类库1.第一步:项目,右键,build path,remove报错的类库 2.第二步:项目,右键,build path→Add Library→JRE System Library,Next3 ...
javascript NaN注意事项
NaN直译是Not a number NaN是个特殊的number,它和任何值相比都不相等,甚至和它自己. NaN === NaN 这个表达式是false 唯一能判断NaN的方法是 IsNaN(NaN ...
Fragment的详细使用
一直在用Fragment,但是没有系统的整理过,Google了一下相关文章,看到了几篇,将几篇还不错的文章重点整理了下,很多是直接Copy的,只为做个笔记,以后翻来看比较方便,建议大家看一下下面几篇, ...
2018-2019-2-20175225 实验二《Java开发环境的熟悉》实验报告
姓名:张元瑞学号:20175225 班级:1752 实验课程:JAVA程序设计实验名称:Java面向对象程序设计实验时间:2019.4.16 指导老师:娄嘉鹏实验内容测试点一 - " ...
poj1742 多维背包
普通的多维背包做不了,需要优化一下但是没有学优化..别的方法也是可以做的省去一个表示阶段的 i 维度,dp[j]表示面值为j的钱是否被凑出来了,used[j]表示第i种硬币在凑面值为j的时候被用 ...
基于GTID环境的数据恢复
下面说一个线上环境的数据恢复案例,线上环境误操作的事情,随时都有可能发生的,这时候运维DBA或者DBA会想,没人会傻到把数据库干掉的吧?又或者没有会闲得蛋痛删除了几条数据又想恢复这么无聊吧?适适这样的 ...
python 全栈开发，Day125(HTML5+ 初识,HBuilder,夜神模拟器,Webview)
昨日内容回顾 1.增删改查: 增: db.collections.insert({a:1}) // 官方不推荐了 db.collections.insertMany([{a:1},{b:1}]) in ...
python 全栈开发，Day106(结算中心(详细),立即支付)
昨日内容回顾 1. 为什么要开发路飞学城? 提供在线教育的学成率: 特色: 学,看视频,单独录制增加趣味性. 练,练习题改,改学生代码管,管理测,阶段考核线下:8次留级考试 2. 组织架构 - ...
步步为营-70-asp.net简单练习(文件的上传和下载)
大文件的上传一般通过FTP协议,而一般小的文件可以通过http协议来完成 1 通过asp.net 完成图片的上传 1.1 创建html页面注意:1 method="post" ; ...

Python 爬取bangumi网页信息

Python 爬取bangumi网页信息的更多相关文章

随机推荐

热门专题