python利用requests和threading模块，实现多线程爬取电影天堂最新电影信息。

　　利用爬到的数据，基于Django搭建的一个最新电影信息网站：

　　　n1celll.xyz

　　今天想利用所学知识来爬取电影天堂所有最新电影信息，用到的模块：

　　　　requests：用于获取网页信息

　　　　re：获取网页中具体想要的信息

　　　　Beautifulsoup：便于标签搜索，获取想要信息

　　　　threading：使用多线程大幅度缩短爬取时间

　　　　queue：使用线程队列来写入文件（实际上我是把数据全部存入了数据库）

　　　　大概差不多就这些模块。

欢迎各位大牛指点。

# Author : 'n1celll'

import requests

import json

import re

from bs4 import BeautifulSoup

import threading

import queue,time

header = header = {

    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36'}

url = 'http://www.ygdy8.net/html/gndy/dyzz/index.html'

def get_page(url):

    index = requests.get(url, headers=header)

    index.enconding = 'GBK'# 将编码转为与HTML一致

    t = index.text

    index_soup = BeautifulSoup(t, 'html.parser')# 将获得的网页信息 转成soup对象

    all_pages = index_soup.find('select', attrs={'name': 'sldd'}).find_all('option')[-1] # 获得总页数

    page = int(all_pages.string)

    return page

def get_data(page):

    page_url = 'http://www.ygdy8.net/html/gndy/dyzz/list_23_%s.html' % (page)  # 获取每一页数据

    print(page)

    # page_url = 'http://www.ygdy8.net/html/gndy/dyzz/list_23_30.html'

    res = requests.get(page_url, headers=header)

    res.encoding = 'GBK'  # 'gb2312'

    a = res.text

    soup = BeautifulSoup(a, 'html.parser')

    name = soup.find_all('a', attrs={'class': 'ulink'})

    # print(name)测试

    for i in name:

        try:

            moive_name = re.search('《(.*?)(》|】)', i.string).group()

            # 有两个坑，这个里面有个电影名字不是用的书名号，还有一个电影有两个a标签

        except:

            continue

        html = 'http://www.ygdy8.net' + i['href']

        da = requests.get(html, headers=header)

        da.encoding = 'GBK'  # da.apparent_encoding

        db = da.text

        # f = open('test2.txt','w',encoding='utf8')

        # f.write(a.text)

        # f.close()

        dr = BeautifulSoup(db, 'html.parser')

        span = dr.find('span', attrs={'style': 'FONT-SIZE: 12px'})

        if span:

            dc = span.text.split()

            data = ''

            for i in dc:

                data += i

            print(data)

            msg = {}

            if data:

                msg['mname'] = moive_name

                try:

                    show_t = re.search(r'(?<=(◎年代|◎时间|品年代|年代】|播时间|播】：))(.*?)(?=◎|年|【)', data).group()

                except:

                    show_t = re.search(r'(?<=日期|份：)(.*?)(?=(-|剧))', data).group()

                msg['mtime'] = show_t

                try:

                    country = re.search(r'(?<=(◎国家|◎产地|◎地区|◎国别|国家】))(.*?)(?=◎|【类)', data).group()

                except:

                    try:

                        country = re.search(r'(?<=地区)(.*?)(?=语言)', data).group()

                    except:

                        country = '未知'

                msg['mcountry'] = country

                try:

                    time = re.search(r'(?<=◎片长|长度】)(.*?)(?=◎|【)', data).group()

                except:

                    time = '未知'

                msg['mtime'] = time

                try:

                    mtype = re.search(\

                        r'(?<=(◎类别|别类型|影类型|◎类型|集类型|◎分类|类型：|类别】|片类型|型】：))(.*?)(?=(◎|级别|【出品|【主演))', \

                        data).group()

                except:

                    try:

                        mtype = re.search(r'(?<=类型:)(.*?)(?=国)', data).group()

                    except:

                        mtype = re.search(r'动作|爱情|战争', data).group()

　　　　　　　　　 #以上的正则表达式，感觉用的很笨拙，希望有技术大牛提点建议

                # with open('test4.txt','a+',encoding='utf8') as f:测试

                #     f.write('%s: %s,%s,%s,%s\n' % (moive_name, country, mtype, time, show_t))测试

                q.put('%s: %s,%s,%s,%s,%s\n' % (moive_name, country, mtype, time, show_t,html))

q = queue.Queue(maxsize=10000)

t_obj = []

lock = threading.Lock()#加上线程锁

# semaphore = threading.BoundedSemaphore(200)

def writing(f):

    # semaphore.acquire()

    data = q.get()

    lock.acquire()

    f.write(data)

    lock.release()

    # semaphore.release()

        # if not q.get():

        #     f.close()

        #     break

    # print('写入完成')

all_page = get_page(url)

f = open('test4.txt', 'w', encoding='utf8')

print(all_page+1)

for i in range(1,all_page+1):

    t = threading.Thread(target=get_data,args=(i,))

    t.start()

    t_obj.append(t)

for t in t_obj:

    t.join()#保证所有线程结束后开始写入

    print('%s over'%t)

while q.qsize():#判断队列里面是否还有元素

    w = threading.Thread(target=writing, args=(f,))

    w.start()

    w.join()

else:

    print('写入完成')

python利用requests和threading模块，实现多线程爬取电影天堂最新电影信息。的更多相关文章

使用selenium 多线程爬取爱奇艺电影信息
使用selenium 多线程爬取爱奇艺电影信息转载请注明出处. 爬取目标:每个电影的评分.名称.时长.主演.和类型爬取思路: 源文件:(有注释) from selenium import webd ...
Python之爬虫（二十一） Scrapy爬取所有知乎用户信息(下)
在上一篇文章中主要写了关于爬虫过程的分析,下面是代码的实现,完整代码在:https://github.com/pythonsite/spider items中的代码主要是我们要爬取的字段的定义 cla ...
Python之爬虫（二十） Scrapy爬取所有知乎用户信息(上)
爬取的思路首先我们应该找到一个账号,这个账号被关注的人和关注的人都相对比较多的,就是下图中金字塔顶端的人,然后通过爬取这个账号的信息后,再爬取他关注的人和被关注的人的账号信息,然后爬取被关注人的账号 ...
Python：使用threading模块实现多线程编程
转:http://blog.csdn.net/bravezhe/article/details/8585437 Python:使用threading模块实现多线程编程一[综述] Python这门解释性 ...
python学习笔记之使用threading模块实现多线程（转）
综述 Python这门解释性语言也有专门的线程模型,Python虚拟机使用GIL(Global Interpreter Lock,全局解释器锁)来互斥线程对共享资源的访问,但暂时无法利用多处理器的优势 ...
{Python之线程} 一背景知识二线程与进程的关系三线程的特点四线程的实际应用场景五内存中的线程六用户级线程和内核级线程（了解）七 python与线程八 Threading模块九锁十信号量十一事件Event 十二条件Condition（了解）十三定时器
Python之线程线程本节目录一背景知识二线程与进程的关系三线程的特点四线程的实际应用场景五内存中的线程六用户级线程和内核级线程(了解) 七 python与线程八 Thr ...
python利用requests库模拟post请求时json的使用
我们都见识过requests库在静态网页的爬取上展现的威力,我们日常见得最多的为get和post请求,他们最大的区别在于安全性上: 1.GET是通过URL方式请求,可以直接看到,明文传输. 2.POS ...
<python的线程与threading模块>
<python的线程与threading模块> 一线程的两种调用方式 threading 模块建立在thread 模块之上.thread模块以低级.原始的方式来处理和控制线程,而thre ...
Python爬虫入门教程： All IT eBooks多线程爬取
All IT eBooks多线程爬取-写在前面对一个爬虫爱好者来说,或多或少都有这么一点点的收集癖 ~ 发现好的图片,发现好的书籍,发现各种能存放在电脑上的东西,都喜欢把它批量的爬取下来. 然后放着 ...

随机推荐

spring cloud config svn仓库配置
之前快速入门了一下spring cloud config 但是仓库用的别人博客上的git仓库,公司用的是svn项目管理中心,下面这个自己配置的时候出现的错误 You need to configure ...
C#工作总结（一）：Fleck的WebSocket使用
一.引子(Foreword) 最近公司里面要做窗体和网页交互的功能.网上找了一下资料,这里做一个简单的扩充和整理,部分内容可能是摘自其他博客,这里会注明出处和原文地址供大家和自己日后查阅. 二.基础知 ...
LoadRunner基本简介
# LoadRunner # ## 安装要求 ## 做性能测试的时候,电脑要是一个干净的系统. 尽量是裸装电脑纯净版,不能安装太多的浏览器,支持的有IE.Firefox.chrome ...
python全栈开发笔记---------函数
一数学定义的函数与python中的函数初中数学函数定义:一般的,在一个变化过程中,如果有两个变量x和y,并且对于x的每一个确定的值,y都有唯一确定的值与其对应,那么我们就把x称为自变量,把y称为因 ...
数据结构复习之Vector
/** * The number of times this list has been <i>structurally modified</i>. * Structural ...
D3算法编写决策树
前言所谓构建决策树, 就是递归的对数据集参数进行“最优特征”的选择.然后按最优特征分类成各个子数据集,继续递归. 最优特征的选择:依次计算按照各个特征进行分类以后数据集的熵,各个子数据集的熵比较后, ...
EFCore Lazy Loading + Inheritance = 干净的数据表（二）【献给处女座的DB First程序猿】
前言本篇是上一篇EFCore Lazy Loading + Inheritance = 干净的数据表 (一) [献给处女座的DB First程序猿] 前菜的续篇.这一篇才是真的为处女座的DB Fi ...
【SoftwareTesting】Homework1
The errors I will mention after are from the project in the last semester. The project is a Java pro ...
Problem 8: Largest product in a series
先粘实现代码,以后需要再慢慢补充思路 s = ''' 73167176531330624919225119674426574742355349194934 9698352031277450632623 ...
Problem D: 平面上的点和线——Point类、Line类 (IV)
Description 在数学上,平面直角坐标系上的点用X轴和Y轴上的两个坐标值唯一确定,两点确定一条线段.现在我们封装一个“Point类”和“Line类”来实现平面上的点的操作. 根据“append ...

python利用requests和threading模块，实现多线程爬取电影天堂最新电影信息。

python利用requests和threading模块，实现多线程爬取电影天堂最新电影信息。的更多相关文章

随机推荐

热门专题