一个简单的爬虫



#网页状态码

#200  正常

#404  网页找不到

#502 504

import requests

from multiprocessing import Pool

def get(url):

    response = requests.get(url)

    if response.status_code == 200:

        return url, response.content.decode('utf-8')

def call_back(args):

    url,content = args #拆包args中传入的参数

    print(url,len(content))

if __name__ == '__main__':

    url_lst = [

        'https://www.cnblogs.com',

        'https://www.sogou.com',

        'http://www.sohu.com',

        'http://www.baidu.com'

    ]

    p = Pool(5)

    for url in url_lst:

            p.apply_async(get,args=(url,),callback=call_back) #利用callback去用主进程执行Call_back函数中的功能

    p.close()

    p.join()

爬虫进阶

import re

from urllib.request import urlopen

from multiprocessing import Pool

def get_page(url,pattern):

    response=urlopen(url).read().decode('utf-8')

    return pattern,response #正则表达式编译结果,网页内容

def parse_page(info):

    pattern,page_content=info

    res=re.findall(pattern,page_content)

    for item in res:

        dic={

            'index':item[0].strip(),

            'title':item[1].strip(),

            'actor':item[2].strip(),

            'time':item[3].strip(),

        }

        print(dic)

if __name__ == '__main__':

    regex = r'<dd>.*?<.*?class="board-index.*?>(\d+)</i>.*?title="(.*?)".*?class="movie-item-info".*?<p class="star">(.*?)</p>.*?<p class="releasetime">(.*?)</p>'

    pattern1=re.compile(regex,re.S)

    url_dic={

        'http://maoyan.com/board/7':pattern1,

    }

    p=Pool()

    res_l=[]

    for url,pattern in url_dic.items():

        res=p.apply_async(get_page,args=(url,pattern),callback=parse_page)

        res_l.append(res)

    for i in res_l:

        i.get()

>>>

{'index': '1', 'title': '传奇的诞生', 'actor': '主演：凯文·德·保拉,贝利,索·豪黑', 'time': '上映时间：2018-09-07'}

{'index': '2', 'title': '大寒', 'actor': '主演：张双兵,鲁园,许薇', 'time': '上映时间：2018-08-14'}

{'index': '3', 'title': '苏丹', 'actor': '主演：萨尔曼·汗,安努舒卡·莎玛,兰迪普·弘达', 'time': '上映时间：2018-08-31'}

{'index': '4', 'title': '爸，我一定行的', 'actor': '主演：郑润奇,郑鹏生,张咏娴', 'time': '上映时间：2018-08-24'}

{'index': '5', 'title': '李宗伟：败者为王', 'actor': '主演：李宗伟,李国煌,杨雁雁', 'time': '上映时间：2018-09-07'}

{'index': '6', 'title': '悲伤逆流成河', 'actor': '主演：赵英博,任敏,辛云来', 'time': '上映时间：2018-09-21'}

{'index': '7', 'title': '碟中谍6：全面瓦解', 'actor': '主演：汤姆·克鲁斯,亨利·卡维尔,文·瑞姆斯', 'time': '上映时间：2018-08-31'}

{'index': '8', 'title': '快把我哥带走', 'actor': '主演：张子枫,彭昱畅,赵今麦', 'time': '上映时间：2018-08-17'}

{'index': '9', 'title': '赛尔号大电影6：圣者无敌', 'actor': '主演：罗玉婷,翟巍,王晓彤', 'time': '上映时间：2017-08-18'}

{'index': '10', 'title': '念念手纪', 'actor': '主演：滨边美波,北村匠海,北川景子', 'time': '上映时间：2018-09-14'}

正则表达式的在线校验网站

http://tool.chinaz.com/regex

Python并发编程-一个简单的爬虫的更多相关文章

Python并发编程-一个简单的多进程实例
import time from multiprocessing import Process import os def func(args,args2): #传递参数到进程 print(args, ...
[Python网络编程]一个简单的TCP时间服务器
服务器端: 1.创建一个面向网络的TCP套接字对象socket, 2.绑定地址和端口 3.监听 4.当有客户端连接时候,接受连接并给此连接分配一个新的套接字 5.当客户端发送空信息时候,关闭新分配的套 ...
Python网络编程 - 一个简单的客户端Get请求程序
import socket target_host = "www.baidu.com" target_port = 80 # create a socket object clie ...
python （1）一个简单的爬虫： python 在windows下创建文件夹并写入文件
1.一个简单的爬虫:爬取豆瓣的热门电影的信息写在前面:如何创建本来存在的文件夹并写入 t_path = "d:/py/inn" #本来不存在inn,先定义路径,然后如果不存在,则 ...
python爬虫系列（1）——一个简单的爬虫实例
本文主要实现一个简单的爬虫,目的是从一个百度贴吧页面下载图片. 1. 概述本文主要实现一个简单的爬虫,目的是从一个百度贴吧页面下载图片.下载图片的步骤如下: 获取网页html文本内容:分析html中 ...
Python并发编程之深入理解yield from语法（八）
大家好,并发编程进入第八篇. 直到上一篇,我们终于迎来了Python并发编程中,最高级.最重要.当然也是最难的知识点--协程. 当你看到这一篇的时候,请确保你对生成器的知识,有一定的了解.当然不了解 ...
Python并发编程二（多线程、协程、IO模型）
1.python并发编程之多线程(理论) 1.1线程概念在传统操作系统中,每个进程有一个地址空间,而且默认就有一个控制线程线程顾名思义,就是一条流水线工作的过程(流水线的工作需要电源,电源就相当于 ...
Python并发编程理论篇
Python并发编程理论篇前言其实关于Python的并发编程是比较难写的一章,因为涉及到的知识很复杂并且理论偏多,所以在这里我尽量的用一些非常简明的语言来尽可能的将它描述清楚,在学习之前首先要记住 ...
《转载》Python并发编程之线程池/进程池--concurrent.futures模块
本文转载自Python并发编程之线程池/进程池--concurrent.futures模块一.关于concurrent.futures模块 Python标准库为我们提供了threading和mult ...

随机推荐

php基础知识(语法与原理)
一.php简介 PHP超文本预处理器.是嵌入HTML文件中的服务器脚本程序. PHP代码标记:<?php …. ?> PHP文件的扩展名:.php PHP文件的执行:必须从域名开始访问 P ...
js控制treeview默认展开
bootStrapTreeview 在bootstrap的treeview官网,可以找到这个方法,用js控制可以写成:$('#xxx').treeview('collapseNode',{silent ...
CF821 C. Okabe and Boxes 栈模拟
Link 题意:给出操作,如果当前出栈操作使得出栈序列非顺序,可以在此之前自由排序栈中所有数,问最少排几次. 思路:已经出栈到第x个元素时,每次需要排序的操作后,能够保证前x元素出栈有序,否则说明该操 ...
Python学习笔记（2.1）函数参数练习
关键字参数和命名关键字参数 # -*- coding: utf-8 -*- def print_scores(**kw): print(' Name Score') print('-------- ...
Linux 目录详解树状目录结构图
1.树状目录结构图 2./目录目录描述 / 第一层次结构的根.整个文件系统层次结构的根目录. /bin/ 需要在单用户模式可用的必要命令(可执行文件):面向所有用户,例如:cat.ls.cp,和/ ...
【BZOJ】1297: [SCOI2009]迷路
[题意]给定n个点的有向带边权图,求0到n-1长度恰好为T的路径数.n<=10,T<=10^9,边权1<=wi<=9. [算法]矩阵快速幂 [题解]这道题的边权全部为1时,有简 ...
SDUT 3923
Description snow 是个热爱打字的家伙,每次敲出更快的速度都会让他很开心.现在,他拿到一篇新的打字文章,已知这篇文章只有 26 个小写英文字母,给出 snow 打出这 26 个英文字母分 ...
127.0.0.1、localhost、0.0.0.0的区别
在开发web应用的测试环境中,如果希望同一个局域网的同事通过内网IP访问自己的应用,则需要把web服务监听的ip地址改为0.0.0.0.为什么用127.0.0.1不行,而用0.0.0.0就可以呢? f ...
Verilog笔记.2.数字逻辑电路
1.数字逻辑电路的种类:1) 组合逻辑:输出只是当前输入逻辑电平的函数(有延时),与电路的原始状态无关的逻辑电路.也就是说,当输入信号中的任何一个发生变化时,输出都有可能会根据其变化而变化,但与电路目 ...
jquery 生成二维码
jquery的二维码生成插件qrcode,在页面中调用该插件就能生成对应的二维码 <!DOCTYPE html> <html> <head> <meta ch ...

Python并发编程-一个简单的爬虫

一个简单的爬虫

爬虫进阶

正则表达式的在线校验网站

Python并发编程-一个简单的爬虫的更多相关文章

随机推荐

热门专题