Python(十一) 原生爬虫

一、分析抓取目的确定抓取页面

#爬取主播人气排行

二、整理爬虫常规思路

爬虫前奏

明确目的

找到数据对应的网页

分析网页的结构找到数据所在的标签位置

模拟 HTTP 请求， 向服务器发送这个请求， 获取到服务器返回给我们的HTML

用正则表达式提取我们要的数据（名字，人数）

三、 VSCode中调试代码

F5 启动和vs 调试一样

BeautifulSoup , Scrapy

爬虫、反爬虫、反反爬虫

ip 封

代理 ip库

五、数据提取层级分析及原则三、正则分析HTML、正则分析获取名字和人数

from urllib import request

import re

#断点调试 有坑 7i

class  Spider():

    url = 'https://www.panda.tv/cate/lol'

    root_pattern ='<div class="video-info">([\s\S]*?)</div>'

    name_pattern = '</li>([\s\S]*?)</span>'

    number_pattern = '<span class="video-number">([\s\S]*?)</span>'

    def __fetch_content(self):

        r = request.urlopen(Spider.url)

        #bytes

        htmls = r.read()

        htmls = str(htmls,encoding='utf-8')

        return htmls

    def __analysis(self,htmls):

        root_html = re.findall(Spider.root_pattern, htmls)

        anchors = []

        for html in root_html:

            name = re.findall(Spider.name_pattern, html)

            number = re.findall(Spider.number_pattern, html)

            anchor = {'name':name,'number':number}

            anchors.append(anchor)

        # print(anchors[0])

        return anchors

    def __refine(self, anchors):

        l = lambda anchor:{

            'name':anchor['name'][0].strip(),

            'number':anchor['number'][0]

            }

        return map(l,anchors)

    def go(self):

        htmls = self.__fetch_content()

        anchors = self.__analysis(htmls)

        anchors =list(self.__refine(anchors))

        print(anchors[0])

s = Spider()

s.go()

结果：

{'name': 'LOL丶摇摆哥', 'number': '26.8万'}

八、数据精炼、 sorted 排序

from urllib import request

import re

#断点调试 坑 7i

class  Spider():

    url = 'https://www.panda.tv/cate/lol'

    root_pattern ='<div class="video-info">([\s\S]*?)</div>'

    name_pattern = '</li>([\s\S]*?)</span>'

    number_pattern = '<span class="video-number">([\s\S]*?)</span>'

    # 获取数据的页面

    def __fetch_content(self):

        r = request.urlopen(Spider.url)

        #bytes

        htmls = r.read()

        htmls = str(htmls,encoding='utf-8')

        return htmls

    # 从页面上抓取数据

    def __analysis(self,htmls):

        root_html = re.findall(Spider.root_pattern, htmls)

        anchors = []

        for html in root_html:

            name = re.findall(Spider.name_pattern, html)

            number = re.findall(Spider.number_pattern, html)

            anchor = {'name':name,'number':number}

            anchors.append(anchor)

        # print(anchors[0])

        return anchors

    # 数据取杂质（空格换行）strip() 字符串去空格换行

    def __refine(self, anchors):

        l = lambda anchor:{

            'name':anchor['name'][0].strip(),

            'number':anchor['number'][0]

            }

        return map(l,anchors) #map类  对字典每一个序列进行l这个函数

    # 对抓取的数据进行排序 reverse=True 倒序

    def __sort(self, anchors):

        anchors = sorted(anchors, key=self.__sort_seed, reverse=True)

        return anchors

    # 给 key 写的函数 说明用那个进行排序

    def __sort_seed(self, anchors):

        r = re.findall('\d*', anchors['number'])

        number = float(r[0])

        if '万' in anchors['number']:

            number *= 10000

        return number

    # 显示排名

    def __show(self, anchors):

        for rank in range(0,len(anchors)):

            print('rank '+ str(rank +1)+'   : '+anchors[rank]['name']+'    '+anchors[rank]['number']+'人')

    # 主程序

    def go(self):

        htmls = self.__fetch_content()

        anchors = self.__analysis(htmls)

        anchors =list(self.__refine(anchors))

        print(anchors[0])

        anchors= self.__sort(anchors)

        self.__show(anchors[:20])

s = Spider()

s.go()

结果：

{'name': 'LOL丶摇摆哥', 'number': '20.2万'}

rank 1   : 贾克虎丶虎神    96.9万人

rank 2   : LOL丶摇摆哥    20.2万人

rank 3   : LPL熊猫官方直播    12.1万人

rank 4   : WUCG官方直播平台    8.4万人

rank 5   : 温州丶黄小明    5.1万人

rank 6   : 暴君aa    4.6万人

rank 7   : 顺顺套路王    3.1万人

rank 8   : 火苗OB解说    2.5万人

rank 9   : 兰晨丶    1.1万人

rank 10   : 海洋OvO    1.9万人

rank 11   : 小马哥玩盖伦    1.6万人

rank 12   : 牛老师丶    1.5万人

rank 13   : Riot国际赛事直播间    1.5万人

rank 14   : 小白Mini    7361人

rank 15   : 一个很C的稻草人    7223人

rank 16   : 抗寒使者    4976人

rank 17   : 小麦子鲜奶油    4902人

rank 18   : 祝允儿    4574人

rank 19   : 请叫我大腿岩丶    4201人

rank 20   : 李小青ZJ    3838人

Python(十一) 原生爬虫的更多相关文章

Python3(十一) 原生爬虫
一.爬虫实例 1.原理:文本分析并提取信息——正则表达式. 2.实例目的:爬取熊猫TV某个分类下面主播的人气排行分析网站结构操作:F12查看HTML信息,Ctrl+Shift+C鼠标选取后找到对应 ...
Python 开发轻量级爬虫08
Python 开发轻量级爬虫 (imooc总结08--爬虫实例--分析目标) 怎么开发一个爬虫?开发一个爬虫包含哪些步骤呢? 1.确定要抓取得目标,即抓取哪些网站的哪些网页的哪部分数据. 本实例确定抓 ...
Python 开发轻量级爬虫07
Python 开发轻量级爬虫 (imooc总结07--网页解析器BeautifulSoup) BeautifulSoup下载和安装使用pip install 安装:在命令行cmd之后输入,pip i ...
Python 开发轻量级爬虫06
Python 开发轻量级爬虫 (imooc总结06--网页解析器) 介绍网页解析器将互联网的网页获取到本地以后,我们需要对它们进行解析才能够提取出我们需要的内容. 也就是说网页解析器是从网页中提取有 ...
Python 开发轻量级爬虫05
Python 开发轻量级爬虫 (imooc总结05--网页下载器) 介绍网页下载器网页下载器是将互联网上url对应的网页下载到本地的工具.因为将网页下载到本地才能进行后续的分析处理,可以说网页下载器 ...
Python 开发轻量级爬虫04
Python 开发轻量级爬虫 (imooc总结04--url管理器) 介绍抓取URL管理器 url管理器用来管理待抓取url集合和已抓取url集合. 这里有一个问题,遇到一个url,我们就抓取它的内容 ...
Python 开发轻量级爬虫03
Python 开发轻量级爬虫 (imooc总结03--简单的爬虫架构) 现在来看一下一个简单的爬虫架构. 要实现一个简单的爬虫,有哪些方面需要考虑呢? 首先需要一个爬虫调度端,来启动爬虫.停止爬虫.监 ...
Python 开发轻量级爬虫02
Python 开发轻量级爬虫 (imooc总结02--爬虫简介) 爬虫简介首先爬虫是什么?它是一段自动抓取互联网信息的程序. 什么意思呢? 互联网由各种各样的的网页组成,每一个网页都有对应的url, ...
Python 开发轻量级爬虫01
Python 开发轻量级爬虫 (imooc总结01--课程目标) 课程目标:掌握开发轻量级爬虫为什么说是轻量级的呢?因为一个复杂的爬虫需要考虑的问题场景非常多,比如有些网页需要用户登录了以后才能够访 ...

随机推荐

javaweb实现教师和教室管理系统 java jsp sqlserver
1,程序设计思想 (1)设计三个类,分别是工具类(用来写连接数据库的方法和异常类的方法).信息类(用来写存储信息的方法).实现类(用来写各种操作数据库的方法) (2)定义两个jsp文件,一个用来写入数 ...
关于JWT(Json Web Token)的思考及使用心得
什么是JWT? JWT(Json Web Token)是一个开放的数据交换验证标准rfc7519(php 后端实现JWT认证方法一般用来做轻量级的API鉴权.由于许多API接口设计是遵循无状态的(比如 ...
Vue组件通信之Bus
关于组件通信我相信小伙伴们肯定也都很熟悉,就不多说了,对组件通信还不熟悉的小伙伴移步这里. 在vue2.0中 $dispatch 和 $broadcast 已经被弃用.官方文档中给出的解释是: 因为基 ...
【剑指Offer学习】【面试题47：不用加减乘除做加法】
题目:写一个函数,求两个整数之和,要求在函数体内不得使用+.-.×.÷四则运算符号. 解题思路 5 的二进制是101, 17 的二进制是10001 .还是试着把计算分成三步:第一步各位相加但不计进位. ...
【Oracle】Exadata虚拟机配置（一）
Exadata是Oracle软硬结合的一体机.通过自己的机子不可能全然模拟出来,这里搭建的虚拟机仅仅是一个简单的.能够供我们学习Exadata的环境. 最简单能够模拟的Exadata虚拟机须要两个节点 ...
创建一个Spring的HelloWorld程序
Spring IOC IOC指的是控制反转,把对象的创建.初始化.销毁等工作都交给Spring容器.由spring容器来控制对象的生命周期.下图能够说明我们传统创建类的方式和使用Spring之后的差别 ...
hdu_5154 拓扑
#include<iostream> #include<cstdio> #include<cstring> #include<algorithm> #i ...
Windows下VS2013+Caffe无GPU配置
Windows版本的caffe工具包下载地址: 点击打开链接 1. 将下载的caffe-master.zip解压到 D:\Software\Caffe 文件夹下,把 D:\Software\Caffe ...
数据库表的连接(Left join , Right Join, Inner Join)用法详解
转自:http://blog.csdn.net/jetjetlinuxsystem/article/details/6663218 Left Join, Inner Join 的相关内容,非常实用,对 ...
MyBatis+mysql查询和添加数据
项目结构: Menu package com.mstf.dao; import java.util.Scanner; import org.apache.ibatis.session.SqlSessi ...

Python(十一) 原生爬虫

Python(十一) 原生爬虫的更多相关文章

随机推荐

热门专题