Python3(十一) 原生爬虫

一.爬虫实例

1.原理：文本分析并提取信息——正则表达式。

2.实例目的：爬取熊猫TV某个分类下面主播的人气排行

分析网站结构

操作：F12查看HTML信息，Ctrl+Shift+C鼠标选取后找到对应的HTML。

3.步骤：

前奏：

1、明确目的（分析抓取目的确定抓取页面）

2、找到数据对应网页

3、分析网页的结构，找到数据所在标签的位置

执行：

4、模拟HTTP请求，向服务器发送请求，获取到服务器返回给我们的HTML

5、用正则表达式提取我们要的数据

......

4.代码

二. VSCode中调试代码

断点调试：F5启动，F10单步，F5跳断点，F11进内部

三.HTML结构分析基本原则

寻找到标签、标识符，使之能够定位要抓取的信息。

1、尽量选取具有唯一性的标签

2、尽量选取最接近于数据的标签

四.数据提取层级分析及原则

1.可以把两个数据看成是一组数据并再次寻找标签。

2.尽量选取可以闭合的标签(父级标签)，并包裹其需要的数据

五.正则分析HTML及具体流程

'''

This is a spider，模块注释

'''

from urllib import request

import re

class Spider():

    '''

    This is a spider class

    '''

    url = 'https://www.panda.tv/cate/lol'

    root_pattern = '<div class="video-info">([\s\S]*?)</div>' #注意单双引号

    #[\w\W] [\s\S] . 匹配所有字符

    #* 匹配0次或者无限多次

    #? 非贪婪模式，匹配到第一个遇到的</div>

    name_pattern = '</i>([\s\S]*?)</span>'

    number_pattern = '<span class="video-number">([\s\S]*?)</span>'

def __fetch_content(self):

    '''

    私有方法，获取网页内容

    '''

    r = request.urlopen(Spider.url)

    htmls = r.read()

    htmls = str(htmls,encoding = 'utf-8')

    return htmls

def __analysis(self,htmls):

    '''

    正则表达式来提取数据

    '''

    root_html = re.findall(Spider.root_pattern,htmls)

    anchors = []

    for html in root_html:

        name = re.findall(Spider.name_pattern,html)

        number = re.findall(Spider.number_pattern,html)

        anchor = {'name':name,'number':number}

        anchors.append(anchor)

    return anchors

def __refine(self,anchors):

    l = lambda anchor:{

    'name':anchor['name'][0].strip(),

    'number':anchor['number'][0] #列表转化为单一的字符串

    }

    return map(l,anchors)

def __sort_seed(self,anchor):

    r = re.findall('\d*',anchor['number']) #提取数字

    number = float(r[0])

    if '万' in anchor['number']: #处理'万'

        number *= 10000

        

    return number

def __sort(self,anchors):

    '''

    key确定比较对象

    sorted()默认升序排列,reverse = True 降序

    不能用str排序，要用int，并且要处理'万'

    '''

    anchors = sorted(anchors,key = self.__sort_seed,reverse = True)

    return anchors

def __show(self,anchors):

    for rank in range(0,len(anchors)):

        print('rank ' + str(rank + 1) +

    ':' + ' ' + anchors[rank]['name'] +

    '————' + anchors[rank]['number'])

def go(self): #Spider的入口方法

    htmls = self.__fetch_content()

    anchors = self.__analysis(htmls)

    anchors = list(self.__refine(anchors))

    anchors = self.__sort(anchors)

    self.__show(anchors)

spider = Spider()

spider.go()

爬虫框架：

Beautiful Soup

Scrapy

Python3(十一) 原生爬虫的更多相关文章

Python(十一) 原生爬虫
一.分析抓取目的确定抓取页面 #爬取主播人气排行二.整理爬虫常规思路爬虫前奏明确目的找到数据对应的网页分析网页的结构找到数据所在的标签位置模拟 HTTP 请求, 向服务器发送这个请 ...
Python3爬虫（十一）爬虫与反爬虫
Infi-chu: http://www.cnblogs.com/Infi-chu/ 一.重要概念二.爬虫反爬虫进化论
python3下scrapy爬虫(第十一卷:scrapy数据存储进mongodb）
说起python爬虫数据存储就不得不说到mongodb,现在我们来试一下scrapy操作mongodb 首先开启mongodb mongod --dbpath=D:\mongodb\db 开启服务后就 ...
python3下scrapy爬虫(第一卷：安装问题)
一般爬虫都是用urllib包,requests包配合正则.beautifulsoup等包混合使用,达到爬虫效果,不过有框架谁还用原生啊,现在我们来谈谈SCRAPY框架爬虫, 现在python3的兼容 ...
Python3编写网络爬虫11-数据存储方式四-关系型数据库存储
关系型数据库存储关系型数据库是基于关系模型的数据库,而关系模型是通过二维表保存的,所以它的存储方式就是行列组成的表.每一列是一个字段,每一行是一条记录.表可以看作某个实体的集合,而实体之间存在联系, ...
Python3之网络爬虫<0>初级
由于Python3合并URLib与URLlib2统一为URLlib,Python3将urlopen方法放在了urllib.request对象下. 官方文档:https://docs.python.or ...
Python3的原生协程(Async/Await)和Tornado异步非阻塞
原文转载自「刘悦的技术博客」https://v3u.cn/a_id_113 我们知道在程序在执行 IO 密集型任务的时候,程序会因为等待 IO 而阻塞,而协程作为一种用户态的轻量级线程,可以帮我们解决 ...
运筹帷幄决胜千里，Python3.10原生协程asyncio工业级真实协程异步消费任务调度实践
我们一直都相信这样一种说法:协程是比多线程更高效的一种并发工作方式,它完全由程序本身所控制,也就是在用户态执行,协程避免了像线程切换那样产生的上下文切换,在性能方面得到了很大的提升.毫无疑问,这是颠扑 ...
python3 黑板客爬虫闯关游戏（一）
这是学习python爬虫练习很好的网站,强烈推荐! 地址http://www.heibanke.com/lesson/crawler_ex00/ 第一关猜数字很简单,直接给出代码 import ur ...

随机推荐

更好用的 Python 任务自动化工具：nox 官方教程
英文| nox tutorial 出处| nox 官方文档译者| 豌豆花下猫@Python猫 Github地址:https://github.com/chinesehuazhou/nox_doc_c ...
Openstack之七:实现基于桥接的内外网络
一.在控制端进行配置网络 #启动实例文档:https://docs.openstack.org/ocata/zh_CN/install-guide-rdo/launch-instance.html# ...
Nginx作为负载均衡——实战演练
配置语法 Syntax:upstream name {...} Default:—— Context:http 演示准备两台虚拟主机192.168.96.188.192.168.96.188 在18 ...
.net core mysql CodeFirst
创建两个项目 1.网站 2.Model层引用DLL Microsoft.EntityFrameworkCore Microsoft.EntityFrameworkCore.Design Micros ...
[bzoj1045] [洛谷P2512] [HAOI2008] 糖果传递
Description 有n个小朋友坐成一圈,每人有ai个糖果.每人只能给左右两人传递糖果.每人每次传递一个糖果代价为1. Input 第一行一个正整数nn<=1'000'000,表示小朋友的个 ...
NHibernate 初识（0）
参考资料: http://nhibernate.info/
Frameworks.Entity.Core 7
1描述:实体基类,与业务和架构无关名称:EntityBase属性:public abstract 2描述:/ MongoDB的一些扩展方法名称:MongoExtensions修饰: public st ...
废旧手机利用之装一个Linux系统
开篇: 在废旧手机变废为宝的路上一直没有停下,做过电脑遥控器,家居监控器,给电脑扩展屏幕以及跟着大佬学过智能机器人,但是都是一时兴趣,除了家具监控器目前正在使用之外其他也没有使用了. 最近在学习Lin ...
HTML-01-HTML格式
<!DOCTYPE html> <html>  & ...
虚拟环境vitualenv的使用
在使用 Python 开发的过程中,工程一多,难免会碰到不同的工程依赖不同版本的库的问题: 亦或者是在开发过程中不想让物理环境里充斥各种各样的库,引发未来的依赖灾难. 此时,我们需要对于不同的工程使用 ...