BeautifulSoup库应用实例

获取博客园本人的积分排名数据：

1. 抓包获取积分排名数据返回接口：http://www.cnblogs.com/belle-ls/mvc/blog/sidecolumn.aspx?blogApp=belle-ls

2. 解析返回的数据，获取积分排名

3. 开启线程，循环打印积分排名信息

from bs4 import BeautifulSoup

import time

import requests

import threading

class BlogRankMonitor(object):

    """

    获取博客园积分排名

    """

    def __init__(self, id):

        self.urlBasic = 'http://www.cnblogs.com/%s/mvc/blog/sidecolumn.aspx?blogApp=%s'

        self.id = id

        self.score = 0

        self.rank = 0

    def get_nums(self, blogs_des):

        """

        分割字符串 积分 -    43 排名 -    283325，获取数字

        :return:

        """

        split_str = blogs_des.split('-')[1].strip()

        return split_str

    def get_blog_ranks(self):

        """

        解析页面获取博客积分和排名

        :return:

        """

        url = self.urlBasic % (self.id, self.id)

        res = requests.get(url)

        soup = BeautifulSoup(res.text, "lxml")

        liScore= soup.find(class_="liScore")

        for child in liScore.children:

            if u'积分' in child.string:

                self.score = self.get_nums(child.string)

            elif u'排名' in child.string:

                self.rank = self.get_nums(child.string)

        print("积分:", blog.score, "排名:", blog.rank, "时间:", time.strftime("%Y-%m-%d %X", time.localtime()))

    def start_score_rank_thread(self):

        t = threading.Thread(target= self.get_blog_ranks())

        t.start()

if __name__ == '__main__':

    blog = BlogRankMonitor('belle-ls')

    while 1:

        blog.start_score_rank_thread()

        time.sleep(10) #10s打印一次

"""

运行结果：

积分: 45 排名: 0 时间: 2019-02-12 15:57:22

积分: 45 排名: 0 时间: 2019-02-12 15:57:32

积分: 45 排名: 0 时间: 2019-02-12 15:57:42

积分: 45 排名: 0 时间: 2019-02-12 15:57:53

积分: 45 排名: 0 时间: 2019-02-12 15:58:03

....

"""

BeautifulSoup库应用实例的更多相关文章

Python爬虫小白入门（三）BeautifulSoup库
# 一.前言 *** 上一篇演示了如何使用requests模块向网站发送http请求,获取到网页的HTML数据.这篇来演示如何使用BeautifulSoup模块来从HTML文本中提取我们想要的数据. ...
python爬虫学习之使用BeautifulSoup库爬取开奖网站信息-模块化
实例需求:运用python语言爬取http://kaijiang.zhcw.com/zhcw/html/ssq/list_1.html这个开奖网站所有的信息,并且保存为txt文件和excel文件. 实 ...
使用SharePoint Designer定制开发专家库系统实例！
将近大半年都没有更新博客了,趁这段时间不忙,后续会继续分享一些技术和实际应用.对于Sharepoint的定制开发有很多种方式,对于一般的应用系统,可以使用Sharepoint本身自带的功能,如列表作为 ...
BeautifulSoup库children(),descendants()方法的使用
BeautifulSoup库children(),descendants()方法的使用示例网站:http://www.pythonscraping.com/pages/page3.html 网站内容 ...
网络爬虫BeautifulSoup库的使用
使用BeautifulSoup库提取HTML页面信息 #!/usr/bin/python3 import requests from bs4 import BeautifulSoup url='htt ...
BeautifulSoup库的使用
1.简介 BeautifulSoup库也是一个HTML/XML的解析器,其使用起来很简单,但是其实解析网站用xpath和re已经足矣,这个库其实很少用到.因为其占用内存资源还是比xpath更高. '' ...
python下载安装BeautifulSoup库
python下载安装BeautifulSoup库 1.下载https://www.crummy.com/software/BeautifulSoup/bs4/download/4.5/ 2.解压到解压 ...
基于BeautifulSoup库的HTML内容的查找
一.BeautifulSoup库提供了一个检索的参数: <>.find_all(name,attrs,recursive,string,**kwargs),它返回一个列表类型,存储查找的结 ...
BeautifulSoup库
'''灵活又方便的网页解析库,处理高效,支持多种解析器.利用它不用编写正则表达式即可方便的实现网页信息的提取.''' BeautifulSoup库包含的一些解析库: 解析库使用方法优势劣势 py ...

随机推荐

HYSBZ 1036 树的统计Count (水题树链剖分)
题意:中文题. 析:就是直接维护一个最大值和一个和,用线段树维护即可,这个题很简单,但是我卡了一晚上,就是在定位的时候,位置直接反过来了,但是样例全过了...真是... 代码如下: #pragma c ...
ios7适配--隐藏status bar
//viewDidload if ([self respondsToSelector:@selector(setNeedsStatusBarAppearanceUpdate)]) { // iOS 7 ...
Java中方法next()和nextLine()的区别
原创 Java中Scanner类中的方法next()和nextLine()都是吸取输入台输入的字符,区别: next()不会吸取字符前/后的空格/Tab键,只吸取字符,开始吸取字符(字符前后不算)直到 ...
angular 工厂模式依赖注入
import { BrowserModule } from '@angular/platform-browser'; import { NgModule } from '@angular/core'; ...
sqlServer组合主键
sqlServer 组合主键创建表时: create table Person ( Name1 ) not null ,Name2 ) not null primary key(Name1,Na ...
HBase优化实战
本文来自网易云社区. 背景 Datastream一直以来在使用HBase分流日志,每天的数据量很大,日均大概在80亿条,10TB的数据.对于像Datastream这种数据量巨大.对写入要求非常高,并且 ...
C# 抽象（2）
接着上章说: 先看代码 abstract class Human { public abstract void Think(); public abstract int Age { get; set; ...
property特性
什么是property property是一种特殊属性,访问他时会执行一段功能然后返回值 class People: def __init__(self,name,weight,height): se ...
casperjs进行web功能自动化测试demo
通过一周多的学习和总结,终于掌握了casperjs用于自动化的方法,填平了大大小小的各种坑. casperjs是一个新兴的测试框架,网上资料很少,基本上靠翻译英文资料. 贡献出来,供大家参考: / ...
条目六《当心C++编译器中最烦人的分析机制》
当心C++编译器中最烦人的分析机制 C++是较为底层的面相对象语言,在底层的语法规则分析中,有很多隐藏的分析机制. C++中的普遍规律相符,即尽可能地解释为函数声明. 把形式参数的声明用括号括起来是非 ...

BeautifulSoup库应用实例

BeautifulSoup库应用实例的更多相关文章

随机推荐

热门专题