python静态网页爬虫之xpath(简单的博客更新提醒功能）

直接上代码：

#!/usr/bin/env python3

#antuor:Alan

#-*- coding: utf-8 -*-

import requests

from lxml import etree

import datetime,time

import os

class xxoohelper(object):     #易读

    def __init__(self):

        self.url = 'http://www.cnblogs.com/alan-babyblog/'      #初始化

    def getSource(self):

        html = requests.get(self.url).content       #content比text好用，一个返回的是byte,一个返回的是str

        return html

    def getContent(self,html):                     #先大后小

        selector = etree.HTML(html)

        title  = selector.xpath('//div[1]/div[2]/a/text()')[0].strip()  #从列表提取文本

        content = selector.xpath('//div[1]/div[2]/div[1]/div/div[1]/div[3]/div/text()')[0].strip()

        post_time = selector.xpath('//div[1]/div[2]/div[1]/div/div[1]/div[5]/text()')[0].strip()

        send_text = title+content+post_time  #类型是str

        return send_text

    def tosave(self,text):

        with open('myblog.txt','a') as f:

            f.write(('{0}\n').format(text))   #换行

    def tocheck(self,data):

        if not os.path.exists('myblog.txt'):   #判断是否存在文件

            return True

        else:

            with open ('myblog.txt','r') as f:

                existblog = f.readlines()

                #print(data+'\n')

                if data +'\n' in existblog:  #判断是否已经纪录过内容

                    return False

                else:

                    return True

if __name__ == '__main__':      #程序入口

    helper = xxoohelper()  #实例化

    while True :           #while循环不断监控页面

        source = helper.getSource()

        content = helper.getContent(source)

        if helper.tocheck(content):

            post_time = str(datetime.datetime.now())

            print(post_time,'有新内容\n',content)

            helper.tosave(content)

        else:

            print('扫描中......')

            pass

        time.sleep(30)

python静态网页爬虫之xpath(简单的博客更新提醒功能）的更多相关文章

python静态网页爬虫之xpath
常用语句: 1.starts-with(@属性名称,属性字符相同部分)使用情形: 以相同的字符开头 <div id = 'test-1'>需要的内容1</div> <di ...
Python Web开发:Django+BootStrap实现简单的博客项目
创建blog的项目结构关于如何创建一个Django项目,请查看[Python Web开发:使用Django框架创建HolleWorld项目] 创建blog的数据模型创建一个文章类所有开发都是数据 ...
Python静态网页爬虫相关知识
想要开发一个简单的Python爬虫案例,并在Python3以上的环境下运行,那么需要掌握哪些知识才能完成一个简单的Python爬虫呢? 爬虫的架构实现爬虫包括调度器,管理器,解析器,下载器和输出器. ...
Python编写网页爬虫爬取oj上的代码信息
OJ升级,代码可能会丢失. 所以要事先备份. 一開始傻傻的复制粘贴, 后来实在不能忍, 得益于大潇的启示和聪神的原始代码, 网页爬虫走起! 已经有段时间没看Python, 这次网页爬虫的原始代码是 p ...
Python动态网页爬虫-----动态网页真实地址破解原理
参考链接:Python动态网页爬虫-----动态网页真实地址破解原理
[Python爬虫笔记][随意找个博客入门(一)]
[Python爬虫笔记][随意找个博客入门(一)] 标签(空格分隔): Python 爬虫 2016年暑假来源博客:挣脱不足与蒙昧 1.简单的爬取特定url的html代码 import urllib ...
2018-8-10-如何使用-C#-爬虫获得专栏博客更新排行
title author date CreateTime categories 如何使用 C# 爬虫获得专栏博客更新排行 lindexi 2018-08-10 19:16:51 +0800 2018- ...
如何使用 C# 爬虫获得专栏博客更新排行
昨天,梦姐问我们,她存在一个任务,找到关注数排行100 和浏览量排行100 的专栏博客,在2017年还有更新的专栏. 梦姐说他要出去一趟,M大神在吃饭,于是我估算时间,只有半个钟. 整理一下:半个 ...
django初探-创建简单的博客系统
django第一步 1. django安装 pip install django print(django.get_version()) 查看django版本 2. 创建项目打开cmd,进入指定目录 ...

随机推荐

Hibernate 参数匹配查询
第一种: public User validate(String userName, String password) { String hql = "from User where use ...
持续集成之Jenkins+Gitlab简介 [一]
转载:http://blog.csdn.net/abcdocker/article/details/53840449 持续集成概念持续集成Continuous Integration 持续交付Con ...
倍福TwinCAT(贝福Beckhoff)常见问题(FAQ)-可以用软件自带NC工具驱动但是程序无法让电机转动怎么办
新建一个项目,当扫描的时候务必勾选YES,使用网上最新的XML文件如果不使用,则有些设备可能被扫描出来是无效的(图标不正常) 如果完全删除XML描述文件,可能也能扫描出来,而且可以用Twin ...
eclipse工程重命名后,无法生产class问题
在很多时候我们对project重新命名后,class文件始终没有生产,尤其是在web项目的时候,如果不注意class文件生成问题,会浪费大量的时间找错误.这里分享下如何解决eclipse重命名后cla ...
pydensecrf安装报错1、UnicodeDecodeError: 'utf-8' codec can't decode byte 0xb6 in position 29: invalid start byte2、 LINK : fatal error LNK1158: 无法运行“rc.exe” error: command 'D:\\software\\vs2015\\VC\\BIN
pydensecrf安装报错 1.UnicodeDecodeError: 'utf-8' codec can't decode byte 0xb6 in position 29: invalid st ...
a标签上的点击事件
当我们在处理a标签上的点击事件时发现即使href=""里面为空,点击事件的效果也不明显,这种情况该如何处理呢?常见的处理方法有以下几种: 1.a href="javasc ...
【MyBatis学习12】MyBatis中的一级缓存
缓存的作用是减轻数据库的压力,提高数据库的性能的.mybatis中提供了一级缓存和二级缓存,先来看一下两个缓存的示意图: 从图中可以看出: 一级缓存是SqlSession级别的缓存.在操作数据库时 ...
vue 父组件如何调用子组件的函数Methods
答案就是使用ref即可. <countdown ref="countdown"></countdown> beforeDestroy () { // 切换页 ...
[原创]FreeSWITCH实现多人来电思路
[原创]FreeSWITCH实现多人来电思路场景介绍该篇文章主要用于介绍如何使用FreeSWITCH实现通讯系统中常见的多人来电功能. 具体场景如下: A与B正在通话中,此时C拨打A/B,Free ...
Silverlight Telerik RadGridView动态增删行及行列操作（转载）
最近使用一直使用第三方控件Telerik,版本 2011 Q1,一直使用显示控件RadGridView,使用起来比DataGird好使, 也发现有控件问题. radgridview.BeginInse ...

python静态网页爬虫之xpath(简单的博客更新提醒功能）

python静态网页爬虫之xpath(简单的博客更新提醒功能）的更多相关文章

随机推荐

热门专题