直接上代码: #!/usr/bin/env python3 #antuor:Alan #-*- coding: utf-8 -*- import requests from lxml import etree import datetime,time import os class xxoohelper(object): #易读 def __init__(self): self.url = 'http://www.cnblogs.com/alan-babyblog/' #初始化 def getS…
常用语句: 1.starts-with(@属性名称,属性字符相同部分)使用情形: 以相同的字符开头 <div id = 'test-1'>需要的内容1</div> <div id = 'test-2'>需要的内容2</div> <div id = 'test-3'>需要的内容3</div> selector = etree.HTML(html) content = selector.xpath('//div[start-with(@i…
创建blog的项目结构 关于如何创建一个Django项目,请查看[Python Web开发:使用Django框架创建HolleWorld项目] 创建blog的数据模型 创建一个文章类 所有开发都是数据为基础,首先我们再blog app下的models.py模型中Article,因为是基于Django MVC模式开发,Article类需要继承models.Model类 from django.db import models # Create your models here. class Art…
想要开发一个简单的Python爬虫案例,并在Python3以上的环境下运行,那么需要掌握哪些知识才能完成一个简单的Python爬虫呢? 爬虫的架构实现 爬虫包括调度器,管理器,解析器,下载器和输出器.调度器可以理解为主函数的入口作为整个爬虫的头部,管理器实现包括对URL是否重复进行 判断,将已经爬到的URL加入到列表防止重复爬取.解析器则是对网页内容进行解析,解析出新的URL和网页内容.下载器则是下载解析器解析出的URL.输 出器则是顾名思义. 1.1 调度器 我的理解为类似主函数的入口,可以启…
OJ升级,代码可能会丢失. 所以要事先备份. 一開始傻傻的复制粘贴, 后来实在不能忍, 得益于大潇的启示和聪神的原始代码, 网页爬虫走起! 已经有段时间没看Python, 这次网页爬虫的原始代码是 python2.7版本号, 试了一下改动到3.0版本号, 要做非常多包的更替,感觉比較烦,所以索性就在这个2.7版本号上完好了. 首先欣赏一下原始代码,我给加了一些凝视: # -*- coding: cp936 -*- import urllib2 import urllib import re im…
参考链接:Python动态网页爬虫-----动态网页真实地址破解原理…
[Python爬虫笔记][随意找个博客入门(一)] 标签(空格分隔): Python 爬虫 2016年暑假 来源博客:挣脱不足与蒙昧 1.简单的爬取特定url的html代码 import urllib.request url = "http://120.27.101.158/" response = urllib.request.urlopen(url) html = response.read() html = html.decode('utf-8'); print (html) u…
title author date CreateTime categories 如何使用 C# 爬虫获得专栏博客更新排行 lindexi 2018-08-10 19:16:51 +0800 2018-2-13 17:23:3 +0800 爬虫 C# 昨天,梦姐问我们,她存在一个任务,找到 关注数排行100 和 浏览量排行100 的专栏博客,在2017年还有更新的专栏. 梦姐说他要出去一趟,M大神在吃饭,于是我估算时间,只有半个钟. 整理一下:半个钟时间,找到两个表格中,在2017年更新的专栏.这…
昨天,梦姐问我们,她存在一个任务,找到 关注数排行100 和 浏览量排行100 的专栏博客,在2017年还有更新的专栏. 梦姐说他要出去一趟,M大神在吃饭,于是我估算时间,只有半个钟. 整理一下:半个钟时间,找到两个表格中,在2017年更新的专栏.这就是需求. 我开始分开需求,第一步,读取数据,读取两个表的数据.第二步获取博客更新时间,博客更新时间就是最近的文章的发布时间.第三步,把结果写到文件里. 开始因为xlsx的读取问题卡了我一下,我计算了,读取excel的方法,我需要20分钟写完,而把e…
django第一步 1. django安装 pip install django print(django.get_version()) 查看django版本 2. 创建项目 打开cmd,进入指定目录 django-admin startproject projectname或 django-admin startproject projectname .     #最后是空格加点 二者会在文件目录上存在差别 3. 创建应用 进入project目录 django-admin startapp a…