python+xpath+requests爬取维基百科历史上的今天

import requests

import urllib.parse

import datetime

from lxml import etree

fhout = open("result.txt", 'a')

baseurl = 'https://zh.wikipedia.org/wiki/'

begin_date = datetime.datetime.strptime('2016-01-01', "%Y-%m-%d")

contents=[]

for i in range(196,366):

    content = []

    mid_date = begin_date + datetime.timedelta(days=i)

    thedate = str(mid_date.month) + '月' + str(mid_date.day) + '日'

    print(thedate)

    urlthedate = urllib.parse.quote(thedate)

    url = baseurl + urlthedate

    print(url)

    html = requests.get(url).text.encode("utf-8")

    tree = etree.HTML(html)

    ul = tree.xpath('//li[@class="toclevel-1 tocsection-1"]/ul/li/a/span[@class="toctext"]/text()')

    num = len(ul)

    fhout.write("data_"+str(mid_date.month)+"_"+str(mid_date.day)+"=[")

    for i in range(num, 0, -1):

        records = tree.xpath('//div[@id="mw-content-text"]/div[@class="mw-parser-output"]/ul['+ str(i) +']/li[descendant-or-self::text()]')

        ulen = len(records)

        for j in range(ulen-1,-1,-1):

            content.append(records[j].xpath('string(.)'))

            fhout.write("'"+records[j].xpath('string(.)')+"'\n")

    fhout.write("]\n")

    print(content)

    contents.append(content)

fhout.close()

python+xpath+requests爬取维基百科历史上的今天的更多相关文章

从0开始学爬虫8使用requests/pymysql和beautifulsoup4爬取维基百科词条链接并存入数据库
从0开始学爬虫8使用requests和beautifulsoup4爬取维基百科词条链接并存入数据库 Python使用requests和beautifulsoup4爬取维基百科词条链接并存入数据库参考 ...
python+selenium+requests爬取我的博客粉丝的名称
爬取目标 1.本次代码是在python2上运行通过的,python3的最需改2行代码,用到其它python模块 selenium 2.53.6 +firefox 44 BeautifulSoup re ...
python+selenium+requests爬取qq空间相册时遇到的问题及解决思路
最近研究了下用python爬取qq空间相册的问题,遇到的问题及解决思路如下: 1.qq空间相册的访问需要qq登录并且需是好友,requests模块模拟qq登录略显麻烦,所以采用selenium的dri ...
python简单爬虫爬取百度百科python词条网页
目标分析:目标:百度百科python词条相关词条网页 - 标题和简介入口页:https://baike.baidu.com/item/Python/407313 URL格式: - 词条页面URL:/ ...
Python使用requests爬取一个网页并保存
#导入 requests模块import requests #设置请求头,让网站监测是浏览器 headers = { 'user-agent': 'Mozilla/5.0 (Windows NT 6. ...
爬取维基百科人物介绍,并使用pymysql存储到数据库
代码如下: from urllib.request import urlopen from bs4 import BeautifulSoup import re import datetime imp ...
Python转页爬取某铝业网站上的数据
天行健,君子以自强不息:地势坤,君子以厚德载物! 好了废话不多说,正式进入主题,前段时间应朋友的请求,爬取了某铝业网站上的数据.刚开始呢,还是挺不愿意的(主要是自己没有完整的爬取过网上的数据哎,即是不 ...
jQuery请求维基百科[历史上的今天]
<!DOCTYPE html> <html> <head> <meta charset="UTF-8"> <title> ...
python xpath图片爬取
import requests from urllib.request import urlretrieve from lxml import etree headers = { 'User-Agen ...

随机推荐

Oracle常见的异常处理
总结了在操作数据库的时候常常遇见的Oracle异常以及处理方法. 代码提示备注一般处理方法 ORA-01861 文字与格式字符串不匹配- ORA-00904 invalid column nam ...
坦克大战-C语言-详注版
代码地址如下:http://www.demodashi.com/demo/14259.html 坦克大战-C语言-详注版概述本文详述了C语言版坦克大战游戏的原理以及实现方法,对游戏代码进行了详细的 ...
Git恢复之前版本的两种方法reset、revert（图文详解）
一.问题描述在利用github实现多人合作程序开发的过程中,我们有时会出现错误提交的情况,此时我们希望能撤销提交操作,让程序回到提交前的样子,本文总结了两种解决方法:回退(reset).反做(reve ...
Mint17 一些安装备忘
1,中文输入法: sudo apt-add-repository ppa:fcitx-team/dailybuild-fcitx-master sudo apt-get update sudo apt ...
Swift内存管理、weak和unowned以及两者区别（如何使用Swift 中的weak与unowned？）
Swift 是自动管理内存的,这也就是说,我们不再需要操心内存的申请和分配. 当我们通过初始化创建一个对象时,Swift 会替我们管理和分配内存.而释放的原则遵循了自动引用计数 (ARC) 的规则:当 ...
&&和;和||符号的意思
http://www.cnblogs.com/xuxm2007/archive/2011/01/16/1936836.html在命令行可以一次执行多个命令,有以下几种: 1.每个命令之间用;隔开 ...
java多线程学习--java.util.concurrent
CountDownLatch,api 文档:http://docs.oracle.com/javase/7/docs/api/java/util/concurrent/CountDownLatch.h ...
RHCE7 管理II-3使用VIM编辑器
vim的不同版本: 1.vim-minial 提供vi和相关命令.在RHEL 7的最小安装中 2.vim-enhanced 提供vim命令.提供语法突出显示.文件类型插件和拼写检查等功能 3.vim- ...
STM32F4—fsmc的配置步骤
0:开启GPIO时钟和FSMC时钟 1:配置GPIO 2:配置片选控制寄存器 3:配置片选时序寄存器 4:配置写入时序寄存器 GPIO_InitTypeDef GPIO_InitStructure;/ ...
[转载]Class-AB Amplifier 笔记
Class-AB Amplifier 笔记 Reading Notes from Mikko Loikkanen “Design and Compensation of High Performanc ...

python+xpath+requests爬取维基百科历史上的今天

python+xpath+requests爬取维基百科历史上的今天的更多相关文章

随机推荐

热门专题