python+xpath+requests爬取维基百科历史上的今天

import requests

import urllib.parse

import datetime

from lxml import etree

fhout = open("result.txt", 'a')

baseurl = 'https://zh.wikipedia.org/wiki/'

begin_date = datetime.datetime.strptime('2016-01-01', "%Y-%m-%d")

contents=[]

for i in range(196,366):

    content = []

    mid_date = begin_date + datetime.timedelta(days=i)

    thedate = str(mid_date.month) + '月' + str(mid_date.day) + '日'

    print(thedate)

    urlthedate = urllib.parse.quote(thedate)

    url = baseurl + urlthedate

    print(url)

    html = requests.get(url).text.encode("utf-8")

    tree = etree.HTML(html)

    ul = tree.xpath('//li[@class="toclevel-1 tocsection-1"]/ul/li/a/span[@class="toctext"]/text()')

    num = len(ul)

    fhout.write("data_"+str(mid_date.month)+"_"+str(mid_date.day)+"=[")

    for i in range(num, 0, -1):

        records = tree.xpath('//div[@id="mw-content-text"]/div[@class="mw-parser-output"]/ul['+ str(i) +']/li[descendant-or-self::text()]')

        ulen = len(records)

        for j in range(ulen-1,-1,-1):

            content.append(records[j].xpath('string(.)'))

            fhout.write("'"+records[j].xpath('string(.)')+"'\n")

    fhout.write("]\n")

    print(content)

    contents.append(content)

fhout.close()

python+xpath+requests爬取维基百科历史上的今天的更多相关文章

从0开始学爬虫8使用requests/pymysql和beautifulsoup4爬取维基百科词条链接并存入数据库
从0开始学爬虫8使用requests和beautifulsoup4爬取维基百科词条链接并存入数据库 Python使用requests和beautifulsoup4爬取维基百科词条链接并存入数据库参考 ...
python+selenium+requests爬取我的博客粉丝的名称
爬取目标 1.本次代码是在python2上运行通过的,python3的最需改2行代码,用到其它python模块 selenium 2.53.6 +firefox 44 BeautifulSoup re ...
python+selenium+requests爬取qq空间相册时遇到的问题及解决思路
最近研究了下用python爬取qq空间相册的问题,遇到的问题及解决思路如下: 1.qq空间相册的访问需要qq登录并且需是好友,requests模块模拟qq登录略显麻烦,所以采用selenium的dri ...
python简单爬虫爬取百度百科python词条网页
目标分析:目标:百度百科python词条相关词条网页 - 标题和简介入口页:https://baike.baidu.com/item/Python/407313 URL格式: - 词条页面URL:/ ...
Python使用requests爬取一个网页并保存
#导入 requests模块import requests #设置请求头,让网站监测是浏览器 headers = { 'user-agent': 'Mozilla/5.0 (Windows NT 6. ...
爬取维基百科人物介绍,并使用pymysql存储到数据库
代码如下: from urllib.request import urlopen from bs4 import BeautifulSoup import re import datetime imp ...
Python转页爬取某铝业网站上的数据
天行健,君子以自强不息:地势坤,君子以厚德载物! 好了废话不多说,正式进入主题,前段时间应朋友的请求,爬取了某铝业网站上的数据.刚开始呢,还是挺不愿意的(主要是自己没有完整的爬取过网上的数据哎,即是不 ...
jQuery请求维基百科[历史上的今天]
<!DOCTYPE html> <html> <head> <meta charset="UTF-8"> <title> ...
python xpath图片爬取
import requests from urllib.request import urlretrieve from lxml import etree headers = { 'User-Agen ...

随机推荐

java 读写csv
import java.io.IOException; import java.nio.charset.Charset; import com.csvreader.CsvReader; import ...
openerp many2many
many2many (0,0,{values}) 根据values里面的信息新建一个记录. (1,ID,{values})更新id=ID的记录(写入values里面的数据) (2,ID) 删除id=I ...
Autocomplete in ASP.NET MVC3自动检索并填充输入框
1.单一产品情况下使用: public ActionResult GetStockList() { var item = _db.Stocks.ToList().Select(s =>s.Pro ...
Redis学习（5）-Jedis(Java操作redis数据库技术)
Java连接redis 一,导入jar包 Redis有什么命令,Jedis就有什么方法设置防火墙在Linux上面运行如下代码: 单实例:Jedis实例: package com.jedis.dem ...
深入浅出Java垃圾回收机制（一）（转载）
转载来做笔记的:原文地址:http://www.importnew.com/1993.html. 对于Java开发人员来说,了解垃圾回收机制(GC)有哪些好处呢?首先可以满足作为一名软件工程师的求知欲 ...
转发：微信小程序-template模板使用
转载于CSDN--[向朔1992]处.(部分内容根据实际情况有所修改) 小程序实现主页面调用次级页面的wxml页面内容,如下图: 根据上图,我们可以将图片和图片信息作为一个goodsList.wx ...
百度UEditor富文本编辑器去除过滤div等标签
将设计排版好的页面html代码上传到数据库,再读取出来的时候发现所有的div都被替换成了p标签. 解决方法: 首先在ueditor.all.js文件内搜索allowDivTransToP,找到如下的代 ...
sleep()和usleep()的使用和区别
在iOS中如果在主线程中用这2个都会对主线程造成阻塞具体区别如下 Linux 中的代码为例函数名: sleep头文件: #include <windows.h> ...
Socket详解-Linux Socket编程（不限Linux）
“一切皆Socket!” 话虽些许夸张,但是事实也是,现在的网络编程几乎都是用的socket. ——有感于实际编程和开源项目研究. 我们深谙信息交流的价值,那网络中进程之间如何通信,如我们每天打开浏览 ...
在windows下部署Redis 当作系统服务器自动启动
部署Redis 其实Redis是可以安装成windows服务的,开机自启动,命令如下: redis-server --service-install redis.windows.conf 安装完之后, ...

python+xpath+requests爬取维基百科历史上的今天

python+xpath+requests爬取维基百科历史上的今天的更多相关文章

随机推荐

热门专题