Python 2.7_爬取CSDN单页面博客文章及url(二)_xpath提取

上次用的是正则匹配文章title 和文章url,因为最近在看Scrapy框架爬虫需要了解xpath语法学习了下拿这个例子练手

1、爬取的单页面还是这个rooturl：http://blog.csdn.net/column/details/why-bug.html

2、用requests的 get方法添加一个header 请求rooturl获得网站源代码不添加header源代码里面是抓不到内容的

3、用lxml下的etree.HTML()方法将requests请求的html源码（html变量）返回给seletor这个对象

4、分析网页结构找到能够包含文章url和标题内容的区域调用返回的selector.xpath()方法返回一个Element类型对象的列表infos

5、定义一个空列表titlelists,这个大列表用来保存第6步取出的 titleurls列表和文章titlenames列表用zip函数整理成titlelist列表元素为（titleurl,titlename）元组的一个列表进而添加进大列表titlelists

6、大列表titlelists 此时的数据类型是列表每一个元素为一个小列表小列表元素为元组进行遍历切片之前用的是enumerate 方法取索引和内容现在用titlelists.index(i)方法取索引

代码如下：

#coding:utf-8

from lxml import etree

import requests

import sys

reload(sys)

sys.setdefaultencoding('utf8')

rooturl='http://blog.csdn.net/column/details/why-bug.html'

headers={'User-Agent':'Chrome'}

req=requests.get(rooturl,headers=headers)

req.encoding='utf-8'

html=req.text

selector=etree.HTML(html)

infos=selector.xpath('//ul[@class="detail_list"]/li')

titlelists=[]

for info in infos:

    titleurls=info.xpath('h4/a/@href')

    titlenames=info.xpath('h4/a/text()')

    titlelist=zip(titleurls,titlenames)

    titlelists.append(titlelist)

print  '爬取完毕，一共爬取了%s篇文章' % len(titlelists)

for i in titlelists:

    print '第%s篇文章为：【%s】,链接：%s' % (titlelists.index(i)+1,i[0][1],i[0][0])

Python 2.7_爬取CSDN单页面博客文章及url(二)_xpath提取_20170118的更多相关文章

Python 2.7_爬取CSDN单页面利用正则提取博客文章及url_20170114
年前有点忙,没来的及更博,最近看爬虫正则的部分巩固下 1.爬取的单页面:http://blog.csdn.net/column/details/why-bug.html 2.过程解析url获得网站 ...
一文搞定scrapy爬取众多知名技术博客文章保存到本地数据库，包含：cnblog、csdn、51cto、itpub、jobbole、oschina等
本文旨在通过爬取一系列博客网站技术文章的实践,介绍一下scrapy这个python语言中强大的整站爬虫框架的使用.各位童鞋可不要用来干坏事哦,这些技术博客平台也是为了让我们大家更方便的交流.学习.提高 ...
[Python学习] 简单爬取CSDN下载资源信息
这是一篇Python爬取CSDN下载资源信息的样例,主要是通过urllib2获取CSDN某个人全部资源的资源URL.资源名称.下载次数.分数等信息.写这篇文章的原因是我想获取自己的资源全部的评论信息. ...
python爬虫实例——爬取歌单
学习自<<从零开始学python网络爬虫>> 爬取酷狗歌单,保存入csv文件直接上源代码:(含注释) import requests #用于请求网页获取网页数据 from b ...
Python 2.7_爬取妹子图网站单页测试图片_20170114
1.url= http://www.mzitu.com/74100/x,2为1到23的值 2.用到模块 os 创建文件目录; re模块正则匹配目录名图片下载地址; time模块限制下载时间;req ...
python使用bs4爬取boss静态页面
思路: 1.将需要查询城市列表,通过城市接口转换成相应的code码 2.遍历城市.职位生成url 3.通过url获取列表页面信息,遍历列表页面信息 4.再根据列表页面信息的job_link获取详情页面 ...
爬虫概念与编程学习之如何爬取视频网站页面（用HttpClient）（二）
先看,前一期博客,理清好思路. 爬虫概念与编程学习之如何爬取网页源代码(一) 不多说,直接上代码. 编写代码运行 <!DOCTYPE html><html><head& ...
看我怎么扒掉CSDN首页的底裤（python selenium+phantomjs爬取CSDN首页内容）
这里只是学习一下动态加载页面内容的抓取,并不适用于所有的页面. 使用到的工具就是python selenium和phantomjs,另外调试的时候还用了firefox的geckodriver.exe. ...
爬取王垠的博客并生成pdf
尚未完善,有待改进 #!/usr/bin/env python3 # -*- coding: utf-8 -*- __author__ = 'jiangwenwen' import pdfkit im ...

随机推荐

Linux：文件
Linux:文件文件属性用户分为三种:文件拥有者.群组以及其它人,对不同的用户有不同的文件权限. 使用 ls 查看一个文件时,会显示一个文件的信息,例如 drwxr-xr-x. 3 root ro ...
Android:日常学习笔记(4)——探究活动（1）
Android:日常学习笔记(4)——探究活动什么是活动: 活动是最容易吸引用户的地方,它是一种可以包含用户界面的组件,主要用于和用户进行交互. 手动创建活动创建空活动 1.新建活动时选择Add ...
01 Spring框架基本介绍
相信学习java,并且走Web道路的道友都应该知道Spring的大名,它的地位相信也不需要我在这里多说什么,接下来的文章就Spring的配置和使用来进行一些讲解. 首先学习框架我们都要考虑和做到以下几 ...
php数组函数-array_keys()
array_keys()函数返回包含数组中所有键名的一个新数组如果提供了第二个参数,则返回键值为该值得键名如果strict参数指定为true,则php会使用全等(===)来严格检查键值的数据类型 ...
React-Native Listview组件用法详解
ListView作为React Native的核心组件,用于高效地显示一个可以垂直滚动的变化的数据列表.其中最重要的属性之一是DataSource,列表依赖的数据源,用于实例化一个ListView对象 ...
flume 使用遇到问题及解决
1. ../flume/fchannel/spool/data/ 目录下发生缓存文件积压可能原因:同一时间同一客户端下向两个监控目录mv文件:或同一时间多个客户端向服务端上传文件 2.清空../fl ...
oracle 导出
一.导出csv文件利用Oracle中的Spool缓冲池技术可以实现Oracle数据导出到文本文件. 1).在Oracle PL/SQL中输入缓冲开始命令,并指定输出的文件名: spool /tmp/ ...
查找文件【TLCL】
locate locate 执行快速的路径名数据库搜索,输出每个与指定子字符串相匹配的路径名. locate bin/zip locate 命令的数据库是updatedb命令创建的. find loc ...
vc 判断当前用户是否在管理员组以及是否SYSTEM权限运行
BOOL IsUserInAdminGroup() //判断是否在管理员组 { BOOL fInAdminGroup = FALSE; HANDLE hToken = NULL; HANDLE hTo ...
10.0.4_对应的相关Windows服务
对应 VMware Workstation 版本为:“10.0.4 build-2249910” 我的os是Win7 x64. Windows服务: 1. 服务名:VMware NAT Service ...

Python 2.7_爬取CSDN单页面博客文章及url(二)_xpath提取_20170118

Python 2.7_爬取CSDN单页面博客文章及url(二)_xpath提取_20170118的更多相关文章

随机推荐

热门专题