Python 2.7_爬取CSDN单页面利用正则提取博客文章及url

年前有点忙,没来的及更博,最近看爬虫正则的部分巩固下

1.爬取的单页面：http://blog.csdn.net/column/details/why-bug.html

2.过程解析url获得网站源代码

3.找到文章标题列表和文章url(a标签下’href'属性）组成列表

4.for循环取出

#解析用到的还是urlllib urllib2两个模块并加了个header请求表头

代码及过程如下：

#coding:utf-8

import re

import urllib

import urllib2

rooturl='http://blog.csdn.net/column/details/why-bug.html'

#urllib2.Request()方法 请求

req=urllib2.Request(rooturl)

req.add_header('User-Agent','Chrome')

req=urllib2.urlopen(req)

#req变量的read()方法获得源代码

html=req.read()

#分析文章标题和href属性

#标题和文章url都在a标签内 url格式为'http://blog.csdn.net/pleasecallmewhy/article/details/(****)',标题在'target="_blank">(****)</a>'

#写正则表达式 利用()小括号将url和标题分组

rs=r'<a href="(http://blog.csdn.net/pleasecallmewhy/article/details/.*?)" target="_blank">(.*?)</a>'

#利用正则findall(正则表达式rs,查找的范围) 现在及findall(rs,html)找到所有符合条件的元素并返回一个列表titlelist

titlelist=re.findall(rs,html)

#因为正则表达式是有2个分组 一个是文章url('href='以后括号的内容）,一个是文章标题 这两个内容在titlelist里面是以元组形式构成的

#列表的长度就是页面有多少篇博客文章

print '爬取完毕，一共%s篇文章' % len(titlelist)

#因为想实现打印出第几篇文章 文章标题 文章链接的效果 需要对titlelist进行遍历 用到的是列表list类的enumerate()方法 打印出列表索引和值

#第一个索引值为0 值为一个元组（文章url,文章标题) 这个元组又可以切片 因此取这个元组的第一个元素和第二个元素及实现效果

for i,j in enumerate(titlelist):

    #i为titlelist列表的索引 j为titlelist列表的值

    #取j的第一个元素j[0]即文章url 赋值给变量titurl 标题同样

    titleurl=j[0]

    titlename=j[1]

    #打印效果 用%格式化输出 titlelist索引值从0开始因此对i+1 代表第一篇文章

    print '第%s篇文章为：【%s】,链接：%s' %(i+1,titlename,titleurl)

Python 2.7_爬取CSDN单页面利用正则提取博客文章及url_20170114的更多相关文章

Python 2.7_爬取CSDN单页面博客文章及url(二)_xpath提取_20170118
上次用的是正则匹配文章title 和文章url,因为最近在看Scrapy框架爬虫需要了解xpath语法学习了下拿这个例子练手 1.爬取的单页面还是这个rooturl:http://blog.csd ...
[Python学习] 简单爬取CSDN下载资源信息
这是一篇Python爬取CSDN下载资源信息的样例,主要是通过urllib2获取CSDN某个人全部资源的资源URL.资源名称.下载次数.分数等信息.写这篇文章的原因是我想获取自己的资源全部的评论信息. ...
python爬虫实例——爬取歌单
学习自<<从零开始学python网络爬虫>> 爬取酷狗歌单,保存入csv文件直接上源代码:(含注释) import requests #用于请求网页获取网页数据 from b ...
Python 2.7_爬取妹子图网站单页测试图片_20170114
1.url= http://www.mzitu.com/74100/x,2为1到23的值 2.用到模块 os 创建文件目录; re模块正则匹配目录名图片下载地址; time模块限制下载时间;req ...
python使用bs4爬取boss静态页面
思路: 1.将需要查询城市列表,通过城市接口转换成相应的code码 2.遍历城市.职位生成url 3.通过url获取列表页面信息,遍历列表页面信息 4.再根据列表页面信息的job_link获取详情页面 ...
看我怎么扒掉CSDN首页的底裤（python selenium+phantomjs爬取CSDN首页内容）
这里只是学习一下动态加载页面内容的抓取,并不适用于所有的页面. 使用到的工具就是python selenium和phantomjs,另外调试的时候还用了firefox的geckodriver.exe. ...
Python爬取CSDN博客文章
0 url :http://blog.csdn.net/youyou1543724847/article/details/52818339Redis一点基础的东西目录 1.基础底层数据结构 2.win ...
开发记录_自学Python写爬虫程序爬取csdn个人博客信息
每天刷开csdn的博客,看到一整个页面,其实对我而言,我只想看看访问量有没有上涨而已... 于是萌生了一个想法: 想写一个爬虫程序把csdn博客上边的访问量和评论数都爬下来. 打算通过网络各种搜集资料 ...
大神：python怎么爬取js的页面
大神:python怎么爬取js的页面可以试试抓包看看它请求了哪些东西, 很多时候可以绕过网页直接请求后面的API 实在不行就上 selenium (selenium大法好) selenium和pha ...

随机推荐

谷歌机器学习速成课程---2深入了解机器学习(Descending into ML)
1.线性回归人们早就知晓,相比凉爽的天气,蟋蟀在较为炎热的天气里鸣叫更为频繁.数十年来,专业和业余昆虫学者已将每分钟的鸣叫声和温度方面的数据编入目录.Ruth 阿姨将她喜爱的蟋蟀数据库作为生日礼物送 ...
iOS 优化界面流畅度的探讨
界面流畅度大都跟list scrollView有紧密关联流畅的视觉:就是如丝般顺滑不流畅视觉:”卡顿”,”抖动”,”迟顿感” 以上两种状态的描述都是基于主观感觉,对于开发者来说确实应该有一个 ...
Hibernate深入浅出（九）持久层操作——数据保存&批量操作
数据保存: 1)session.save session.save方法用于实体对象到数据库的持久化操作.也就是说,session.save方法调用与实体对象所匹配的Insert SQL,将数据插入 ...
matlab 三维绘制
1. mesh(Z)语句 mesh(Z)语句可以给出矩阵Z元素的三维消隐图,网络表面由Z坐标点定义,与前面叙述的x-y平面的线格相同,图形由邻近的点连接而成．它可用来显示用其它方式难以输出的包含大量数 ...
HTML学习笔记(下)
表格标签 <!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3 ...
RTC是DS1339，驱动采用的是rtc-ds1307.c
我的外部RTC是DS1339,驱动采用的是rtc-ds1307.c在内核里选上了 <*> I2C support 以及 [*] Set system time from RTC on ...
Django框架之cookie和session及开发登录功能
1.cookie是什么? Web应用程序是使用HTTP协议传输数据的.HTTP协议是无状态的协议.一旦数据交换完毕,客户端与服务器端的连接就会关闭,再次交换数据需要建立新的连接.这就意味着服务器无法从 ...
CSS3手风琴菜单可同时折叠多个菜单
在线演示本地下载
sql 数据库中只靠一个数据，查询到所在表和列名
有时候我们想通过一个值知道这个值来自数据库的哪个表以及哪个字段,在网上搜了一下,找到一个比较好的方法,通过一个存储过程实现的.只需要传入一个想要查找的值,即可查询出这个值所在的表和字段名. 前提是要将 ...
BZOJ-1396: 识别子串
后缀自动机+线段树先建出\(sam\),统计一遍每个点的\(right\)集合大小\(siz\),对于\(siz=1\)的点\(x\),他所代表的子串只会出现一次,设\(y=fa[x]\),则这个点 ...

Python 2.7_爬取CSDN单页面利用正则提取博客文章及url_20170114

Python 2.7_爬取CSDN单页面利用正则提取博客文章及url_20170114的更多相关文章

随机推荐

热门专题