Python实现采集wordpress整站数据的爬虫

最近爱上了python，就非常喜欢使用python来练手，在上次的基础上完善一下代码，实现采集wordpress程序的网站的整站数据的爬虫程序，本站也是采用的wordpress，我就拿吾八哥网(http://www.5bug.wang/)来练手了！简单分析下这个爬虫的思路，从首页开始，抓取href标签，到子页面后还是要继续找href标签，那么很容易想到要用到递归了，直接贴代码吧！写了点简单的注释，如下：

import re

import bs4

import urllib.request

url_home = 'http://www.5bug.wang/'  #要采集的网站

url_pattern = url_home + '([\s\S]*)\.html' #正则表达式匹配文章页面，此处需完善为更好的写法

url_set = set()

url_cache = set()

url_count = 0

url_maxCount = 1000  #最大采集数量

#采集匹配文章内容的href标签

def spiderURL(url, pattern):

    html = urllib.request.urlopen(url).read().decode('utf8')

    soup = bs4.BeautifulSoup(html, 'html.parser')

    links = soup.find_all('a', href = re.compile(pattern))

    for link in links:

        if link['href'] not in url_cache:

            url_set.add(link['href'])

    return soup

#采集的过程  异常处理还需要完善，对于一些加了防采集的站，还需要处理header的，下次我们再学习

spiderURL(url_home, url_pattern)

while len(url_set) != 0:

    try:

        url = url_set.pop()

        url_cache.add(url)

        soup = spiderURL(url, url_pattern)

        page = soup.find('div', {'class':'content'})

        title = page.find('h1').get_text()

        autor = page.find('h4').get_text()

        content = page.find('article').get_text()

        print(title, autor, url)

    except Exception as e:

        print(url, e)

        continue

    else:

        url_count += 1

    finally:

        if url_count == url_maxCount:

            break

print('一共采集了： ' + str(url_count) + ' 条数据')

Python实现采集wordpress整站数据的爬虫的更多相关文章

quotes 整站数据爬取存mongo
安装完成scrapy后爬取部分信息已经不能满足躁动的心了,那么试试http://quotes.toscrape.com/整站数据爬取第一部分项目创建 1.进入到存储项目的文件夹,执行指令 scra ...
wordpress整站无损搬迁的几种方法最后一种最完美
网站建设之wordpress整站无损搬迁的几种方法最后一种最完美网站搬家,当我们更换php虚拟主机,空间升级或更好空间提供商都会发生,站长们请注意,掌握网站迁移方法,是网站日常维护技术中必须掌握的 ...
WordPress整站轻松开启HTTPS
近两年来HTTPS取代HTTP已经成为大势所趋.早在2014年google Chromium安全团队提议将所有的HTTP协议网站标注为不安全.现在,Chrome浏览器已经开始执行这一标准了.从 Chr ...
Python scrapy------分类获取美团整站数据
欢迎联系讨论:qq:1170370113 以下是我们获取美团页面的城市信息获取到了城市信息以后我们可以进行分类保存,以便于后续能够分类获取数据获取我们需要城市的景区的所有相关id并且进行保存最后 ...
【Python数据分析案例】python数据分析老番茄B站数据（pandas常用基础数据分析代码）
一.爬取老番茄B站数据前几天开发了一个python爬虫脚本,成功爬取了B站李子柒的视频数据,共142个视频,17个字段,含: 视频标题,视频地址,视频上传时间,视频时长,是否合作视频,视频分区,弹幕 ...
[Python] 通过采集两万条数据，对《无名之辈》影评分析
一.说明本文主要讲述采集猫眼电影用户评论进行分析,相关爬虫采集程序可以爬取多个电影评论. 运行环境:Win10/Python3.5. 分析工具:jieba.wordcloud.pyecharts.m ...
wordpress整站搬家总结
去年图便宜,也没准备认真写博文,所以花了几百元钱买了个国内空间(域名已经备案).购买了以后,放了一个wordpress博客,没事的时候写写博文,但从没有抽出时间去写,文章的质量也不追求.一开始还可以, ...
Scrapy：腾讯招聘整站数据爬取
项目地址:https://hr.tencent.com/ 步骤一.分析网站结构和待爬取内容以下省略一万字步骤二.上代码(不能略了) 1.配置items.py import scrapy class ...
[Python] 通过采集23万条数据，对《哪吒》影评分析
一.说明数据来源:猫眼: 运行环境:Win10/Python3.7 和 Win7/Python3.5: 分析工具:jieba.WorldCloud.pyecharts和matplotlib: 程序基 ...

随机推荐

201521123082《Java程序设计》第2周学习总结
201521123082<Java程序设计>第2周学习总结标签(空格分隔): Java 1.本周学习总结巩固了类型转换的相关细节初步认识了类和对象,使用Java撰写程序几乎都在使用对 ...
201521123038 《Java程序设计》第十四周学习总结
201521123038 <Java程序设计> 第十四周学习总结 1. 本周学习总结 1.1 以你喜欢的方式(思维导图或其他)归纳总结多数据库相关内容. 接口: DriverManager ...
201521123109 《java程序设计》第13周学习总结
1. 本周学习总结以你喜欢的方式(思维导图.OneNote或其他)归纳总结多网络相关内容. 2. 书面作业 1. 网络基础 1.1 比较ping www.baidu.com与ping cec.jmu ...
JSP第七篇【简单标签、应用、DynamicAttribute接口】
为什么要用到简单标签? 上一篇博客中我已经讲解了传统标签,想要开发自定义标签,大多数情况下都要重写doStartTag(),doAfterBody()和doEndTag()方法,并且还要知道SKIP_ ...
Visual studio code快捷键
{"key": "escape", "command": "cancelSelection", "when&q ...
IDEA 2 的注册码
43B4A73YYJ-eyJsaWNlbnNlSWQiOiI0M0I0QTczWVlKIiwibGljZW5zZWVOYW1lIjoibGFuIHl1IiwiYXNzaWduZWVOYW1lIjoiI ...
Java学习笔记二---设置环境变量JAVA_HOME,CLASSPATH,PATH
1.环境变量包括: JAVA_HOME,CLASSPATH,PATH 2.设置环境变量的目的: 路径搜索,方便查找到jdk的安装路径.方便搜索用到的类文件.方便搜索用到的可执行文件如java,java ...
spring实例化dataSource使用jndi和jdbc两种方式
一.使用jndi的方式这种方式方便测试人员不需要改代码,直接改变tomcat的server.xml就可以更改数据库连接 spring创建bean <bean id="dataSour ...
SQL Server 2016 Alwayson新增功能
标签:SQL SERVER/MSSQL SERVER/数据库/DBA/ 概述 SQLServer2016发布版本到现在已有一年多的时间了,目前最新的稳定版本是SP1版本.接下来就开看看2016在Alw ...
NavigationController的返回按钮自定义
假设需求时这样: NavigationController下有2个视图,从A视图会Push到B视图,默认情况下,当显示视图B时,视图B的导航bar上会出现返回按钮,按钮标题文字默认为A视图的title ...

Python实现采集wordpress整站数据的爬虫

Python实现采集wordpress整站数据的爬虫的更多相关文章

随机推荐

热门专题