python爬虫之爬取糗事百科并将爬取内容保存至Excel中

本篇博文为使用python爬虫爬取糗事百科content并将爬取内容存入excel中保存·.

实验环境：Windows10 代码编辑工具：pycharm

使用selenium（自动化测试工具）+phantomjs(无界面的浏览器也可以使用Firefox或者chrome）+beautiful soup来爬取并解析页面

代码如下：

#_*_coding:utf-8_*_
from selenium import webdriver
from bs4 import BeautifulSoup
import xlwt
import sys
reload(sys)
sys.setdefaultencoding("gbk")
driver=webdriver.PhantomJS();
driver.set_window_size(1120, 550)

wbk=xlwt.Workbook()
sheet=wbk.add_sheet("sheet1")

class Crawl_spider(object):
　　def __init__(self,page):
　　self.page=page

　　def crawl(self):
　　index=1
　　row=0
　　contents=[]
　　while self.page <= 2: #此处可根据要爬取的页面数量做修改
　　　　url='https://www.qiushibaike.com/8hr/page/'+str(self.page)
　　　　driver.get(url)
　　　　html = driver.page_source
　　　　soup = BeautifulSoup(html, "lxml")
　　　　print soup.title.string #打印每个页面的title
　　　　for item in soup.findAll("div", {"class": "content"}):
　　　　　　string = str(index) + ':'+ item.getText().strip()
　　　　　　sheet.write(row,0,string)
　　　　　　row+=1
　　　　　　index += 1

　　　　self.page+=1
　　wbk.save('lucky.xls')

spider1=Crawl_spider(1) #实例化一个对象
spider1.crawl()

实验结果：生成一个名为lucky的xls文件

python爬虫之爬取糗事百科并将爬取内容保存至Excel中的更多相关文章

爬取糗事百科热门段子的数据并保存到本地，xpath的使用
和之前的爬虫类博客的爬取思路基本一致: 构造url_list,因为糗事百科的热门栏目默认是13页,所以这个就简单了遍历发送请求获取响应提取数据,这里用的是xpath提取,用的是Python的第三方 ...
Python爬取糗事百科
import urllib import urllib.request from bs4 import BeautifulSoup """ 1.抓取糗事百科所有纯 ...
8.Python爬虫实战一之爬取糗事百科段子
大家好,前面入门已经说了那么多基础知识了,下面我们做几个实战项目来挑战一下吧.那么这次为大家带来,Python爬取糗事百科的小段子的例子. 首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把 ...
python网络爬虫--简单爬取糗事百科
刚开始学习python爬虫,写了一个简单python程序爬取糗事百科. 具体步骤是这样的:首先查看糗事百科的url:http://www.qiushibaike.com/8hr/page/2/?s=4 ...
Python爬虫实战一之爬取糗事百科段子
大家好,前面入门已经说了那么多基础知识了,下面我们做几个实战项目来挑战一下吧.那么这次为大家带来,Python爬取糗事百科的小段子的例子. 首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把 ...
转 Python爬虫实战一之爬取糗事百科段子
静觅 » Python爬虫实战一之爬取糗事百科段子首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把,这次我们尝试一下用爬虫把他们抓取下来. 友情提示糗事百科在前一段时间进行了改版,导致 ...
python爬虫29 | 使用scrapy爬取糗事百科的例子，告诉你它有多厉害！
是时候给你说说爬虫框架了使用框架来爬取数据会节省我们更多时间很快就能抓取到我们想要抓取的内容框架集合了许多操作比如请求,数据解析,存储等等都可以由框架完成有些小伙伴就要问了你他妈的 ...
[爬虫]用python的requests模块爬取糗事百科段子
虽然Python的标准库中 urllib2 模块已经包含了平常我们使用的大多数功能,但是它的 API 使用起来让人感觉不太好,而 Requests 自称 “HTTP for Humans”,说明使用更 ...
初识python 之爬虫：使用正则表达式爬取“糗事百科 - 文字版”网页数据
初识python 之爬虫:使用正则表达式爬取"古诗文"网页数据的兄弟篇. 详细代码如下: #!/user/bin env python # author:Simple-Sir ...

随机推荐

开发微信小程序入门教程，含破解工具
2016年09月21日晚微信发不了微信“小程序”的内测版,一时间整个互联网都炸了锅.个大新闻.论坛都在讨论这个事情. 作为互联网的一猿,我们怎能不紧跟时代的脚步.于是第二天上午也对微信发布的“小程序 ...
windows下的phpunit安装
Windows Globally installing the PHAR involves the same procedure as manually installing Composer on ...
第一话：IE中用DOM方法绑定事件
工作比较忙,但是也一定要抽时间出来提升一下自己的基本功,只有技术实力到位,才能为公司和个人创造更多的价值.下面进入主题: IE中事件监听比较容易用到,但是由它所引出的一个关于this的问题,不得不着重 ...
JDBC 连接 MySQL 时碰到的小坑
最近从MS SQL Server换到了MySQL,已经是8.11版本了,安装的时候似乎还用了新的身份认证方式之类的,连接过程中也是磕磕绊绊,碰到很多奇奇怪怪的问题,在此记录下来. 驱动加载: 以前使用 ...
如何让springmvc在启动的时候执行特定的业务处理
如何让springmvc在启动的时候执行特定的业务处理 java 的 web服务器启动时,经常会做一些特定的业务逻辑处理,比如数据库初始化, 初始化系统参数,读取配置文库等. 很多web服务的中间件, ...
MATLAB搬移到别的电脑出现License Manager Error -9
是注册码的问题,不需要重装,主要是以前的安装包不见了.解决办法: 下一个KeyGen的MLMCrypt.exe文件.运行之后在当前目录下出现一个LICENSE.DAT文件. 复制到matlab.exe ...
Java锁---偏向锁、轻量级锁、自旋锁、重量级锁
之前做过一个测试,反复执行过多次,发现结果是一样的: 1. 单线程下synchronized效率最高(当时感觉它的效率应该是最差才对): 2. AtomicInteger效率最不稳定,不同并发情况下表 ...
Java网络编程のTCP/IP
TCP/IP参考模型和TCP/IP协议与OSI参考模型相似,TCP/IP参考模型汲取了网络分层的思想,而且对网络的层次做了简化,并在网络各层都提供了完善的协议,这些协议构成了TCP/IP协议集,简称 ...
C++派生类在构造和析构过程中做的事
(一)构造时: (1)首先调用继承关系中第一个基类(最靠左边的)的构造函数,然后第二个,第三个,以此类推 (2)然后调用成员对象的构造函数,这个顺序按照定义的顺序,与构造函数初始化列表的顺序无关. ( ...
Transaction And Lock--死锁错误号1205
在TSQL中,如果需要判断当前错误是否是因为死锁引起,可以使用ERROR_NUMBER()=1205来判断在C#中,使用SQLException来捕获 SQLException.Number=1205 ...

python爬虫之爬取糗事百科并将爬取内容保存至Excel中

python爬虫之爬取糗事百科并将爬取内容保存至Excel中的更多相关文章

随机推荐

热门专题