python scrapy框架爬取豆瓣

刚刚学了一下，还不是很明白。随手记录。

在piplines.py文件中将爬到的数据放到json中

class DoubanmoviePipelin2json(object):
#打开文件 open_spider 内部自带 不能自己起名

    def open_spidef(self,spider):

        self.json=open("doubantop250.json","w",encoding="utf-8")

        self.jsonfile.write("["+"/n")

        self.first=1
# 对数据进行跌代 放入json文件中

    def process_item(self,item,spider):

        if self ==1:

            movie=json.dumps(dict(item),ensure_ascii=False)

            self.jsonfile.write(movie)

            self.first=0

        else:

             movie=",\n"+json.dumps(dict(item),ensure_ascii=False)

            self.jsonfile.write(movie)

    return item
#关闭文件

    def close_spider(self,spider):

        self.jsonfile.write("\n"+"]")

        self.jsonfile.close()

写入xls中

 class DoubanmoviePipline2xls(object):

     def open_spider(self,spider):

         self.workbook=xlwt.Workbook(encoding="utf-8")

         self.worksheet=self.work.add_sheet("doubantop250")

         hearder=["电影排名","电影名"]

         for colsIndex in range(len(header)):

             worksheet.write(0,colsIndex,header[colsIndex])

         self.rows=1

     def process_item(self,item,spider):

         movie=[item[k] for k in item]

         for colsIndex in range(len(movie)):

 　　　　　　　self.worksheet.write(self.rows,colsIndex,movie[colsIndex])]

 　　　　　　　self.rows+=1

14　　 return item

     def close_spider(self,spider):

         self.rows=0

         self.workbook.save("doubantop250.xls")

python scrapy框架爬取豆瓣的更多相关文章

基于python的scrapy框架爬取豆瓣电影及其可视化
1.Scrapy框架介绍主要介绍,spiders,engine,scheduler,downloader,Item pipeline scrapy常见命令如下: 对应在scrapy文件中有,自己增加 ...
scrapy框架爬取豆瓣读书（1）
1.scrapy框架 Scrapy,Python开发的一个快速.高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据.Scrapy用途广泛,可以用于数据挖掘.监测和自动化测试 ...
利用python scrapy 框架抓取豆瓣小组数据
因为最近在找房子在豆瓣小组-上海租房上找,发现搜索困难,于是想利用爬虫将数据抓取. 顺便熟悉一下Python. 这边有scrapy 入门教程出处:http://www.cnblogs.com/txw1 ...
Python scrapy框架爬取瓜子二手车信息数据
项目实施依赖: python,scrapy ,fiddler scrapy安装依赖的包: 可以到https://www.lfd.uci.edu/~gohlke/pythonlibs/ 下载 pywi ...
使用scrapy框架爬取自己的博文（2）
之前写了一篇用scrapy框架爬取自己博文的博客,后来发现对于中文的处理一直有问题- - 显示的时候 [u'python\u4e0b\u722c\u67d0\u4e2a\u7f51\u9875\u76 ...
scrapy框架爬取笔趣阁完整版
继续上一篇,这一次的爬取了小说内容 pipelines.py import csv class ScrapytestPipeline(object): # 爬虫文件中提取数据的方法每yield一次it ...
scrapy框架爬取笔趣阁
笔趣阁是很好爬的网站了,这里简单爬取了全部小说链接和每本的全部章节链接,还想爬取章节内容在biquge.py里在加一个爬取循环,在pipelines.py添加保存函数即可 1 创建一个scrapy项目 ...
【python数据挖掘】爬取豆瓣影评数据
概述: 爬取豆瓣影评数据步骤: 1.获取网页请求 2.解析获取的网页 3.提速数据 4.保存文件源代码: # 1.导入需要的库 import urllib.request from bs4 impo ...
Python使用Scrapy框架爬取数据存入CSV文件(Python爬虫实战4)
1. Scrapy框架 Scrapy是python下实现爬虫功能的框架,能够将数据解析.数据处理.数据存储合为一体功能的爬虫框架. 2. Scrapy安装 1. 安装依赖包 yum install g ...

随机推荐

dml并行
Enabling Parallel DMLA DML statement can be parallelized only if you have explicitly enabled paralle ...
java的方法重写，多态和关键字 instanceof和final
package cn.pen; /*final 是一个java的关键字,用于修饰局部变量.属性.方法.类,表示最终的意思. final修饰类表示最终类,无法被继承.public final class ...
如果没有<form>标签，也没有enctype="multipart/form-data"属性，怎么使用formData对象提交表单呢？如下方式
form标签的enctype属性 enctype 属性规定在发送到服务器之前应该如何对表单数据进行编码. 默认地,表单数据会编码为 "application/x-www-form-urlen ...
apache http添加证书转成https
使用yum安装的apache. 第一步,需要把准备好的证书上传到服务器.具体位置:/app/cacerts/ 第二步,安装ssl. 命令:yum install mod_ssl openssl 安装完 ...
Python3学习笔记十三
1. css 老师的博客:http://www.cnblogs.com/yuanchenqi/articles/6856399.html 选择器:找到想要改变的标签 css的功能:渲染和布局 2. ...
2018-2019-2 20165206《网络对抗技术》Exp1 PC平台逆向破解
- 2018-2019-2 20165206<网络对抗技术>Exp1 PC平台逆向破解 - 实验任务本次实践的对象是一个名为pwn1的linux可执行文件. 该程序正常执行流程是:mai ...
php curl Problem with the SSL CA cert (path? access rights?)
公司有台老服务器,搭的php的环境,有个负载均横的服务调用 curl_init 的时候报了 Problem with the SSL CA cert (path? access rights?) 网 ...
SQL查询时，根据日期范围查询周
周数据会有weekbegin和weekend两个字段,用来描述周的开始日期和结束日期. 现在项目中的日历控件不支持周查询,只支持日期查询,所以目前面临的问题是,根据时间范围,查询周. 最终sql如下: ...
Android 动画 (1) 基础
背景坑, 最近打算在recyclerview item上加一个带动画的button,结果button无法连续点击,还以为是动画是同步的,必须要结束之后才能开始另一个动画,后来去掉recylervie ...
web应用、HTTP协议及web框架简介
1. web应用 1.1 web应用程序 Web应用程序是一种可以通过Web访问的应用程序,程序的最大好处是用户很容易访问应用程序,用户只需要有浏览器即可,不需要再安装其他软件 B/S模式(浏览器/服 ...

python scrapy框架爬取豆瓣

python scrapy框架爬取豆瓣的更多相关文章

随机推荐

热门专题