scrapy爬取段子


scrapy.py

1.cmd运行scrapy shell http://www.baidu.com

response.xpath('//div[@aa="bb"]') 找到需要匹配的内容 ##仅供参考语法，内容不准确

2.cmd运行：

scrapy startproject sunbeam(名字随意)

然后在pycharm打开项目sunbeam

3.在items.py编辑需要爬取的内容：

# -*- coding: utf-8 -*-

# Define here the models for your scraped items

# See documentation in:

# http://doc.scrapy.org/en/latest/topics/items.html

import scrapy

class MyspiderItem(scrapy.Item):

    # define the fields for your item here like:

    # name = scrapy.Field()

    create_time = scrapy.Field()

    content = scrapy.Field()

    digg_count = scrapy.Field()

    favorite_count = scrapy.Field()

    comment_count = scrapy.Field()

    author = scrapy.Field()



4.在cmd运行scrapy genspider aaa,这时在pytharm的spiders文件夹下会生成一个aa.py文件（或者手动新建也可以），然后编辑此文件：

# -*- coding: utf-8 -*-

import scrapy

import time

import json

from myspider.items import MyspiderItem



class NhsqSpider(scrapy.Spider):

    name = 'nhsq' #名字必须唯一

    allowed_domains = ['neihanshequ.com']

    #第一种方法，start_urls必须是序列或元祖，不能是字符串

    start_urls = ['http://neihanshequ.com/']

#第二种方法，如果不写start_urls就必须写start_requests方法



    def start_requests(self):

        url = 'http://neihanshequ.com/joke/?is_json=1&app_name=neihanshequ_web&max_time={}'.format(int(time.time()))

        yield scrapy.Request(url,callback=self.parse)



    def parse(self, response):

        items = MyspiderItem()

        result = json.loads(response.text)

        data = result.get('data').get('data')

        for i in range(20):

            items['content'] = data[i].get('group').get('content')

            items['create_time'] = data[i].get('group').get('create_time')



            yield items    #yield以后数据返回到了pipelines.py

            '''

            yield scrapy.Request(link,callback=self.parse_item)

            def

            '''

## 对返回数据做处理

1.在settings.py把ITEM_PIPELINES=....这一行的注释取消

然后在pipelinse编辑：

# -*- coding: utf-8 -*-



# Define your item pipelines here

#

# Don't forget to add your pipeline to the ITEM_PIPELINES setting

# See: http://doc.scrapy.org/en/latest/topics/item-pipeline.html

import json



class SunbeamPipeline(object):

    def __init__(self):

        self.file = open('duanzi.json','w')



    def process_item(self, item, spider):

        #print(item['content'])

        #content = json.dumps(dict(item),ensure_ascii=False)+"\n"

        content = json.dumps(dict(item))+"\n"

        print(content)



        self.file.write(content)

        #return item



然后在cmd运行scrapy crawl aaa

scrapy爬取段子的更多相关文章

Scrapy爬取美女图片 (原创)
有半个月没有更新了,最近确实有点忙.先是华为的比赛,接着实验室又有项目,然后又学习了一些新的知识,所以没有更新文章.为了表达我的歉意,我给大家来一波福利... 今天咱们说的是爬虫框架.之前我使用pyt ...
【转载】教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神
原文:教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神本博文将带领你从入门到精通爬虫框架Scrapy,最终具备爬取任何网页的数据的能力.本文以校花网为例进行爬取,校花网:http:/ ...
scrapy爬取西刺网站ip
# scrapy爬取西刺网站ip # -*- coding: utf-8 -*- import scrapy from xici.items import XiciItem class Xicispi ...
scrapy爬取豆瓣电影top250
# -*- coding: utf-8 -*- # scrapy爬取豆瓣电影top250 import scrapy from douban.items import DoubanItem class ...
scrapy爬取极客学院全部课程
# -*- coding: utf-8 -*- # scrapy爬取极客学院全部课程 import scrapy from pyquery import PyQuery as pq from jike ...
scrapy爬取全部知乎用户信息
# -*- coding: utf-8 -*- # scrapy爬取全部知乎用户信息 # 1:是否遵守robbots_txt协议改为False # 2: 加入爬取所需的headers: user-ag ...
Scrapy爬取Ajax（异步加载）网页实例——简书付费连载
这两天学习了Scrapy爬虫框架的基本使用,练习的例子爬取的都是传统的直接加载完网页的内容,就想试试爬取用Ajax技术加载的网页. 这里以简书里的优选连载网页为例分享一下我的爬取过程. 网址为: ht ...
Python网络爬虫与如何爬取段子的项目实例
一.网络爬虫 Python爬虫开发工程师,从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页 ...
Scrapy爬取静态页面
Scrapy爬取静态页面安装Scrapy框架: Scrapy是python下一个非常有用的一个爬虫框架 Pycharm下: 搜索Scrapy库添加进项目即可终端下: #python2 sudo p ...

随机推荐

笔记-Python-language reference-5.the import system
笔记-Python-language reference-5.the import system 前言经常用到import,module,对其中的机制及原理有一定的了解,但没有将各种信息前后连通起来 ...
EF实体部分更新的问题
之前遇到只更新部分的问题:如前端修改用户信息(不修改密码),传实体到后台,这个实体是没有密码,这样一来要更新的话,得先去数据库通过传过来的实体的ID读取这条记录,然后将改动的部分填到查出来的记录中,再 ...
WPF制作的小时钟
原文:WPF制作的小时钟周末无事, 看到WEB QQ上的小时钟挺可爱的, 于是寻思着用WPF模仿着做一个. 先看下WEB QQ的图: 打开VS, 开始动工. 建立好项目后, 面对一个空荡荡的页面, ...
istringstream输入数据到数组
istringstream iss(line); ; while (!(iss >> dat[n]).fail()) n++;
CSS 一些基础知识(优先级、行内元素的一些属性、font-size单位) 怎样不加载图片
CSS大小写不敏感选择器优先级如下所示: 在属性后面使用 !important 会覆盖页面内任何位置定义的元素样式. 作为style属性写在元素内的样式 id选择器类选择器标签选择器通配符选择 ...
了解JavaScript核心精髓（三）
1.js判断对象是否存在属性. hasOwnProperty(‘property’) 判断原型属性是否存在. "property" in o; 判断原型属性和原型链属性是否存在 ...
Node应用进程管理器pm2的使用
本文转载自:豆瓣-PM2介绍更多内容见github上的pm2说明文档pm2 pm2 是一个带有负载均衡功能的Node应用的进程管理器. 当你要把你的独立代码利用全部的服务器上的所有CPU,并保证进程 ...
Linux之Permission denied没有权限
在Linux上启动solr时,出现-bash: ./solr: Permission denied的问题. 最简单的解决方式: chmod 777 solr 傻瓜式直接赋予权限
Singleton patterns 单件(创建型模式)
1.模式分类 1.1 从目的来看: • – 创建型(Creational)模式:负责对象创建. • – 结构型(Structural)模式:处理类与对象间的组合. • ...
heat模板
Heat 目前支持两种格式的模板,一种是基于 JSON 格式的 CFN 模板:另外一种是基于 YAML 格式的 HOT 模板.CFN 模板主要是为了保持对 AWS 的兼容性.HOT 模板是 Heat ...

scrapy爬取段子

scrapy爬取段子的更多相关文章

随机推荐

热门专题