爬虫（scrapy--豆瓣TOP250）

# -*- coding: utf-8 -*-

import scrapy

from douban_top250.items import DoubanTop250Item

class MovieSpider(scrapy.Spider):

    name = 'movie'

    header = {

        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.109 Safari/537.36"

    }

    def start_requests(self):

        urls = 'https://movie.douban.com/top250'

        yield scrapy.Request(url=urls,headers=self.header)

    def parse(self, response):

        item = DoubanTop250Item()

        info = response.xpath("//*[@id='content']/div/div[1]/ol/li")

        for each in info:

            item['ranking'] = each.xpath("div/div[1]/em/text()").extract()

            item['name'] = each.xpath("div/div[2]/div[1]/a/span[1]/text()").extract()

            item['grade'] = each.xpath("div/div[2]/div[2]/div/span[2]/text()").extract()

            item['score_num'] = each.xpath("div/div[2]/div[2]/div/span[4]/text()").extract()

            yield item

        next_url = response.xpath("//*[@id='content']/div/div[1]/div[2]/span[3]/link/@href").extract()

        if next_url:

            next_url = 'https://movie.douban.com/top250' + next_url[0]

            yield scrapy.Request(next_url,headers=self.header)

爬虫（scrapy--豆瓣TOP250）的更多相关文章

Scrapy爬虫入门系列4抓取豆瓣Top250电影数据
豆瓣有些电影页面需要登录才能查看. 目录 [隐藏] 1 创建工程 2 定义Item 3 编写爬虫(Spider) 4 存储数据 5 配置文件 6 艺搜参考创建工程 scrapy startproj ...
Python爬虫之多线程下载豆瓣Top250电影图片
爬虫项目介绍本次爬虫项目将爬取豆瓣Top250电影的图片,其网址为:https://movie.douban.com/top250, 具体页面如下图所示: 本次爬虫项目将分别不使用多线程和使 ...
#1 爬虫：豆瓣图书TOP250 「requests、BeautifulSoup」
一.项目背景随着时代的发展,国人对于阅读的需求也是日益增长,既然要阅读,就要读好书,什么是好书呢?本项目选择以豆瓣图书网站为对象,统计其排行榜的前250本书籍. 二.项目介绍本项目使用Python ...
Forward团队-爬虫豆瓣top250项目-项目总结
托管平台地址:https://github.com/xyhcq/top250 小组名称:Forward团队组长:马壮成员:李志宇.刘子轩.年光宇.邢云淇.张良我们这次团队项目内容是爬取豆瓣电影T ...
基础爬虫，谁学谁会，用requests、正则表达式爬取豆瓣Top250电影数据！
爬取豆瓣Top250电影的评分.海报.影评等数据! 本项目是爬虫中最基础的,最简单的一例: 后面会有利用爬虫框架来完成更高级.自动化的爬虫程序. 此项目过程是运用requests请求库来获取h ...
豆瓣爬虫Scrapy“抄袭”改写
主要是把项目从docker里面扒拉出来,但是扒拉完好像又没有什么用,放在docker里面运行多好. 源码下载下面主要记一下改动的地方吧. 配置:在database.py中改掉自己的数据库配置. 表结构 ...
正则表达式实战：最新豆瓣top250爬虫超详细教程
检查网页源代码首先让我们来检查豆瓣top250的源代码,一切网页爬虫都需要从这里开始.F12打开开发者模式,在元素(element)页面通过Ctrl+F直接搜索你想要爬取的内容,然后就可以开始编写正 ...
Forward团队-爬虫豆瓣top250项目-项目进度
项目地址:https://github.com/xyhcq/top250 我们的项目是爬取豆瓣top250的电影的信息,在做这个项目前,我们都没有经验,完全是从零开始,过程中也遇到了很多困难,不过我们 ...
《Forward团队-爬虫豆瓣top250项目-开发文档》
码云地址:https://github.com/xyhcq/top250 模块功能:获取豆瓣top250网页的源代码,并分析. def getHTMLText(url,k): # 获取网页源代码 tr ...
正则表达式和豆瓣Top250的爬取练习
datawhale任务2-爬取豆瓣top250 正则表达式豆瓣250页面分析完整代码参考资料正则表达式正则表达式的功能用于实现字符串的特定模式精确检索或替换操作. 常用匹配模式常用修饰符 ...

随机推荐

嵌入式linux------ffmpeg移植编码H264（am335x编码H264）
[cpp] view plaincopy <pre name="code" class="cpp"><pre name="code& ...
MyEclipse无法部署项目
1 错误描述 2 错误原因 3 解决办法
利用Eclipse中的Maven构建Web项目（二）
利用Eclipse中的Maven构建Web项目 1.新建源文件夹,Java Resources鼠标右键,"New-->Source Folder" 2.新建src/main/ ...
芝麻HTTP：一个采集系统的构建
整个系统: 采集系统:
关于tween.js测试介绍
<!DOCTYPE html><html> <head> <meta charset="UTF-8"> <title>t ...
Logger之简单入门
Java 中自带的日志系统,今天抽空了解了一点,算是入了门,所以将自己的一些心得记录下来,以备日后查看,有兴趣的朋友,看到此文章,觉得有错误或需要添加的地方,请在下方评论留言,大家可以共同进步,谢谢: ...
Matlab和C语言混合编程，包含目录的设定
如果.c文件不依赖于任何第三方库,那么mex编译很简单,只需要在matlab的命令行输入 mex test.c 即可. 但是如果这个c文件使用了第三方库文件,如opencv.gsl等等,那么就需要更改 ...
JavaScript设计模式(3)-工厂模式
工厂模式 1. 简单工厂简单工厂:使用一个类或对象封装实例化操作假如我们有个自行车商店类 BicycleShop,它提供了销售自行车的方法可以选择销售两类自行车 Speedster,Comfort ...
Xcode 9.0 新增功能大全
Xcode是用于为Apple TV,Apple Watch,iPad,iPhone和Mac创建应用程序的完整开发人员工具集.Xcode开发环境采用tvOS SDK,watchOS SDK,iOS SD ...
[MyBatis]DAO层只写接口，不用写实现类
团队开发一个项目,由老大架了一个框架,遇到了DAO层不用写接口了,我也是用了2次才记住这个事的,因为自己一直都是习惯于写DAO层的实现类,所以,习惯性的还是写了个实现类.于是遇到错误了. 找不到那个方 ...

爬虫（scrapy--豆瓣TOP250）

爬虫（scrapy--豆瓣TOP250）的更多相关文章

随机推荐

热门专题