scrapy爬取猫眼电影排行榜

做爬虫的人,一定离不开的一个框架就是scrapy框架,写小项目的时候可以用requests模块就能得到结果,但是当爬取的数据量大的时候,就一定要用到框架.

下面先练练手,用scrapy写一个爬取猫眼电影的程序,环境配置和scrapy安装略过

第一步肯定是终端运行创建爬虫项目和文件

 # 创建爬虫项目

 scrapy startproject Maoyan

 cd Maoyan

 # 创建爬虫文件

 scrapy genspider maoyan maoyan.com

然后在产生的items.py文件夹中定义需要爬取的数据结构

 name = scrapy.Field()

 star = scrapy.Field()

 time = scrapy.Field()

之后打开maoyan.py文件,编写爬虫文件,记得导入items.py文件的MaoyanItem类,并实例化

 import scrapy

 from ..items import MaoyanItem

 

 class MaoyanSpider(scrapy.Spider):

     name = 'maoyan3'

     allowed_domains = ['maoyan.com']

     # 去掉start_urls变量

 

     # 重写start_requests()方法

     def start_requests(self):

         for offset in range(0,91,10):

             url = 'https://maoyan.com/board/4?offset={}'.format(offset)

             yield scrapy.Request(url=url,callback=self.parse)

 

     def parse(self, response):

         # 给items.py中的类:MaoyanItem(scrapy.Item)实例化

         item = MaoyanItem()

 

         # 基准xpath

         dd_list = response.xpath('//dl[@class="board-wrapper"]/dd')

         # 依次遍历

         for dd in dd_list:

             # 是在给items.py中那些类变量赋值

             item['name'] = dd.xpath('./a/@title').get().strip()

             item['star'] = dd.xpath('.//p[@class="star"]/text()').get().strip()

             item['time'] = dd.xpath('.//p[@class="releasetime"]/text()').get().strip()

 

             # 把item对象交给管道文件处理

             yield item

定义管道文件pipelines.py,进行持久化储存

 class MaoyanPipeline(object):

     # item: 从爬虫文件maoyan.py中yield的item数据

     def process_item(self, item, spider):

         print(item['name'],item['time'],item['star'])

 

         return item

 

 

 import pymysql

 from .settings import *

 

 # 自定义管道 - MySQL数据库

 class MaoyanMysqlPipeline(object):

     # 爬虫项目开始运行时执行此函数

     def open_spider(self,spider):

         print('我是open_spider函数输出')

         # 一般用于建立数据库连接

         self.db = pymysql.connect(

             host = MYSQL_HOST,

             user = MYSQL_USER,

             password = MYSQL_PWD,

             database = MYSQL_DB,

             charset = MYSQL_CHAR

         )

         self.cursor = self.db.cursor()

 

     def process_item(self,item,spider):

         ins = 'insert into filmtab values(%s,%s,%s)'

         # 因为execute()的第二个参数为列表

         L = [

             item['name'],item['star'],item['time']

         ]

         self.cursor.execute(ins,L)

         self.db.commit()

 

         return item

 

     # 爬虫项目结束时执行此函数

     def close_spider(self,spider):

         print('我是close_spider函数输出')

         # 一般用于断开数据库连接

         self.cursor.close()

         self.db.close()

接下来就是修改配置文件settings.py

 USER_AGENT = 'Mozilla/5.0'

 ROBOTSTXT_OBEY = False

 DEFAULT_REQUEST_HEADERS = {

   'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',

   'Accept-Language': 'en',

 }

 ITEM_PIPELINES = {

    'Maoyan.pipelines.MaoyanPipeline': 300,

    'Maoyan.pipelines.MaoyanMysqlPipeline':200,

 }

 # 定义MySQL相关变量

 MYSQL_HOST = '127.0.0.1'

 MYSQL_USER = 'root'

 MYSQL_PWD = ''

 MYSQL_DB = 'maoyandb'

 MYSQL_CHAR = 'utf8'

最后,是创建run.py文件,然后就可以运行了

 from scrapy import cmdline

 cmdline.execute('scrapy crawl maoyan'.split())

scrapy爬取猫眼电影排行榜的更多相关文章

爬虫--requests爬取猫眼电影排行榜
'''目标:使用requests分页爬取猫眼电影中榜单栏目中TOP100榜的所有电影信息,并将信息写入文件URL地址:http://maoyan.com/board/4 其中参数offset表示其实条 ...
使用xpath爬取猫眼电影排行榜
最近在学习xpath,在网上找资料的时候,发现一个新手经常拿来练手的项目,爬取猫眼电影前一百名排行的信息,很多都是跟崔庆才的很雷同,基本照抄.这里就用xpath自己写了一个程序,同样也是爬取猫眼电影, ...
PYTHON 爬虫笔记八:利用Requests+正则表达式爬取猫眼电影top100（实战项目一）
利用Requests+正则表达式爬取猫眼电影top100 目标站点分析流程框架爬虫实战使用requests库获取top100首页: import requests def get_one_pag ...
scrapy-redis分布式爬取猫眼电影
能够利用redis缓存数据库的优点去重来避免数据的大面积冗余 1.首先就是要创建猫眼爬虫项目 2.进入项目内部创建一个爬虫文件创建完文件之后就是要爬取的内容,我这边以爬取猫眼电影的title和lin ...
爬虫系列（1）-----python爬取猫眼电影top100榜
对于Python初学者来说,爬虫技能是应该是最好入门,也是最能够有让自己有成就感的,今天在整理代码时,整理了一下之前自己学习爬虫的一些代码,今天先上一个简单的例子,手把手教你入门Python爬虫,爬取 ...
scrapy爬取豆瓣电影top250
# -*- coding: utf-8 -*- # scrapy爬取豆瓣电影top250 import scrapy from douban.items import DoubanItem class ...
Python 爬取猫眼电影最受期待榜
主要爬取猫眼电影最受期待榜的电影排名.图片链接.名称.主演.上映时间. 思路:1.定义一个获取网页源代码的函数: 2.定义一个解析网页源代码的函数: 3.定义一个将解析的数据保存为本地文件的函数: ...
一起学爬虫——使用xpath库爬取猫眼电影国内票房榜
之前分享了一篇使用requests库爬取豆瓣电影250的文章,今天继续分享使用xpath爬取猫眼电影热播口碑榜 XPATH语法 XPATH(XML Path Language)是一门用于从XML文件中 ...
python应用-爬取猫眼电影top100
import requests import re import json import time from requests.exceptions import RequestException d ...

随机推荐

Backen-Development record 1
单例模式在应用这个模式时,单例对象的类必须保证只有一个实例存在. 服务进程中的其他对象再通过这个单例对象获取这些配置信息.这种方式简化了在复杂环境下的配置管理. __new__实现用装饰器实现单例 ...
JDBC——JDBC基础
1.JDBC与数据库的交互过程概括性来说,JDBC与数据库交互有以下这些步骤:1.建立一个到数据库的连接.2.在数据库中对表执行检索.创建,或修改的SQL查询.3.关闭到数据库的连接.JDBC的类和接 ...
RF框架自定义测试库开发
静态库方法(methods)直接映射为关键字名称.关键字接受和方法相同的参数, 通过抛异常来报告错误, 通过往标准输出里写入来写 log, 同时可以通过return 来返回结果. 创建步骤: ▲ ...
访问H2数据库的SpringBoot工程
JDK:1.8.0_212 IDE:STS4(Spring Tool Suit4 Version: 4.3.2.RELEASE) 工程下载:https://files.cnblogs.com/file ...
Linux之tar命令
命令格式: tar [-cxzjvf] 压缩打包文档的名称欲打包目录参数: -c :建立一个归档文件的参数指令 -x :解开一个归档文件的参数指令! -z :是否需要用 gzip 压缩? -j ...
JNI的开发步骤
使用C函数实现Java本地方法: 1. 在java代码里面声明一个native的方法 public native String helloFromC(); 2. 在工程目录下面创建一个jni的文件夹 ...
.NET GC简单理解
内存分配计算对象大小. 添加对象指针和同步索引块. 从内存指针处开始,分配对象内存. 问题:内存不能无限制增长. 垃圾回收从应用程序实例出发,标记所有的引用对象. 将标记对象移动到低地址端,修正实 ...
java源码-LinkedHashMap类设计
LinkedHashMap 继承于 hashMap LinkedHashMap .Entry 继承 HashMap.Node 继承 Map.Entry类 LinkedHashMap .Entry 该E ...
2019.11.07【每天学点SAP小知识】Day2 - ABAP 7.40新语法 - 内表
今天学习一下内表的表达式在ABAP 7.4之后的语法: SELECT * FROM mara INTO TABLE @DATA(gt_mara)UP TO 10 ROWS. DATA gt_mara_ ...
基于durid的JDBCUtils工具类
1.JDBCUtils类 package com.alphajuns.utils; import com.alibaba.druid.pool.DruidDataSourceFactory; impo ...

scrapy爬取猫眼电影排行榜

scrapy爬取猫眼电影排行榜的更多相关文章

随机推荐

热门专题