scrapy--dytt(电影天堂)

　　喜欢看电影的小伙伴,如果想看新的电影,然后没去看电影院看,没有正确的获得好的方法,大家就可以在电影天堂里进行下载。这里给大家提供一种思路。

1.dytt.py

# -*- coding: utf-8 -*-

import scrapy

from Dytt.items import DyttItem

from scrapy.linkextractors import LinkExtractor

from Dytt.settings import USER_AGENT

import pdb

class DyttSpider(scrapy.Spider):

    name = 'dytt'

    allowed_domains = ['www.dy2018.com']

    headers = {

        'Accept': 'application/json, text/javascript, */*; q=0.01',

        'Accept-Encoding': 'gzip, deflate',

        'Accept-Language': 'zh-CN,zh;q=0.8',

        'Connection': 'keep-alive',

        'Content-Length': '',

        'Content-Type': 'application/x-www-form-urlencoded; charset=UTF-8',

        'Host': 'www.dy2018.com',

        'Origin': 'http://www.dy2018.com',

        'Referer': 'http://www.dy2018.com/html/tv/oumeitv/index.html',

        'User-Agent': USER_AGENT,

        'X-Requested-With': 'XMLHttpRequest',

    }

    start_urls = ['http://www.dy2018.com/html/tv/oumeitv/index.html']

    def parse(self, response):

        le = LinkExtractor(restrict_css='div.co_area1 div.co_content2')

        for link in le.extract_links(response):

            yield scrapy.Request(link.url,callback=self.parse_url,headers=self.headers)

    def parse_url(self,response):

        sel = response.css('div#Zoom')

        dytt = DyttItem()

        dytt['china_name'] = sel.xpath('./p/text()').extract()[1]

        dytt['english_name'] = sel.xpath('./p/text()').extract()[2]

        dytt['year'] = sel.xpath('./p/text()').extract()[3]

        dytt['home'] = sel.xpath('./p/text()').extract()[4]

        dytt['type'] = sel.xpath('./p/text()').extract()[5]

        dytt['time'] = sel.xpath('./p/text()').extract()[8]

        dytt['director'] = sel.xpath('./p/text()').extract()[15]

        dytt['role'] = sel.xpath('./p/text()').extract()[16]

        dytt['ftp'] = sel.xpath('(.//tbody)[1]//a/@href').extract()[0]

        dytt['thunder'] = sel.xpath('(.//tbody)[2]//a/@href').extract()[0]

        yield dytt

2.items.py

import scrapy

class DyttItem(scrapy.Item):

    china_name = scrapy.Field()

    english_name = scrapy.Field()

    year = scrapy.Field()

    home = scrapy.Field()

    type = scrapy.Field()

    time = scrapy.Field()

    director = scrapy.Field()

    role = scrapy.Field()

    ftp = scrapy.Field()

    thunder = scrapy.Field()

3.pipelines.py

# -*- coding: utf-8 -*-

import json

import codecs

import chardet

class DyttPipeline(object):

    def open_spider(self, spider):

        self.file = codecs.open('dytt1.json', 'w', encoding='utf-8') ###重要2

    def close_spider(self, spider):

        self.file.close()

    def process_item(self, item, spider):

        line = json.dumps(dict(item), ensure_ascii=False) + "\n" ### 重要3

        self.file.write(line)

        return item

4.settings.py

USER_AGENT ={       #设置浏览器的User_agent

    "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/22.0.1207.1 Safari/537.1",

    "Mozilla/5.0 (X11; CrOS i686 2268.111.0) AppleWebKit/536.11 (KHTML, like Gecko) Chrome/20.0.1132.57 Safari/536.11",

    "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.6 (KHTML, like Gecko) Chrome/20.0.1092.0 Safari/536.6",

    "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.6 (KHTML, like Gecko) Chrome/20.0.1090.0 Safari/536.6",

    "Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/19.77.34.5 Safari/537.1",

    "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.9 Safari/536.5",

    "Mozilla/5.0 (Windows NT 6.0) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.36 Safari/536.5",

    "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",

    "Mozilla/5.0 (Windows NT 5.1) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",

    "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_8_0) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",

    "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1062.0 Safari/536.3",

    "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1062.0 Safari/536.3",

    "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",

    "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",

    "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",

    "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.0 Safari/536.3",

    "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/535.24 (KHTML, like Gecko) Chrome/19.0.1055.1 Safari/535.24",

    "Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/535.24 (KHTML, like Gecko) Chrome/19.0.1055.1 Safari/535.24"

}

CONCURRENT_REQUESTS = 16    #同时来16个请求

DOWNLOAD_DELAY = 0.2      #0.2s后开启处理第一个请求

# Obey robots.txt rules

ROBOTSTXT_OBEY = False

FEED_EXPORT_FIELDS = ['china_name','english_name','year','home','type','time','director','role','ftp','thunder']

COOKIES_ENABLED = False

ITEM_PIPELINES = {

    'Dytt.pipelines.DyttPipeline': 300,

}

在pipelines.py文件中写入.json格式

2.开始爬取时,返回EORRO 400

解决办法:在dytt.py文件中添加:header,重新运行

3.无法爬取thunder链接,在网页中点击查看源码(真正爬取的信息),即可发现--无法显示thunder具体信息

查看源代码:

如果有遇到其他问题的小伙伴,欢迎留言!!!

scrapy--dytt(电影天堂)的更多相关文章

scrapy框架用CrawlSpider类爬取电影天堂.
本文使用CrawlSpider方法爬取电影天堂网站内国内电影分类下的所有电影的名称和下载地址 CrawlSpider其实就是Spider的一个子类. CrawlSpider功能更加强大(链接提取器,规 ...
scrapy电影天堂实战(二)创建爬虫项目
公众号原文创建数据库我在上一篇笔记中已经创建了数据库,具体查看<scrapy电影天堂实战(一)创建数据库>,这篇笔记创建scrapy实例,先熟悉下要用到到xpath知识用到的xpat ...
Python多线程爬虫爬取电影天堂资源
最近花些时间学习了一下Python,并写了一个多线程的爬虫程序来获取电影天堂上资源的迅雷下载地址,代码已经上传到GitHub上了,需要的同学可以自行下载.刚开始学习python希望可以获得宝贵的意见. ...
Python爬虫 -- 抓取电影天堂8分以上电影
看了几天的python语法,还是应该写个东西练练手.刚好假期里面看电影,找不到很好的影片,于是有个想法,何不搞个爬虫把电影天堂里面8分以上的电影爬出来.做完花了两三个小时,撸了这么一个程序.反正蛮简单 ...
python利用requests和threading模块，实现多线程爬取电影天堂最新电影信息。
利用爬到的数据,基于Django搭建的一个最新电影信息网站: n1celll.xyz (用的花生壳动态域名解析,服务器在自己的电脑上,纯属自娱自乐哈.) 今天想利用所学知识来爬取电影天堂所有最新电影 ...
LOL电影天堂下载攻略
LOL电影天堂&&飘花电影网下载攻略 CreateTime--2017年7月27日08:52:29Author:Marydon 以进击的巨人为例下载地址:http://www.l ...
Python爬取电影天堂指定电视剧或者电影
1.分析搜索请求一位高人曾经说过,想爬取数据,要先分析网站今天我们爬取电影天堂,有好看的美剧我在上面都能找到,算是很全了. 这个网站的广告出奇的多,用过都知道,点一下搜索就会弹出个窗口,伴随着滑稽 ...
Node.js 抓取电影天堂新上电影节目单及ftp链接
代码地址如下:http://www.demodashi.com/demo/12368.html 1 概述本实例主要使用Node.js去抓取电影的节目单,方便大家使用下载. 2 node packag ...
猫眼电影和电影天堂数据csv和mysql存储
字符串常用方法 # 去掉左右空格 'hello world'.strip() # 'hello world' # 按指定字符切割 'hello world'.split(' ') # ['hello' ...

随机推荐

HDU 4342——History repeat itself——————【数学规律】
History repeat itself Time Limit: 1000ms Memory Limit: 32768KB This problem will be judged on HDU. O ...
前端如何做好SEO优化
https://www.cnblogs.com/weiyf/p/9511021.html 一:什么是SEO? 搜索引擎优化(Search Engine Optimization),简称SEO.是按照搜 ...
Js中parseFloat()方法所产的精度不一致问题
<script language="javascript"> function checkForm(){ var Sum="0.11"; var S ...
jar包介绍
1.基本jar包 4+1:4个核心(beans+core+context+expression)+一个依赖(commons-logging...)
springmvc实现文件下载到Android手机设备pda端
1:首先要添加相关得jar文件,在pom.xml中 <dependency> <groupId>commons-fileupload</groupId> <a ...
css随堂笔记（二）
css sub注释注释不能嵌套 sub生成结构代码快捷复合选择器 1.后代选择器语法:选择器1 选择器2 选择器3 { 属性名:属性值 } 2.子代选择器子代选择器语法: 选择器1> ...
FinFET简介
什么是FET? FET 的全名是“场效电晶体(Field Effect Transistor,FET)”,先从大家较耳熟能详的“MOS”来说明.MOS 的全名是“金属-氧化物-半导体场效电晶体(Met ...
2017年10月31日结束Outlook 2007与Office 365的连接
2017 年10月31日 ,微软即将推出 Office 365中Exchange Online邮箱将需要Outlook for Windows的连接,即通过HTTP Over MAPI方式,传统使用R ...
ajax请求传过来的json数据直接转成对应的实体类时出错:400 Bad Request 不进入controller
今天开发过程中,在SpringMVC中的Action中处理前台ajax请求传过来的json数据直接转成对应的实体类时出错:400 Bad Request,后台也不报错,400指的的是请求无效(请求有语 ...
js call(),apply(),对象冒充,改变变量作用域
1.apply(); function box(n1,n2){ return n1+n2; } function pox(n1,n2){ alert(box.apply(this,[n1,n2])); ...

scrapy--dytt(电影天堂)

scrapy--dytt(电影天堂)的更多相关文章

随机推荐

热门专题