step_by_step_用python爬点磁力链接

爬点东西 -Scrapy

今天是小年，团聚的日子，想想这一年中发生过大大小小的事，十分感慨。

言归正传: 接触python ，想着可不可以自己爬它点数据，目的是能够过滤掉他这些令人头痛的广告，当然也可以顺带熟悉一下python 的scrapy框架那就开始吧

scrapy startproject btxxxx

scrapy genspider -t crawl btxxxx xxx.info

spider的代码

 # -*- coding: utf-8 -*-

 import scrapy

 from scrapy.linkextractors import LinkExtractor

 from scrapy.spiders import CrawlSpider, Rule

 import urllib

 from xxx.items import XxxxItem

 import sys

 reload(sys)

 sys.setdefaultencoding('utf8')

 class BtxxxxSpider(CrawlSpider):

     name = 'btxxxx'

     allowed_domains = ['btxxxx.info']

     def __init__(self, key_word='', *args, **kwargs):

         super(BtxxxxSpider, self).__init__(*args, **kwargs)

         self.key_words = key_word

         quote_str = urllib.quote(self.key_words)

         # 网址就不搞出来啦

         zero_url = 'http://www.xxxx.info/search/' + quote_str + '.html'

         self.start_urls = [zero_url]

     rules = (

         Rule(LinkExtractor(allow=r'\/search\/b-[\s\S]*\.html'),callback='root_url', follow=True),

          Rule(   LinkExtractor(

                 allow=r'\/search\/b-[a-z,A-Z,0-9]+\/[0-9]+-[0-9]+\.html'), callback='content_url', follow=True

             ),

         Rule(LinkExtractor(allow=r'\/wiki\/.*\.html'), callback='parse_item', follow=False)

     )

     def root_url(self, response):

         pass

     def content_url(self, response):

         pass

     def parse_item(self, response):

         i = BtxxxxItem()

         script_txt  = response.xpath('//*[@id="wall"]/h2/script/text()').extract()

         if len(script_txt) !=0:

             url_str = script_txt[0].replace('document.write(decodeURIComponent(', '').replace('));', '').replace('"','')

             link_name = urllib.unquote(str(url_str.replace('+', '')))

             i["file_name"] = link_name

             print "*" * 10

             #print link_name

             print "*" * 10

         file_nodes = response.xpath('//*[@id="wall"]/div/table/tr[last()]/td/text()').extract()

         print "#" * 10

         print file_nodes

         print "#" * 10

         if len(file_nodes) > 0 :

             i["file_type"] = file_nodes[0].replace('\n', '')

             i["file_createtime"] = file_nodes[1].replace('\n', '')

             i["file_hot"] = file_nodes[2].replace('\n', '')

             i["file_size"] = file_nodes[3].replace('\n', '')

         i["file_url"] = response.url

         file_link = response.xpath('//*[@id="wall"]/div[1]/div[1]/div[2]/a/@href').extract()

         if len(file_link) > 0:

             i["file_link"] = file_link[0]

         yield i

items的代码

 class BtxxxxItem(scrapy.Item):

     file_type = scrapy.Field()

     file_createtime = scrapy.Field()

     file_hot = scrapy.Field()

     file_size = scrapy.Field()

     file_count = scrapy.Field()

     file_link = scrapy.Field()

     file_name = scrapy.Field()

     file_url = scrapy.Field()

settings 中添加

FEED_EXPORT_ENCODING = 'utf-8'

并启用 DEFAULT_REQUEST_HEADERS

执行scrapy (设置要检索的关键字和输出的文件)

scrapy crawl btxxxx  -a key_word=xx -o xx.json

简单的爬数据而已，包含网址信息的代码我都已经在文章中删掉，只做学习使用

转载请标明出自原文地址

step_by_step_用python爬点磁力链接的更多相关文章

DHT协议网络爬虫磁力链接和BT种子搜索引擎
系统功能和用到的技术. 系统包括几个独立的部分: 使用 Python 的 Scrapy 框架开发的网络爬虫,用来爬取磁力链接和种子: 使用 PHP CI 框架开发的简易网站: 搜索引擎目前直接使用的 ...
实战Python实现BT种子转化为磁力链接
经常看电影的朋友肯定对BT种子并不陌生,但是BT种子文件相对磁力链来说存储不方便,而且在网站上存放BT文件容易引起版权纠纷,而磁力链相对来说则风险小一些. 将BT种子转换为占用空间更小,分享更方便的磁 ...
python爬取博客圆首页文章链接+标题
新人一枚,初来乍到,请多关照来到博客园,不知道写点啥,那就去瞄一瞄大家都在干什么好了. 使用python 爬取博客园首页文章链接和标题. 首先当然是环境了,爬虫在window10系统下,python ...
使用Python实现搜索任意电影资源的磁力链接
对于喜欢电影的人来说各种电影资源必不可少,但每次自己搜索都比较麻烦,索性用python自己写一个自动搜索的脚本. 这里我只分享我的思路,具体如何实现参考代码,要想实现搜索功能先要抓包分析如何发送数据, ...
python爬去电影天堂恐怖片+游戏
1.爬去方式python+selenium 2.工作流程 selenium自动输入,自动爬取,建立文件夹,存入磁力链接到记事本 3.贴上代码 #!/usr/bin/Python# -*- coding ...
利用Python爬取电影网站
#!/usr/bin/env python #coding = utf-8 ''' 本爬虫是用来爬取6V电影网站上的电影资源的一个小脚本程序,爬取到的电影链接会通过网页的形式显示出来 ''' impo ...
使用python爬取MedSci上的期刊信息
使用python爬取medsci上的期刊信息,通过设定条件,然后获取相应的期刊的的影响因子排名,期刊名称,英文全称和影响因子.主要过程如下: 首先,通过分析网站http://www.medsci.cn ...
Python 爬取美团酒店信息
事由:近期和朋友聊天,聊到黄山酒店事情,需要了解一下黄山的酒店情况,然后就想着用python 爬一些数据出来,做个参考主要思路:通过查找,基本思路清晰,目标明确,仅仅爬取美团莫一地区的酒店信息,不过 ...
python 爬取历史天气
python 爬取历史天气官网:http://lishi.tianqi.com/luozhuangqu/201802.html # encoding:utf-8 import requests fr ...

随机推荐

Office365维护命令
# 会议室日历相关# 日语:予定表# 汉语:日历Set-MailboxFolderPermission -Identity "XXXXX@qq.com:\Calendar" -ac ...
DLL简单分析与调用方法
最近为了分析一个没有代码的DLL有哪些函数,找了各种方法. 把结果分享一下:三个方法都没法得到函数的参数,有点让我失望. DLL Export Viewer NikPEViewer Dumpbin 配 ...
@RequestParam、@ReqeustBody、@ReponseBody认识
简介: @RequestParam和@RequestBody均是处理request body部分的注解,都用于获取请求部分的参数. @ResponseBody是用于响应部分的注解 1. @Reques ...
spring入门-注解的使用
说明: 使用注解和使用配置文件实现的功能是一样的,都是为了解耦,但是配置文件语法属于非编程语言法语,无法调试,难以定位bug,使用注解更易定位问题. 配置步骤编译器必须先安装了STS插件第一步导 ...
数据泵导出报ORA-01555 ORA-22924
最近对某数据库执行数据泵导出操作时碰到如下错误:Processing object type DATABASE_EXPORT/SCHEMA/JOBProcessing object type DATA ...
Java 中 Equals和==的区别（转）
另外一篇参考: https://blog.csdn.net/striverli/article/details/52997927 在谈论equals和==的区别前,我们先简单介绍一下JVM中内存分配的 ...
LayaAir疑难杂症之一：List渲染无法生效
问题描述使用Laya的list来做图片列表展示,无法渲染list. 原因分析根据官网提供的文档,要将list的renderType设置为render,如图所示: 完全按照官网示例做的,但是还是 ...
RocketMQ源码分析：（二）消息发送的三种方式
1. 同步传输(可靠,适用于重要的通知消息.短信通知.短信营销系统等) package com.miaoying.rocketmq.client; import lombok.extern.slf4j ...
android 手机权限管理——PermissionsDispatcher
Android6.0 之后某些权限需要动态申请,相比于之前版本复杂了许多.不过已经有大神给我们写好了框架(PermissionsDispatcher),我们用起来还是很方便. 1.添加引用根据 gr ...
redis--解析字符串
# coding=utf-8import codecs if __name__ == '__main__': cmdlist = ("Decode") while True: cm ...

step_by_step_用python爬点磁力链接

step_by_step_用python爬点磁力链接的更多相关文章

随机推荐

热门专题