通过使用scrapy爬取某学校全网

通过遍历全网url 实现爬取全网内容
忽略“.doc"等文件网页暂不处理，只爬取整个页面，不做清洗

spider.py

# -*- coding: utf-8 -*-

import scrapy

from WSYU.items import WsyuItem

import datetime

from urllib import parse

from scrapy.http import Request

class WsyuSpider(scrapy.Spider):

    name = 'wsyu'

    allowed_domains = ['wsyu.edu.cn']

    # start_urls = ['http://www.wsyu.edu.cn/',]

    start_urls = ['http://www.wsyu.edu.cn/',]

    html_url_set = []

    other_url_set =[]

    wenjian_end = ["@", ".pdf", ".jpg", ".gif", ".png", ".doc", ".xls", ".ppt", ".mp3", ".rar", ".zip",]

    def do_fiter(self,all_urls):

        for one_url in all_urls:

            if any(u in one_url for u in self.wenjian_end):

                self.other_url_set.append(one_url)

            else:

                pass

        return all_urls

    def parse(self, response):

        # 获取所有的地址链接

        all_urls = response.xpath('//a/@href').extract()

        all_urls = [parse.urljoin(response.url,url) for url in all_urls]

        all_urls1 = self.do_fiter(all_urls)

        # all_urls2 = list(filter(lambda x:True if x.startswith('\'http') else False, all_urls1))

        if all_urls1!=None:

            for one_url in all_urls1:

                if one_url not in self.html_url_set and one_url not in self.other_url_set:

                    self.html_url_set.append(one_url)

                    # yield self.make_requests_from_url(one_url)

                    yield Request(parse.urljoin(response.url,one_url),callback=self.download_parse)

                    # 回调函数默认为parse

        else:

            yield Request(url=self.html_url_set[-2],callback=self.parse)

    def download_parse(self,response):

        item = WsyuItem()

        item['url'] = response.url

        # print(item['url'])

        item['content'] = response.text

        # print(item['content'])

        item['create_time'] = datetime.datetime.now()

        # print(item['create_time'])

        yield item

        # yield Request(url=response.url ,callback=self.parse)

        yield self.make_requests_from_url(response.url)

源代码放在github上了：https://github.com/longbigbeard/scrapy_demo/tree/master/WSYU
以上

通过使用scrapy爬取某学校全网的更多相关文章

【转载】教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神
原文:教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神本博文将带领你从入门到精通爬虫框架Scrapy,最终具备爬取任何网页的数据的能力.本文以校花网为例进行爬取,校花网:http:/ ...
以豌豆荚为例，用 Scrapy 爬取分类多级页面
本文转载自以下网站:以豌豆荚为例,用 Scrapy 爬取分类多级页面 https://www.makcyun.top/web_scraping_withpython17.html 需要学习的地方: 1 ...
Scrapy爬取美女图片 (原创)
有半个月没有更新了,最近确实有点忙.先是华为的比赛,接着实验室又有项目,然后又学习了一些新的知识,所以没有更新文章.为了表达我的歉意,我给大家来一波福利... 今天咱们说的是爬虫框架.之前我使用pyt ...
scrapy爬取西刺网站ip
# scrapy爬取西刺网站ip # -*- coding: utf-8 -*- import scrapy from xici.items import XiciItem class Xicispi ...
scrapy爬取豆瓣电影top250
# -*- coding: utf-8 -*- # scrapy爬取豆瓣电影top250 import scrapy from douban.items import DoubanItem class ...
scrapy爬取极客学院全部课程
# -*- coding: utf-8 -*- # scrapy爬取极客学院全部课程 import scrapy from pyquery import PyQuery as pq from jike ...
scrapy爬取全部知乎用户信息
# -*- coding: utf-8 -*- # scrapy爬取全部知乎用户信息 # 1:是否遵守robbots_txt协议改为False # 2: 加入爬取所需的headers: user-ag ...
Scrapy爬取Ajax（异步加载）网页实例——简书付费连载
这两天学习了Scrapy爬虫框架的基本使用,练习的例子爬取的都是传统的直接加载完网页的内容,就想试试爬取用Ajax技术加载的网页. 这里以简书里的优选连载网页为例分享一下我的爬取过程. 网址为: ht ...
Scrapy爬取静态页面
Scrapy爬取静态页面安装Scrapy框架: Scrapy是python下一个非常有用的一个爬虫框架 Pycharm下: 搜索Scrapy库添加进项目即可终端下: #python2 sudo p ...

随机推荐

利用EasySQLMAIL实现自动填写Excel表格并发送邮件（2）
利用EasySQLMAIL实现自动填写Excel表格并发送邮件转自:http://blog.sina.com.cn/s/blog_1549483b70102witg.html 前一篇博文中记录了“利 ...
python1变量，表达式和语句
1.变量和类型变量是指向各种类型值的名字,以后再用到某个值时,直接引用这个名字即可,不用再写具体的值,在python中,变量的使用环境非常宽松,没有明显的变量声明,而且类型不是固定的.如果你不能确定 ...
appium的API
使用的语言是java,appium的版本是1.3.4,java-client的版本是java-client-2.1.0,建议多参考java-client-2.1.0-javadoc. 1.使用Andr ...
mysql的-F与master-data理解（一个小型的big-log恢复）
例子: 使用mysqlbin-log恢复,有两种情况,一个是停数据库,一个是不停在不停数据库的情况下,为了防止新的写入,需要将bin-log切割,然后新的数据会保存在新的bin-log里面在此之前 ...
s5_day3作业
# 一.元素分类 # 有如下值集合[11, 22, 33, 44, 55, 66, 77, 88, 99, 90...],将所有大于 # # 的值保存至字典的第一个key中,将小于 # # 的值保存至 ...
HDU - 6311 Cover (欧拉路径)
题意:有最少用多少条边不重复的路径可以覆盖一个张无向图. 分析:对于一个连通块(单个点除外),如果奇度数点个数为 k,那么至少需要max{k/2,1} 条路径.将奇度数的点两两相连边(虚边),然后先 ...
笔记——Springboot response、ServletOutputStream、图形验证码显示慢
今天遇到一个图形验证码加载很慢的问题,大概耗时有200~500毫秒左右. 根据追踪,图形验证码图片生成耗时0~1毫秒,而response.getOutputStream.write()将图片写入前台页 ...
一个linux命令（6/12）：cat 命令
cat主要有三大功能:1.一次显示整个文件.$ cat filename2.从键盘创建一个文件.$ cat > filename 只能创建新文件,不能编辑已有文件.3.将几个文件合并为一 ...
HDU4628
/*状态转移f[i]=min(f[i],f[j]+f[i^j]); 就是j状态+i^j状态=i状态,f[i]记录的是从i删除1要的最小步数*/ #include<string.h> #in ...
LCD控制器与帧率、刷新率的关系分析
源:LCD控制器与帧率.刷新率的关系分析 LCM之Fmark功能 && LCD控制器同LCD驱动器的差别 && 帧率与刷新率的关系 && OLED背光

通过使用scrapy爬取某学校全网

通过使用scrapy爬取某学校全网的更多相关文章

随机推荐

热门专题