使用scrapy爬取海外网学习频道

一：创建项目文件

1：首先在终端使用命令scrapy startproject huaerjieribao 创建项目

2:创建spider

首先cd进去刚刚创建的项目文件overseas

然后执行genspider,并写入爬虫名称和爬虫网站域名

命令如下：

cd overseas haiwaistudy theory.haiwainet.cn

3:此时会发现在spider文件中多了一个 haiwaistudy.py,

4:scrapy默认不能再IDE中调试的所以这里我们使用一个小技巧，我们再根目录下新建一个entrypoint.py，用于后面的调试

二：编写项目文件

1:然后编写item.py，相当于容器

创建 Item 需要继承 scrapy.Item 类，并且定义类型为 scrapy.Field 的字段

2:编写爬虫文件haiwaistudy.py，定义了爬取范围，爬取内容，是否有下一页循环等信息

parse（）---------parse（）方法的参数 resposne 是 start_urls 里面的链接爬取后的结果。

extract_first（）-----------用 extract_first（）方法来获取第一个元素

extract（）------获取所有结果组成的列表，所以使用 extract（）方法

遇见翻页之类的情况，构造请求时需要用到 scrapy.Request。这里我们传递两个参数一－url 和 callback

口 url ：它是请求链接。

口 callback：它是回调函数。当指定了该回调函数的请求完成之后，获取到响应，引擎会将该响应作为参数传递给这个回调函数。回调函数进行解析或生成下一个请求，回调函数如上文的 parse（）所示。

urljoin（）--------- urljoin（）方法可以将相对 URL 构造成一个绝对的 URL

如果是一个简单的爬虫接下来可以直接使用命令的到爬虫结果了，

scrapy crawl haiwaistudy

保存成 JSON 文件:

scrapy crawl haiwaistudy -o quotes.json

以每一个 Item 输出一行 JSON:

scrapy crawl haiwaistudy -o quotes.jl

其他格式：

scrapy crawl haiwaistudy-o quotes .csv

scrapy crawl haiwaistudy-o quotes.xml

scrapy crawl haiwaistudy -o quotes.pickle

scrapy crawl haiwaistudy-o quotes.marshal

scrapy crawl haiwaistudy -o ftp://user:pass@ftp.example.com/path/to/quotes.csv

这里我个人将他存为了csv格式：

三：存入数据库：

如果想要将数据存入MongoDB则需要在Item Pipeline里进行处理，Item Pipeline的作用是：

口清理 HTML 数据。

口验证爬取数据，检查爬取字段。

口查重井丢弃重复内容。

口将爬取结果保存到数据库。

要实现Item Pipeline很简单，只需要定义一个类并实现 process item（）方法即可。启用 Item Pipeline 后， Item Pipeline 会自动调用这个方法。 process item（）方法必须返回包含数据的字典或 Item 对象，或者抛出 Dropltem 异常。

process_item（）方法有两个参数。一个参数是 item，每次 Spider 生成的 Item 都会作为参数传递过来。另一个参数是 spider，就是 Spider 的实例。

四：修改settings.py文件

在settings文件中加入以下信息

五:运行爬虫

使用终端，进入overseas文件夹，然后键入scrapy crawl haiwaistudy

然后待爬取完成可以到数据库里查看存储结果，这篇文章当中没有写分析网站相关的内容，因为这次爬取得网站很简单没有啥加密手段，所以我没有写分析过程

GitHub代码地址：

https://github.com/meixialee/overseas

微信公众号地址：

https://mp.weixin.qq.com/s?__biz=MzU2MzcwOTAzNQ==&mid=2247483752&idx=1&sn=b1334098ca686bcf6e280683c9861f4d&chksm=fc57546ccb20dd7a6935d235a3965b9ece5a696dbda12d952c108ec6e3a8079db4fed13e0456&token=269404096&lang=zh_CN#rd

使用scrapy爬取海外网学习频道的更多相关文章

scrapy 爬取纵横网实战
前言闲来无事就要练练代码,不知道最近爬取什么网站好,就拿纵横网爬取我最喜欢的雪中悍刀行练手吧准备 python3 scrapy 项目创建: cmd命令行切换到工作目录创建scrapy项目两条命 ...
scrapy 爬取当当网产品分类
#spider部分import scrapy from Autopjt.items import AutopjtItem from scrapy.http import Request class A ...
scrapy爬取中关村在线手机频道
# -*- coding: utf-8 -*- import scrapy from pyquery import PyQuery as pq from zolphone.items import Z ...
爬虫入门（四）——Scrapy框架入门：使用Scrapy框架爬取全书网小说数据
为了入门scrapy框架,昨天写了一个爬取静态小说网站的小程序下面我们尝试爬取全书网中网游动漫类小说的书籍信息. 一.准备阶段明确一下爬虫页面分析的思路: 对于书籍列表页:我们需要知道打开单本书籍 ...
Scrapy爬虫（5）爬取当当网图书畅销榜
本次将会使用Scrapy来爬取当当网的图书畅销榜,其网页截图如下: 我们的爬虫将会把每本书的排名,书名,作者,出版社,价格以及评论数爬取出来,并保存为csv格式的文件.项目的具体创建就不再多讲 ...
scrapy爬取相似页面及回调爬取问题（以慕课网为例）
以爬取慕课网数据为例慕课网的数据很简单,就是通过get方式获取的连接地址为https://www.imooc.com/course/list?page=2 根据page参数来分页
Scrapy爬取美女图片 (原创)
有半个月没有更新了,最近确实有点忙.先是华为的比赛,接着实验室又有项目,然后又学习了一些新的知识,所以没有更新文章.为了表达我的歉意,我给大家来一波福利... 今天咱们说的是爬虫框架.之前我使用pyt ...
Scrapy爬取美女图片第三集代理ip(上) (原创)
首先说一声,让大家久等了.本来打算那天进行更新的,可是一细想,也只有我这样的单身狗还在做科研,大家可能没心思看更新的文章,所以就拖到了今天.不过忙了521,522这一天半,我把数据库也添加进来了,修复 ...
Scrapy爬取美女图片第四集突破反爬虫(上)
本周又和大家见面了,首先说一下我最近正在做和将要做的一些事情.(我的新书<Python爬虫开发与项目实战>出版了,大家可以看一下样章) 技术方面的事情:本次端午假期没有休息,正在使用fl ...

随机推荐

【Java深入研究】2、JDK 1.8 LinkedList源码解析
LinkedList是一个实现了List接口和Deque接口的双端链表. 有关索引的操作可能从链表头开始遍历到链表尾部,也可能从尾部遍历到链表头部,这取决于看索引更靠近哪一端. LinkedList不 ...
SVN多项目并行版本管理解决方案
1.背景随着公司业务拓展,各业务部门频繁的需求变更,导致系统集成冲突的问题日益突出. 2.现状基于SVN版本管理模式,多分支版本并行,分支合并主干交付.多分支开发存在依赖关系且有交付的先后顺序, ...
【工具相关】Web-Sublime Text2-安装插件HTMLPrettify
一,打开Sublime Text2---->Preferences--->Browse Packages.--->查看Sublime Text2已经有的插件.如图所示. 二,在网上下 ...
Android6.0源码下载编译刷入真机
编译环境是Ubuntu12.04.手机nexus 5,编译安卓6.0.1源码并烧录到真机. 源码用的是科大的镜像:http://mirrors.ustc.edu.cn/aosp-monthly/,下载 ...
Android basics
只要是Android中的控件,最终都继承自View.
(后端)shiro:Wildcard string cannot be null or empty. Make sure permission strings are properly formatted.
访问某页面时,出现了这个异常: java.lang.IllegalArgumentException: Wildcard string cannot be null or empty. Make su ...
Python中For循环
1. for i in range(10): print(i) 输出结果 F:\py\pyProject\venv\Scripts\python.exe F:/py/pyProject/venv/wh ...
mysqlclient and mysql-python安装出错方法
Collecting mysql-python Using cached https://files.pythonhosted.org/packages/a5/e9/51b544da85a36a68d ...
Java新建Web应用与配置Tomcat流程
1. 新版本IDEA新建Web应用后没有web.xml文件,需要通过下图方式添加 2. IDEA中的web文件夹相当于eclipse里的WebRoot文件夹,在里面新建WEB-INF文件夹,再创建cl ...
c#所有部门及其下所部门生成树形图（递归算法获取或键值对方式获取）
部门数据库的设计: 代码: /// <summary> /// 获取部门(入口) /// </summary> /// <returns></returns& ...

使用scrapy爬取海外网学习频道

使用scrapy爬取海外网学习频道的更多相关文章

随机推荐

热门专题