使用scrapy爬取海外网学习频道
一:创建项目文件
1:首先在终端使用命令scrapy startproject huaerjieribao 创建项目
2:创建spider
首先cd进去刚刚创建的项目文件overseas
然后执行genspider,并写入爬虫名称和爬虫网站域名
命令如下:
cd overseas haiwaistudy theory.haiwainet.cn
3:此时会发现在spider文件中多了一个 haiwaistudy.py,
4:scrapy默认不能再IDE中调试的所以这里我们使用一个小技巧,我们再根目录下新建一个entrypoint.py,用于后面的调试
二:编写项目文件
1:然后编写item.py,相当于容器
创建 Item 需要继承 scrapy.Item 类,并且定义类型为 scrapy.Field 的字段
2:编写爬虫文件haiwaistudy.py,定义了爬取范围,爬取内容,是否有下一页循环等信息
parse()---------parse()方法的参数 resposne 是 start_urls 里面的链接爬取后的结果。
extract_first()-----------用 extract_first()方法来获取第一个元素
extract()------获取所有结果组成的列表,所以使用 extract()方法
遇见翻页之类的情况,构造请求时需要用到 scrapy.Request。 这里我们传递两个参数一-url 和 callback
口 url :它是请求链接。
口 callback:它是回调函数。 当指定了该回调函数的请求完成之后,获取到响应,引擎会将该 响应 作为参数传递给这个回调函数。 回调函数进行解析或生成下一个请求,回调函数如上文 的 parse()所示。
urljoin()--------- urljoin()方法可以将相对 URL 构造成一个绝对的 URL
如果是一个简单的爬虫接下来可以直接使用命令的到爬虫结果了,
scrapy crawl haiwaistudy
保存成 JSON 文件:
scrapy crawl haiwaistudy -o quotes.json
以每一个 Item 输出一行 JSON:
scrapy crawl haiwaistudy -o quotes.jl
其他格式:
scrapy crawl haiwaistudy-o quotes .csv
scrapy crawl haiwaistudy-o quotes.xml
scrapy crawl haiwaistudy -o quotes.pickle
scrapy crawl haiwaistudy-o quotes.marshal
scrapy crawl haiwaistudy -o ftp://user:pass@ftp.example.com/path/to/quotes.csv
这里我个人将他存为了csv格式:
三:存入数据库:
如果想要将数据存入MongoDB则需要在Item Pipeline里进行处理,Item Pipeline的作用是:
口清理 HTML 数据。
口 验证爬取数据,检查爬取字段。
口 查重井丢弃重复内容。
口 将爬取结果保存到数据库。
要实现Item Pipeline很简单,只需要定义一个类并实现 process item()方法即可。启用 Item Pipeline 后, Item Pipeline 会自动调用这个方法。 process item()方法必须返回包含数据的字典或 Item 对象, 或者抛出 Dropltem 异常。
process_item()方法有两个参数。 一个参数是 item,每次 Spider 生成的 Item 都会作为参数传递过 来。 另一个参数是 spider,就是 Spider 的实例。
四:修改settings.py文件
在settings文件中加入以下信息
五:运行爬虫
使用终端,进入overseas文件夹,然后键入scrapy crawl haiwaistudy
然后待爬取完成可以到数据库里查看存储结果,这篇文章当 中没有写分析网站相关的内容,因为这次爬取得网站很简单没有啥加密手段,所以我没有写分析过程
GitHub代码地址:
https://github.com/meixialee/overseas
微信公众号地址:
https://mp.weixin.qq.com/s?__biz=MzU2MzcwOTAzNQ==&mid=2247483752&idx=1&sn=b1334098ca686bcf6e280683c9861f4d&chksm=fc57546ccb20dd7a6935d235a3965b9ece5a696dbda12d952c108ec6e3a8079db4fed13e0456&token=269404096&lang=zh_CN#rd
使用scrapy爬取海外网学习频道的更多相关文章
- scrapy 爬取纵横网实战
前言 闲来无事就要练练代码,不知道最近爬取什么网站好,就拿纵横网爬取我最喜欢的雪中悍刀行练手吧 准备 python3 scrapy 项目创建: cmd命令行切换到工作目录创建scrapy项目 两条命 ...
- scrapy 爬取当当网产品分类
#spider部分import scrapy from Autopjt.items import AutopjtItem from scrapy.http import Request class A ...
- scrapy爬取中关村在线手机频道
# -*- coding: utf-8 -*- import scrapy from pyquery import PyQuery as pq from zolphone.items import Z ...
- 爬虫入门(四)——Scrapy框架入门:使用Scrapy框架爬取全书网小说数据
为了入门scrapy框架,昨天写了一个爬取静态小说网站的小程序 下面我们尝试爬取全书网中网游动漫类小说的书籍信息. 一.准备阶段 明确一下爬虫页面分析的思路: 对于书籍列表页:我们需要知道打开单本书籍 ...
- Scrapy爬虫(5)爬取当当网图书畅销榜
本次将会使用Scrapy来爬取当当网的图书畅销榜,其网页截图如下: 我们的爬虫将会把每本书的排名,书名,作者,出版社,价格以及评论数爬取出来,并保存为csv格式的文件.项目的具体创建就不再多讲 ...
- scrapy爬取相似页面及回调爬取问题(以慕课网为例)
以爬取慕课网数据为例 慕课网的数据很简单,就是通过get方式获取的 连接地址为https://www.imooc.com/course/list?page=2 根据page参数来分页
- Scrapy爬取美女图片 (原创)
有半个月没有更新了,最近确实有点忙.先是华为的比赛,接着实验室又有项目,然后又学习了一些新的知识,所以没有更新文章.为了表达我的歉意,我给大家来一波福利... 今天咱们说的是爬虫框架.之前我使用pyt ...
- Scrapy爬取美女图片第三集 代理ip(上) (原创)
首先说一声,让大家久等了.本来打算那天进行更新的,可是一细想,也只有我这样的单身狗还在做科研,大家可能没心思看更新的文章,所以就拖到了今天.不过忙了521,522这一天半,我把数据库也添加进来了,修复 ...
- Scrapy爬取美女图片第四集 突破反爬虫(上)
本周又和大家见面了,首先说一下我最近正在做和将要做的一些事情.(我的新书<Python爬虫开发与项目实战>出版了,大家可以看一下样章) 技术方面的事情:本次端午假期没有休息,正在使用fl ...
随机推荐
- repository和repertory
在研究.net core的时候知道了仓储这个概念,并发现两个单词repository和repertory 两者都有仓库,储藏所,储藏的意思,repository还指知识渊博的人,repertory除了 ...
- 分布式日志框架之ExceptionLess【二】:自行搭建帮助文档【译文】
原文地址:https://github.com/exceptionless/Exceptionless/wiki/Self-Hosting ExceptionLess自行托管环境搭建 一.测试环境 如 ...
- Linux Shell脚本编程case条件语句
1,判断一个数字是否则在1,2,3之中. #!/bin/bash read -p "pls input a number:" n case "$n" in ) ...
- Linux环境变量详解与应用
在bash shell中,环境变量分为: >全局变量 >局部变量 全局变量,不仅对shell可见,对其子进程也可见 查看预设的全局环境变量: ghostwu@dev:~$ printenv ...
- blfs(systemd版本)学习笔记-编译安装sudo并创建普通用户配置sudo权限
我的邮箱地址:zytrenren@163.com欢迎大家交流学习纠错! blfs书中sudo的安装配置章节:http://www.linuxfromscratch.org/blfs/view/stab ...
- 前端开发面试题-HTML(转载)
本文由 本文的原作者markyun 收集总结了一些前端面试题,初学者阅后也要用心钻研其中的原理,重要知识需要系统学习.透彻学习,形成自己的知识链.万不可投机取巧,临时抱佛脚只求面试侥幸混过关是错误的! ...
- Salesforce中的单点登录简介
单点登录的定义 引自维基百科: 单点登录(英语:Single sign-on,缩写为 SSO),又译为单一签入,一种对于许多相互关连,但是又是各自独立的软件系统,提供访问控制的属性.当拥有这项属性时, ...
- MySQL InnoDB表和索引之聚簇索引与第二索引
MySQL InnoDB表和索引之聚簇索引与第二索引 By:授客QQ:1033553122 每个InnoDB表都有一个称之为聚簇索引(clustered index)的特殊索引,存储记录行数据.通常, ...
- 编写xml文件不当时会出现R文件找不到情况
1,先检查xml文件是否报错,报错的话直接找到报错行. 2,xml文件若不报错,可能是文本值得格式输入错误 比如android:text=“<0.5km”,此时的小于号就会引发错误,导致R文件找 ...
- (后台)org.apache.catalina.connector.ClientAbortException: null
比如错误日志是这样的: org.apache.catalina.connector.ClientAbortException: null 那么问题基本上就是服务器准备进行response的时候,发现连 ...