1、安装scrapy

  pip3 install scrapy

2、打开terminal,cd 到想要创建程序的目录下

3、创建一个scrapy项目

  在终端输入:scrapy startproject my_first_scrapy(项目名)

4、在终端输入:cd my_first_scrapy  进入到项目目录下

5、新建爬虫:

  输入: scrapy genspider chouti chouti.com  (chouti: 爬虫名称, chouti.com : 要爬取的网站的起始网址)

6、在pycharm中打开my_first_scrapy,就可以看到刚才创建的项目:

7、打开settings.py可以对项目相关参数进行设置,如设置userAgent:

8、打开chouti.py编写代码:

# -*- coding: utf-8 -*-
"""
获取抽屉新热榜的标题和内容以及新闻地址保存到本地
"""
import scrapy
from scrapy.http import Request
from scrapy.http.response.html import HtmlResponse
from ..items import MyFirstScrapyItem class ChoutiSpider(scrapy.Spider):
name = 'chouti'
allowed_domains = ['chouti.com']
start_urls = ['http://chouti.com/'] def parse(self, response):
# print(response, type(response)) # <class 'scrapy.http.response.html.HtmlResponse'>
# print(response.text) # 解析文本内容, 提取标题和简介,地址 # 去页面中找id=content-list的div标签,再去这个div下找class=item的div
items = response.xpath("//div[@id='content-list']/div[@class='item']")
# "//"表示从html文件的根部开始找。"/"表示从儿子里面找。".//"表示相对的,及当前目录下的儿子里面找
for item in items:
# 当前目录下找class=part1的div标签,再找div标签下的a标签的文本信息text(),并且只取第一个
# a标签后面可以加索引,表示取第几个a标签,如第一个:a[0]
title = item.xpath(".//div[@class='part1']/a/text()").extract_first().strip() # 去掉标题两端的空格
href = item.xpath(".//div[@class='part1']/a/@href").extract_first().strip() # 取href属性
summary = item.xpath(".//div[@class='area-summary']/span/text()").extract_first()
# print(1, title)
# print(2, href)
# print(3, summary)
item_obj = MyFirstScrapyItem(title=title, href=href, summary=summary) # 实例化
yield item_obj # 将数据交给pipelines # 获取页码
page_list = response.xpath("//div[@id='dig_lcpage']//a/@href").extract()
for url in page_list:
url = "https://dig.chouti.com%s" % url
yield Request(url=url, callback=self.parse) # 下载页面内容

9、打开items.py写代码:

# -*- coding: utf-8 -*-

# Define here the models for your scraped items
#
# See documentation in:
# https://doc.scrapy.org/en/latest/topics/items.html import scrapy class MyFirstScrapyItem(scrapy.Item):
# define the fields for your item here like:
# name = scrapy.Field()
# 规则化:将要持久化的数据转化为某种格式
title = scrapy.Field()
href = scrapy.Field()
summary = scrapy.Field()

10、打开pipelines.py写代码:

"""
1、先去类中找from_crawler
有:执行且必须返回一个当前类的对象
没有:不执行,则去执行构造方法__init__(self)并返回一个对象
2、再去执行"对象.其他方法"
""" class MyFirstScrapyPipeline(object):
def __init__(self, file_path):
self.f = None
self.file_path = file_path @classmethod
def from_crawler(cls, crawler):
"""
初始化时,用于创建pipelines对象
:param crawler:
:return:
"""
file_path = crawler.settings.get("CHOUTI_NEWS_PATH") # 存储文件的路径
return cls(file_path) def open_spider(self, spider):
"""
打开文件
:param spider:提交数据过来的爬虫对象
:return:
"""
self.f = open(self.file_path, "a+", encoding="utf-8") def process_item(self, item, spider):
"""
:param item: 爬虫中yield过来的item对象
:param spider:提交数据过来的爬虫对象
:return:
"""
self.f.write(item["href"] + "\n")
self.f.flush() # 将内容强刷到硬盘进行保存
return item def close_spider(self, spider):
"""
关闭文件
:param spider:提交数据过来的爬虫对象
:return:
"""
self.f.close()

11、在settings.py中找到 ITEM_PIPELINES进行设置,并设置存储下载的新闻存储的文件路径:

12、运行爬虫项目,在终端输入:

  scrapy crawl chouti(会打印日志)  或者 scrapy crawl chouti --nolog (不打印日志)

  

利用scrapy获取抽屉新热榜的标题和内容以及新闻地址保存到本地的更多相关文章

  1. 【IOS】模仿"抽屉新热榜"动态启动页YFSplashScreen

    IOS最好要设置系统默认启动页面,不然进入应用就会突然闪现黑色画面 下图是我们要实现的效果: 总体思路:设置一个系统默认启动页面,在进入didFinishLaunchingWithOptions时, ...

  2. Python之路【第二十篇】:python项目之旧版抽屉新热榜

    旧版抽屉新热榜 代码如下: <!DOCTYPE html> <html lang="en"> <head> <meta charset=& ...

  3. 【Python之路】特别篇--抽屉新热榜

    登陆与注册 注册功能: 流程: 填写用户名,邮箱,获取邮箱验证码,填入密码 单击<下一步>按钮,完成注册! 1.获取邮箱验证码(具体步骤分析): 1.利用ajax 往后台传入邮箱, 2.后 ...

  4. 利用scrapy爬取腾讯的招聘信息

    利用scrapy框架抓取腾讯的招聘信息,爬取地址为:https://hr.tencent.com/position.php 抓取字段包括:招聘岗位,人数,工作地点,发布时间,及具体的工作要求和工作任务 ...

  5. 用python实现的百度新歌榜、热歌榜下载器

    首先声明,本工具仅仅为学习之用,不涉及版权问题,因为百度音乐里面的歌曲本身是可以下载的,而且现在百度也提供了”百度音乐播放器”,可以通过这个工具进行批量下载. 我当时做这个工具的时候,百度还没有提供” ...

  6. 了不起的 Deno:带你极速获取各大平台今日热榜

    摘要:Deno 是一个 JavaScript/TypeScript 的运行时,默认使用安全环境执行代码,有着卓越的开发体验. 有人的地方就有江湖,有江湖的地方就有争论.前些天,继<[译]为什么如 ...

  7. (转)利用libcurl获取新浪股票接口, ubuntu和openwrt实验成功(三)

    1.  利用 CURLOPT_WRITEFUNCTION 设置回调函数, 利用 CURLOPT_WRITEDATA 获取数据指针 官网文档如下 CALLBACK OPTIONS CURLOPT_WRI ...

  8. 全网趣味网站分享:今日热榜/Pixiv高级搜索/win10激活工具/songtaste复活/sharesome汤不热替代者

    1.回形针手册 由科普类视频节目“回形针PaperClip”近期提出的一个实用百科工具计划,计划名称是回形针手册. 包含了当下科技,农业等等各行各业的各种相关信息,计划刚刚开始! 关于回形针手册的详细 ...

  9. 利用scrapy和MongoDB来开发一个爬虫

    今天我们利用scrapy框架来抓取Stack Overflow里面最新的问题(),并且将这些问题保存到MongoDb当中,直接提供给客户进行查询. 安装 在进行今天的任务之前我们需要安装二个框架,分别 ...

随机推荐

  1. CSS3向外扩散的圆

    <!DOCTYPE html><html><head><meta http-equiv="Content-Type" content=&q ...

  2. bryce1010专题训练——树状数组

    Bryce1010模板 1.一维树状数组 https://vjudge.net/contest/239647#problem/A[HDU1556] #include<bits/stdc++.h& ...

  3. 488 Zuma Game 祖玛游戏

    回忆一下祖玛游戏.现在桌上有一串球,颜色有红色(R),黄色(Y),蓝色(B),绿色(G),还有白色(W). 现在你手里也有几个球.每一次,你可以从手里的球选一个,然后把这个球插入到一串球中的某个位置上 ...

  4. RedHat改yum源免费使用CentOS源

    linux默认是安装了yum软件的,但是由于激活认证的原因让redhat无法直接进行yum安装一些软件 如果我们需要在redhat下直接yum安装软件,我们只用把yum的源修改成CentOS的就好了, ...

  5. ping localhost 返回 ::1的导致不能打开http://localhost的原因及解决

    虽然可以在浏览器中正常访问http://localhost但用file,file_get_contents等函数打开http://localhost异常.用127.0.0.1也可以打开,本地hosts ...

  6. aspx子集页面找父级页面元素

    var Obj= window.parent.document.getElementById("ctl00_RightTopTree_hidJsonResult"); Obj.va ...

  7. laravel oauth2.0 文件上传报错

    报错信息:   "message": "Invalid stream or file provided for UploadedFile",    " ...

  8. match,location,history

    哇,平常写路由时基本就是简单的按照组件给的示例写,从来没有考虑为什么,又遇见了路由相关的问题,先记录一下问题,好好捋一下,哎,好香要个大佬来带带我呀,每次遇到问题要解决好久 问题: 判断是否登录之后跳 ...

  9. FragmentTabHost实现标签卡效果

    转载请注明原文链接:http://www.cnblogs.com/yanyojun/p/8099523.html 代码已上传到github:https://github.com/YanYoJun/Fr ...

  10. 浅析 innerHTML 性能优化的原理

    浅析 innerHTML 性能优化的原理 博客分类: web前端 IEAndroidwebkit浏览器UI  昨天看了 lveyo老兄的"innerHTML的性能问题" 一文 ht ...