第4章 scrapy爬取知名技术文章网站(1)

4-1 scrapy安装以及目录结构介绍

安装scrapy可以看我另外一篇博文：Scrapy的安装--------Windows、linux、mac等操作平台，现在是在虚拟环境中安装可能有不同。

1.创建有python3的虚拟环境

mkvirtualenv --python=C:\Users\admin\AppData\Local\Programs\Python\Python35\python3.exe py3scrapy

2.安装scrapy

进入环境py3scrapy，pip install -i https://pypi.douban.com/simple/ scrapy 豆瓣源安装非常快。

3.补充

进入虚拟环境： workon py3scrapy

创建项目： scrapy startproject ArticleSpider

建立spider： scrapy genspider jobbole blog.jobbple.com

4-2 pycharm 调试scrapy 执行流程

1.运行爬虫文件

建立一个main.py文件，在ArticleSpider文件目录下

from scrapy.cmdline import execute

import sys,os

sys.path.append(os.path.dirname(os.path.abspath(__file__)))

execute(['scrapy','crawl','jobbole'])

os.path.abspath(__file__) --------main.py目录

dirname() --------main.py父目录

2.要学会用断点和DEBUG

在实战中操作

4-3~5 xpath的用法

1.xpath简介

xpath使用路径表达式在xml和html中进行导航。
xpath包含标准函数库。
xpath是一个w3c的标准。

2.xpath节点关系

父节点
子节点
同胞节点
先辈节点
后代节点

3.xpath语法

4.补充

为什么有时候自己写的xpath明明对的，却获取不到数据？

原因：F12产生的源码，不同于网页源代码，前者可能是js加载完的源代码。response.xpath()是根据网页源代码来提取信息的。

问题：No modle named ‘win32api’

解决： pip install -i https://pypi.douban.com/simple/ pypiwin32

contains()用法

response.xpath("//span[contains(@class, 'bookmark-btn')]/text()").extract()[0]

表示在span标签中class属性中含有 bookmark-btn 即为符合

正文保留html标签，以便后续研究

scrapy shell url 调试xpath

如果在py3中就都显示中文了

re.math(reg,html).group() #正则匹配

tag_list=['职场','2 评论','今昔']

[element for element in tag_list if not element.strip().endswith('评论')]

#结果['职场', '今昔']

4-6~7 css选择器实现字段解析

作者：今孝

出处：http://www.cnblogs.com/jinxiao-pu/p/6713333.html

本文版权归作者和博客园共有，欢迎转载，但未经作者同意必须保留此段声明，且在文章页面明显位置给出原文连接。

第4章 scrapy爬取知名技术文章网站(1)的更多相关文章

第4章 scrapy爬取知名技术文章网站(2)
4-8~9 编写spider爬取jobbole的所有文章 # -*- coding: utf-8 -*- import re import scrapy import datetime from sc ...
Python3.6+Scrapy爬取知名技术文章网站
爬取分析伯乐在线已经提供了所有文章的接口,还有下一页的接口,所有我们可以直接爬取一页,再翻页爬. 环境搭建 Windows下安装Python: http://www.cnblogs.com/0bug ...
第5章 scrapy爬取知名问答网站
第五章感觉是第四章的练习项目,无非就是多了一个模拟登录. 不分小节记录了,直接上知识点,可能比较乱. 1.常见的httpcode: 2.怎么找post参数? 先找到登录的页面,打开firebug,输入 ...
用scrapy爬取亚马逊网站项目
这次爬取亚马逊网站,用到了scrapy,代理池,和中间件: spiders里面: # -*- coding: utf-8 -*- import scrapy from scrapy.http.requ ...
爬虫框架之Scrapy——爬取某招聘信息网站
案例1:爬取内容存储为一个文件 1.建立项目 C:\pythonStudy\ScrapyProject>scrapy startproject tenCent New Scrapy projec ...
使用scrapy爬取jian shu文章
settings.py中一些东西的含义可以看一下这里 python的scrapy框架的使用和xpath的使用 && scrapy中request和response的函数参数 & ...
Scrapy爬取伯乐在线文章
首先搭建虚拟环境,创建工程 scrapy startproject ArticleSpider cd ArticleSpider scrapy genspider jobbole blog.jobbo ...
scrapy爬取伯乐在线文章数据
创建项目切换到ArticleSpider目录下创建爬虫文件设置settings.py爬虫协议为False 编写启动爬虫文件main.py
一文搞定scrapy爬取众多知名技术博客文章保存到本地数据库，包含：cnblog、csdn、51cto、itpub、jobbole、oschina等
本文旨在通过爬取一系列博客网站技术文章的实践,介绍一下scrapy这个python语言中强大的整站爬虫框架的使用.各位童鞋可不要用来干坏事哦,这些技术博客平台也是为了让我们大家更方便的交流.学习.提高 ...

随机推荐

Winform嵌入其它应用程序
Options: using CommandLine; using System; using System.Collections.Generic; using System.Linq; using ...
Python str转化成数字
原地址 http://www.cnblogs.com/wuxiangli/p/6046800.html int(x [,base ]) 将x转换为一个整数 long(x [ ...
git命令合集及github的克隆推送
安装git 初始化仓库提交相关撤销相关远程推送分支相关其他遇到的错误 github的克隆上传此文章只是对命令的一个统计,起备忘和复习git只是的作用,不建议从没接触过git的同学通过它来 ...
基于python复制蓝鲸作业平台
前言去年看武sir代码发布的视频无意中听到了蓝鲸平台但是一直没深究,前一段时间公司要搞一个代码发布平台,但是需求变化很多一直找不到一个很好的参考模板,直到试用了一下蓝鲸作业平台发现“一切皆作业”的 ...
c++之选择排序和冒泡排序实现
1.冒泡排序冒泡排序就是通过对比前一个和后一个数的大小,按照规则进行顺序的调换.每一轮对比之后最大或者最小值都会浮到最上面或者沉到最低下. 如:对这一数组进行冒泡排序:int a[5]{34,12 ...
docker微服务部署之：二、搭建文章微服务项目
docker微服务部署之:一,搭建Eureka微服务项目一.新增demo_article模块,并编写代码右键demo_parent->new->Module->Maven,选择M ...
mac安装gdb调试（转载）
转载自:http://blog.plotcup.com/a/129 最近一直用go写一个项目,本想在mac上用gdb调试一下,但xcode4.6带的gdb版本还是太低了,不支持go,只好自己安装一个 ...
配置不同站点不同版本PHP
Apache 配置 1.常规手动部署apache方法(不会apache配置的请先移步看下Apache基本手工配置方法),解压fcgid,取其mod_fcgid.so至modules目录 2.打开htt ...
CODEVS-1018单词接龙
单词接龙原题:传送门解题思路: 此题是典型的深搜题目,首先确定递归变量,表示字母的数量,每当满足一定条件,就往下一层递归,否则回溯判断由哪个单词开始(因为可能字母首位可能相同),再确定之后所连单 ...
Github使用笔记
========================Github使用===================概念解释:远程仓库Remote:就是指保存在github网站里的代码;本地仓库Repository ...

第4章 scrapy爬取知名技术文章网站(1)

4-1 scrapy安装以及目录结构介绍

1.创建有python3的虚拟环境

2.安装scrapy

3.补充

4-2 pycharm 调试scrapy 执行流程

1.运行爬虫文件

2.要学会用断点和DEBUG

4-3~5 xpath的用法

1.xpath简介

2.xpath节点关系

3.xpath语法

4.补充

4-6~7 css选择器实现字段解析

第4章 scrapy爬取知名技术文章网站(1)的更多相关文章

随机推荐

热门专题