第4章 scrapy爬取知名技术文章网站(1)

4-1 scrapy安装以及目录结构介绍

安装scrapy可以看我另外一篇博文：Scrapy的安装--------Windows、linux、mac等操作平台，现在是在虚拟环境中安装可能有不同。

1.创建有python3的虚拟环境

mkvirtualenv --python=C:\Users\admin\AppData\Local\Programs\Python\Python35\python3.exe py3scrapy

2.安装scrapy

进入环境py3scrapy，pip install -i https://pypi.douban.com/simple/ scrapy 豆瓣源安装非常快。

3.补充

进入虚拟环境： workon py3scrapy

创建项目： scrapy startproject ArticleSpider

建立spider： scrapy genspider jobbole blog.jobbple.com

4-2 pycharm 调试scrapy 执行流程

1.运行爬虫文件

建立一个main.py文件，在ArticleSpider文件目录下

from scrapy.cmdline import execute

import sys,os

sys.path.append(os.path.dirname(os.path.abspath(__file__)))

execute(['scrapy','crawl','jobbole'])

os.path.abspath(__file__) --------main.py目录

dirname() --------main.py父目录

2.要学会用断点和DEBUG

在实战中操作

4-3~5 xpath的用法

1.xpath简介

xpath使用路径表达式在xml和html中进行导航。
xpath包含标准函数库。
xpath是一个w3c的标准。

2.xpath节点关系

父节点
子节点
同胞节点
先辈节点
后代节点

3.xpath语法

4.补充

为什么有时候自己写的xpath明明对的，却获取不到数据？

原因：F12产生的源码，不同于网页源代码，前者可能是js加载完的源代码。response.xpath()是根据网页源代码来提取信息的。

问题：No modle named ‘win32api’

解决： pip install -i https://pypi.douban.com/simple/ pypiwin32

contains()用法

response.xpath("//span[contains(@class, 'bookmark-btn')]/text()").extract()[0]

表示在span标签中class属性中含有 bookmark-btn 即为符合

正文保留html标签，以便后续研究

scrapy shell url 调试xpath

如果在py3中就都显示中文了

re.math(reg,html).group() #正则匹配

tag_list=['职场','2 评论','今昔']

[element for element in tag_list if not element.strip().endswith('评论')]

#结果['职场', '今昔']

4-6~7 css选择器实现字段解析

作者：今孝

出处：http://www.cnblogs.com/jinxiao-pu/p/6713333.html

本文版权归作者和博客园共有，欢迎转载，但未经作者同意必须保留此段声明，且在文章页面明显位置给出原文连接。

第4章 scrapy爬取知名技术文章网站(1)的更多相关文章

第4章 scrapy爬取知名技术文章网站(2)
4-8~9 编写spider爬取jobbole的所有文章 # -*- coding: utf-8 -*- import re import scrapy import datetime from sc ...
Python3.6+Scrapy爬取知名技术文章网站
爬取分析伯乐在线已经提供了所有文章的接口,还有下一页的接口,所有我们可以直接爬取一页,再翻页爬. 环境搭建 Windows下安装Python: http://www.cnblogs.com/0bug ...
第5章 scrapy爬取知名问答网站
第五章感觉是第四章的练习项目,无非就是多了一个模拟登录. 不分小节记录了,直接上知识点,可能比较乱. 1.常见的httpcode: 2.怎么找post参数? 先找到登录的页面,打开firebug,输入 ...
用scrapy爬取亚马逊网站项目
这次爬取亚马逊网站,用到了scrapy,代理池,和中间件: spiders里面: # -*- coding: utf-8 -*- import scrapy from scrapy.http.requ ...
爬虫框架之Scrapy——爬取某招聘信息网站
案例1:爬取内容存储为一个文件 1.建立项目 C:\pythonStudy\ScrapyProject>scrapy startproject tenCent New Scrapy projec ...
使用scrapy爬取jian shu文章
settings.py中一些东西的含义可以看一下这里 python的scrapy框架的使用和xpath的使用 && scrapy中request和response的函数参数 & ...
Scrapy爬取伯乐在线文章
首先搭建虚拟环境,创建工程 scrapy startproject ArticleSpider cd ArticleSpider scrapy genspider jobbole blog.jobbo ...
scrapy爬取伯乐在线文章数据
创建项目切换到ArticleSpider目录下创建爬虫文件设置settings.py爬虫协议为False 编写启动爬虫文件main.py
一文搞定scrapy爬取众多知名技术博客文章保存到本地数据库，包含：cnblog、csdn、51cto、itpub、jobbole、oschina等
本文旨在通过爬取一系列博客网站技术文章的实践,介绍一下scrapy这个python语言中强大的整站爬虫框架的使用.各位童鞋可不要用来干坏事哦,这些技术博客平台也是为了让我们大家更方便的交流.学习.提高 ...

随机推荐

LightOJ 1138 Trailing Zeroes (III)（二分 + 思维）
http://lightoj.com/volume_showproblem.php?problem=1138 Trailing Zeroes (III) Time Limit:2000MS M ...
pageadmin 网站建设系统如何新建进程池并在站点中使用
1.打开iis管理界面,右键应用程序池,点击添加应用程序池,添加界面如下图,注意pageadmin cms net版本选择4.0,托管模式建议选择集成模式. 2.添加完毕后,在网站中点击对应站点,点击 ...
MyBatis入门及CRUD
MyBatis是一个ORM的数据操作框架 myBatis的基本配置首先创建一个普通 java项目,引入响应jar包,然后引入mybatis的xml配置, <?xml version=" ...
lambda 、 map 、filter 、reduce 及 reversed 常用函数
lambda 匿名函数什么是lambda? lambda 操作符(或 lambda 函数)通常用来创建小巧的,一次性的匿名函数对象.它的基本语法如下: lambda arguments : expr ...
就这么简单！构建强大的WebShell防护体系
接触web安全中,例如上传一句话WebShell实现上传文件的功能,再通过上传的多功能WebShell,执行病毒文件最终创建远程连接账号,达到入侵目标服务器的效果.我们可以看到,webshell在整个 ...
eclipse如何汉化，把eclipse改成中文版
eclipse默认是英文版的,对于中国人来说使用英文语言的软件是件痛苦的事情.下面我来详细说一下如何把eclipse改成中文版的. 工具/原料 eclipse英文版 eclipse中文插件方法/ ...
嵌入式C语言自我修养 05：零长度数组
5.1 什么是零长度数组顾名思义,零长度数组就是长度为0的数组. ANSI C 标准规定:定义一个数组时,数组的长度必须是一个常数,即数组的长度在编译的时候是确定的.在ANSI C 中定义一个数组的 ...
爬虫之chrome浏览器的使用方法
chrome浏览器使用方法介绍 1. 新建隐身窗口 1.1 为什么需要新建隐身窗口在打开隐身窗口的时候,第一次请求某个网站是没有携带cookie的,和代码请求一个网站一样,不携带cookie.这样就 ...
SuperMap（无对应字段）空间属性挂接
一.数据准备将一个没有基本属性的模型数据集和一个含有位置等属性信息的shp属性表进行挂接,两组数据之间没有连接字段,但同属一个坐标系下,只能通过空间位置信息进行属性挂接. 二.数据处理基本思路:将 ...
apache 子域名自动与子域名同名的目录绑定
假设有域名domain.com,已经泛解析子域名*.domain.com到该主机的ip,web根目录为/var/www/,在访问a.domain.com时,能自动绑定/var/www/a/目录,访问b ...

第4章 scrapy爬取知名技术文章网站(1)

4-1 scrapy安装以及目录结构介绍

1.创建有python3的虚拟环境

2.安装scrapy

3.补充

4-2 pycharm 调试scrapy 执行流程

1.运行爬虫文件

2.要学会用断点和DEBUG

4-3~5 xpath的用法

1.xpath简介

2.xpath节点关系

3.xpath语法

4.补充

4-6~7 css选择器实现字段解析

第4章 scrapy爬取知名技术文章网站(1)的更多相关文章

随机推荐

热门专题