sklearn实战-乳腺癌细胞数据挖掘

https://study.163.com/course/introduction.htm?courseId=1005269003&utm_campaign=commission&utm_source=cp-400000000398149&utm_medium=share

递归知识：oop，xpath,jsp,items,pipline等专业网络知识，初级水平并不是很scrapy，可以从简单模块自己写。

初窥Scrapy

Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架。可以应用在包括数据挖掘，信息处理或存储历史数据等一系列的程序中。

其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的，也可以应用在获取API所返回的数据(例如 Amazon Associates Web Services ) 或者通用的网络爬虫。

本文档将通过介绍Scrapy背后的概念使您对其工作原理有所了解，并确定Scrapy是否是您所需要的。

当您准备好开始您的项目后，您可以参考入门教程。

选择一个网站

当您需要从某个网站中获取信息，但该网站未提供API或能通过程序获取信息的机制时， Scrapy可以助你一臂之力。

以 Mininova 网站为例，我们想要获取今日添加的所有种子的URL、名字、描述以及文件大小信息。

今日添加的种子列表可以通过这个页面找到:

http://www.mininova.org/today

定义您想抓取的数据

第一步是定义我们需要爬取的数据。在Scrapy中，这是通过 Scrapy Items 来完成的。(在本例子中为种子文件)

我们定义的Item:

import scrapy

class TorrentItem(scrapy.Item):

    url = scrapy.Field()

    name = scrapy.Field()

    description = scrapy.Field()

    size = scrapy.Field()

编写提取数据的Spider

第二步是编写一个spider。其定义了初始URL(http://www.mininova.org/today)、针对后续链接的规则以及从页面中提取数据的规则。

通过观察页面的内容可以发现，所有种子的URL都类似 http://www.mininova.org/tor/NUMBER 。其中， NUMBER 是一个整数。根据此规律，我们可以定义需要进行跟进的链接的正则表达式: /tor/\d+ 。

我们使用 XPath 来从页面的HTML源码中选择需要提取的数据。以其中一个种子文件的页面为例:

http://www.mininova.org/tor/2676093

观察HTML页面源码并创建我们需要的数据(种子名字，描述和大小)的XPath表达式。

通过观察，我们可以发现文件名是包含在 <h1> 标签中的:

<h1>Darwin - The Evolution Of An Exhibition</h1>

与此对应的XPath表达式:

//h1/text()

种子的描述是被包含在 id="description" 的 <div> 标签中:

<h2>Description:</h2>

<div id="description">

Short documentary made for Plymouth City Museum and Art Gallery regarding the setup of an exhibit about Charles Darwin in conjunction with the 200th anniversary of his birth.

...

对应获取描述的XPath表达式:

//div[@id='description']

文件大小的信息包含在 id=specifications 的 <div> 的第二个 <p> 标签中:

<div id="specifications">

<p>

<strong>Category:</strong>

<a href="/cat/4">Movies</a> &gt; <a href="/sub/35">Documentary</a>

</p>

<p>

<strong>Total size:</strong>

150.62&nbsp;megabyte</p>

选择文件大小的XPath表达式:

//div[@id='specifications']/p[2]/text()[2]

关于XPath的详细内容请参考 XPath参考。

最后，结合以上内容给出spider的代码:

from scrapy.contrib.spiders import CrawlSpider, Rule

from scrapy.contrib.linkextractors import LinkExtractor

class MininovaSpider(CrawlSpider):

    name = 'mininova'

    allowed_domains = ['mininova.org']

    start_urls = ['http://www.mininova.org/today']

    rules = [Rule(LinkExtractor(allow=['/tor/\d+']), 'parse_torrent')]

    def parse_torrent(self, response):

        torrent = TorrentItem()

        torrent['url'] = response.url

        torrent['name'] = response.xpath("//h1/text()").extract()

        torrent['description'] = response.xpath("//div[@id='description']").extract()

        torrent['size'] = response.xpath("//div[@id='specifications']/p[2]/text()[2]").extract()

        return torrent

TorrentItem 的定义在上面。

执行spider，获取数据

终于，我们可以运行spider来获取网站的数据，并以JSON格式存入到 scraped_data.json 文件中:

scrapy crawl mininova -o scraped_data.json

命令中使用了 feed导出来导出JSON文件。您可以修改导出格式(XML或者CSV)或者存储后端(FTP或者 Amazon S3)，这并不困难。

同时，您也可以编写 item管道将item存储到数据库中。

查看提取到的数据

执行结束后，当您查看 scraped_data.json , 您将看到提取到的item:

[{"url": "http://www.mininova.org/tor/2676093", "name": ["Darwin - The Evolution Of An Exhibition"], "description": ["Short documentary made for Plymouth ..."], "size": ["150.62 megabyte"]},

# ... other items ...

]

由于 selectors 返回list, 所以值都是以list存储的(除了 url 是直接赋值之外)。如果您想要保存单个数据或者对数据执行额外的处理,那将是 Item Loaders 发挥作用的地方。

还有什么？

您已经了解了如何通过Scrapy提取存储网页中的信息，但这仅仅只是冰山一角。Scrapy提供了很多强大的特性来使得爬取更为简单高效, 例如:

HTML, XML源数据选择及提取的内置支持
提供了一系列在spider之间共享的可复用的过滤器(即 Item Loaders)，对智能处理爬取数据提供了内置支持。
通过 feed导出提供了多格式(JSON、CSV、XML)，多存储后端(FTP、S3、本地文件系统)的内置支持
提供了media pipeline，可以自动下载爬取到的数据中的图片(或者其他资源)。
高扩展性。您可以通过使用 signals ，设计好的API(中间件, extensions, pipelines)来定制实现您的功能。
内置的中间件及扩展为下列功能提供了支持:
- cookies and session 处理
- HTTP 压缩
- HTTP 认证
- HTTP 缓存
- user-agent模拟
- robots.txt
- 爬取深度限制
- 其他
针对非英语语系中不标准或者错误的编码声明, 提供了自动检测以及健壮的编码支持。
支持根据模板生成爬虫。在加速爬虫创建的同时，保持在大型项目中的代码更为一致。详细内容请参阅 genspider 命令。
针对多爬虫下性能评估、失败检测，提供了可扩展的状态收集工具。
提供交互式shell终端 , 为您测试XPath表达式，编写和调试爬虫提供了极大的方便
提供 System service, 简化在生产环境的部署及运行
内置 Web service, 使您可以监视及控制您的机器
内置 Telnet终端，通过在Scrapy进程中钩入Python终端，使您可以查看并且调试爬虫
Logging 为您在爬取过程中捕捉错误提供了方便
支持 Sitemaps 爬取
具有缓存的DNS解析器

接下来

下一步当然是下载Scrapy 了，您可以阅读入门教程并加入社区。感谢您的支持!

python风控评分卡建模和风控常识

https://study.163.com/course/introduction.htm?courseId=1005214003&utm_campaign=commission&utm_source=cp-400000000398149&utm_medium=share

scrapy2_初窥Scrapy的更多相关文章

python爬虫 scrapy2_初窥Scrapy
sklearn实战-乳腺癌细胞数据挖掘 https://study.163.com/course/introduction.htm?courseId=1005269003&utm_campai ...
Scrapy 1.4 文档 01 初窥 Scrapy
初窥 Scrapy Scrapy 是用于抓取网站并提取结构化数据的应用程序框架,其应用非常广泛,如数据挖掘,信息处理或历史存档. 尽管 Scrapy 最初设计用于网络数据采集(web scraping ...
初窥scrapy爬虫
2017-10-30 21:49:55 前言: 初步使用scrapy爬虫框架,爬取各个网站信息系统环境: 64位win10系统,装有64位python3.6,IDE为pycharm,使用cmd命令 ...
Scrapy001-框架初窥
Scrapy001-框架初窥 @(Spider)[POSTS] 1.Scrapy简介 Scrapy是一个应用于抓取.提取.处理.存储等网站数据的框架(类似Django). 应用: 数据挖掘信息处理 ...
初窥Kaggle竞赛
初窥Kaggle竞赛原文地址: https://www.dataquest.io/mission/74/getting-started-with-kaggle 1: Kaggle竞赛我们接下来将要 ...
WWDC15 Session笔记 - Xcode 7 UI 测试初窥
https://onevcat.com/2015/09/ui-testing/ WWDC15 Session笔记 - Xcode 7 UI 测试初窥 Unit Test 在 iOS 开发中已经有足够多 ...
Java发送邮件初窥
一.背景最近朋友的公司有用到这个功能,之前对这一块也不是很熟悉,就和他一起解决出现的异常的同时,也初窥一下使用Apache Common Email组件进行邮件发送. 二.Java发送邮件的注意事项 ...
【软件工程】week5-个人作业-敏捷开发方法初窥
敏捷开发方法初窥引言:本周的软件工程个人博客作业是阅读关于敏捷开发方法的文章(http://martinfowler.com/agile.html),并撰写自己的读后感.文章内容非常丰富,对敏捷开发 ...
网页3D效果库Three.js初窥
网页3D效果库Three.js初窥背景一直想研究下web页面的3D效果,最后选择了一个比较的成熟的框架Three.js下手 ThreeJs官网 ThreeJs-github; 接下来我会陆续翻译 ...

随机推荐

android 调用电话功能
今天用到了打电话的功能,这要如何实现呢? 很简单 1.创建对应对的xml展示页面喝java文件 2.在manifest中添加权限下面上代码吧: 这是布局的一部分 <LinearLayout a ...
Beta版本冲刺———第七天
会议照片: 项目燃尽图: 1.项目进展: 明天就验收了,今天做的是对项目的所有功能进行复查(由郭怡锋和洪大钊负责); 对于新增的功能:排行榜和撤销一步依然没有做出来.
转-Spring单例模式与线程安全
问题背景这段时间在做项目的时候,考虑到Spring中的bean默认是单例模式的,那么当多个线程调用同一个bean的时候就会存在线程安全问题.如果是Spring中bean的创建模式为非单例的,也就不存 ...
js 技巧和细节
1. if中的各种变量返回值一个值为 true 或者 false 的表达式.如果需要,非 Boolean 表达式也可以被转换为 Boolean 值,但是要遵循下列规则: 所有的对象都被当作 true ...
Openstack Basic Networking 翻译
自己翻译,加强理解.并学习英文和写作. 英文地址:http://docs.openstack.org/networking-guide/intro_basic_networking.html 目录: ...
关于在Eclipse中运行java程序报出：The project:XXXX which is referenced by the classpath10
1.work_space名称与project是否一样,如果是一样的可能会导致错误. 2.project所在的文件夹中的.mymetadata文件中定义的project-module名称是否与proje ...
[转]Ajax跨域请求
一.编一个服务器端servlet @RequestMapping("/haha") @ResponseBody String haha(String haha, HttpServl ...
epoch和Iteration
做机器学习时遇到epoch和iteration,一开始有点迷惑.不是一个意思吗? epoch可以翻译成"回合".一个epoch内,做一次train+一次test iteration ...
【poj1160】 Post Office
http://poj.org/problem?id=1160 (题目链接) 题意按照递增顺序给出一条直线上坐标互不相同的n个村庄,要求从中选择p个村庄建立邮局,每个村庄使用离它最近的那个邮局,使得所 ...
BZOJ3295 [Cqoi2011]动态逆序对
本文版权归ljh2000和博客园共有,欢迎转载,但须保留此声明,并给出原文链接,谢谢合作. 本文作者:ljh2000作者博客:http://www.cnblogs.com/ljh2000-jump/转 ...

scrapy2_初窥Scrapy