这篇文章首发在吹水小镇:http://blog.reetsee.com/archives/366 要在手机或者电脑看到更好的图片或代码欢迎到博文原地址.也欢迎到博文原地址批评指正. 转载请注明: 吹水小镇 | reetsee.com 原文链接地址: http://blog.reetsee.com/archives/366 ------------------------------ 好久不见了! 我最终又写一篇日志了,本来有非常多流水帐想发可是感觉没营养,就作罢了.今天我主要分享一个简单的PHP…
各位好!从今天起,我将用几个篇幅的文字向大家介绍一下我的一个开源作品--YayCrawler,其在GitHub上的网址是:https://github.com/liushuishang/YayCrawler,欢迎大家关注和反馈. YayCrawler是一个基于WebMagic开发的分布式通用爬虫框架,开发语言是Java.我们知道目前爬虫框架很多,有简单的,也有复杂的,有轻量型的,也有重量型的.您也许会问:你这个爬虫框架的优势在哪里呢?额,这个是一个很重要的问题!在这个开篇中,我先简单的介绍一下我…
一个简单的多线程Python爬虫 最近想要抓取拉勾网的数据,最开始是使用Scrapy的,但是遇到了下面两个问题: 前端页面是用JS模板引擎生成的 接口主要是用POST提交参数的 目前不会处理使用JS模板引擎生成的HTML页面,用POST的提交参数的话,接口统一,也没有必要使用Scrapy,所以就萌生了自己写一个简单的Python爬虫的想法. 本文中的部分链接可能需要FQ. 参考资料: http://www.ibm.com/developerworks/aix/library/au-threadi…
翻译自codeproject上面的一篇文章,题目是:如何创建一个简单的c++同步锁框架 目录 介绍 背景 临界区 & 互斥 & 信号 临界区 互斥 信号 更多信息 建立锁框架的目的 BaseLock类 临界区类 构造/拷贝构造 析构 Lock/TryLock TryLockFor 解锁 信号量类 构造/拷贝构造 析构 Lock/TryLock/TryLockFor 解锁 释放 互斥类 构造/拷贝构造 析构 Lock/ TryLock/TryLockFor 解锁 无锁类 实现 自动释放锁类…
之前我介绍过如何使用log4net来记录日志,但最近喜欢上了另一个简单好用的日志框架NLog. 关于NLog和log4net的比较这里就不多讨论了,感兴趣的朋友可以参看.NET日志工具介绍和log4net vs. Nlog这两篇文章.本文主要介绍一下如何在项目中使用NLog. 在Nuget中安装NLog NLog可以直接使用Nuget安装: PM > Install-Package Nlog 使用NLog NLog的使用方式基本上和其它的Log库差不多,分为Trace.Debug.Info.Er…
0.此框架只能用于爬虫,由框架来调度url请求,必须按照此方式开发,没有做到类似celery的通用分布式功能,也不方便测试.可以使用另外一个,基于函数式编程的,调度一切函数的分布式框架,做到了兼容任何新老代码,满足任何需要分布式的场景. 一个分布式爬虫框架.比scrapy简单很多,不需要各种item pipeline middwares spider settings run文件之间来回切换写代码,这只需要一个文件,开发时候可以节约很多时间,形式非常松,需要重写一个方发,自己想怎么解析入库都可以…
初学python,实现了一个简单的线程池框架,线程池中除Wokers(工作线程)外,还单独创建了一个日志线程,用于日志的输出.线程间采用Queue方式进行通信. 代码如下:(不足之处,还请高手指正) #!/usr/bin/env python # -*- coding:utf-8 -*- __author__ = "pandaychen" import Queue import sys import os import threading import time import sign…
我经常收到关于email爬虫的问题.有迹象表明那些想从网页上抓取联系方式的人对这个问题很感兴趣.在这篇文章里,我想演示一下如何使用python实现一个简单的邮箱爬虫.这个爬虫很简单,但从这个例子中你可以学到许多东西(尤其是当你想做一个新虫的时候). 我特意简化了代码,尽可能的把主要思路表达清楚.这样你就可以在需要的时候加上自己的功能.虽然很简单,但完整的实现从网上抓取email地址的功能.注意,本文的代码是使用python3写的. 好.让我们逐步深入吧.我一点一点的实现,并加上注释.最后再把完整…
这一节我将向大家介绍一下YayCrawler的运行机制,首先允许我上一张图: 首先各个组件的启动顺序建议是Master.Worker.Admin,其实不按这个顺序也没关系,我们为了讲解方便假定是这个启动顺序. 一.Master端分析 Master启动后会连接Redis查询任务队列状态,Master维持了四个状态的任务队列:待执行任务队列.执行中任务队列.成功任务队列和失败任务队列.Master内部有一个任务调度器,Master等Worker心跳包到来的时候,观察Worker是否还有任务分配的余地…
本节我将向大家介绍一下YayCrawler的核心-页面的抽取规则定义,这也是YayCrawler能够做到通用的主要原因之一.如果我要爬去不同的网站的数据,尽管他们的网站采用的开发技术不同.页面的结构不同,但是我只要针对不同的网站定义不同的抽取规则即可,不用再对每个网站专门开发一个爬虫. 首先让我来解释几个概念: 一.页面(Page) 这里说的页面不是指在浏览器上能直接看到的页面,而是指一个http请求发送后服务端返回的response中的内容.它大多数情况是一个html文档,也可能是一个Json…