nutch-site.xml 在nutch2.2.1中,有两份配置文件:nutch-default.xml与nutch-site.xml. 其中前者是nutch自带的默认属性,一般情况下不要修改. 如果需要修改默认属性,可以在nutch-site.xml中增加一个同名的属性,并修改其值.nutch-site.xml中的属性值会覆盖nutch-default.xml中的值. 1.db.ignore.external.links 若为true,则只抓取本域名内的网页,忽略外部链接. 可以在 rege…
Heritrix可分为四大模块: 1.控制器CrawlController 2.待处理的uri列表  Frontier 3.线程池 ToeThread 4.各个步骤的处理器 (1)Pre-fetch processing chain:主要处理DNS-lookup, robots.txt,认证,抓取范围检查等. (2)Fetch Processing chain:抓取处理器.对于每个协议,均有一个类作支持,如FetchHTTP. (3)Extractor processing chain:内容提取…
一.JVM调优基本流程 1.划分应用程序的系统需求优先级 2.选择JVM部署模式:单JVM.多JVM 3.选择JVM运行模式 4.调优应用程序内存使用 5.调优应用程序延迟 6.调优应用程序吞吐量 二.选择JVM部署模式:单JVM.多JVM 1.单JVM 优点:不需要管理多个JVM,降低管理成本: 应用程序消耗内存数量较少 缺点:存在单点故障,一个JVM失效时,整个系统失效. 2.多JVM 优点:更好的可用性,避免单点故障:更低延迟,因为垃圾收集所产生的停顿是程序延迟的主要原因,多JVM减少了每…
一.makefile简介 定义:makefile定义了软件开发过程中,项目工程编译链.接接的方法和规则. 产生:由IDE自动生成或者开发者手动书写. 作用:Unix(MAC OS.Solars)和Linux(Red Hat.Ubuntu)系统下由make命令调用当前目录下的makefile文件执行,可实现项目工程的自动化编译. 二.语法规则 target:prerequisites command 其中,target为需要生成的目标,prerequisites为依赖项,command为make需…
自动释放池: @autoreleasepool { } 内存管理机制       谁污染,谁治理 垃圾回收机制:gc(Garbage collection),由系统管理内存,开发人员不需要管理. OC从版本2.0之后开始支持垃圾回收机制,但iOS开发平台不支持垃圾回收机制 继承自NSObject的对象需要内存管理 OC中通过引用计数器管理内存 通过引用计数器管理内存的两种方式 1.MRC:(maual reference count),手动引用计数,就是开发人员通过引用计数管理内存 2.ARC:…
Mahout 是一个很强大的数据挖掘工具,是一个分布式机器学习算法的集合,包括:被称为Taste的分布式协同过滤的实现.分类.聚类等.Mahout最大的优点就是基于hadoop实现,把很多以前运行于单机上的算法,转化为了MapReduce模式,这样大大提升了算法可处理的数据量和处理性能. 一.Mahout安装.配置 1.下载并解压Mahout http://archive.apache.org/dist/mahout/ tar -zxvf mahout-distribution-0.9.tar.…
一.Java Script 1.由于Solr本身可以返回Json格式的结果,而JavaScript对于处理Json数据具有天然的优势,因此使用JavaScript实现Solr客户端是一个很好的选择. 2.在之前,主要使用SolJS作为solr的客户端,目前主要使用ajax-solr,信息请见:https://github.com/evolvingweb/ajax-solr/wiki/Reuters-tutorial%3A-step-1. 3.以下示例未使用上述所述的客户端,而是使用了ajax的基…
一.向Solr提交索引的方式 1.使用post.jar进行索引 (1)创建文档xml文件 <add> <doc> <field name="id">test4</field> <field name="title">testagain</field> <field name="url">http://www.163.com</field> </d…
1.在任务一开始运行,注入Url时即出现以下错误. InjectorJob: Injecting urlDir: urls InjectorJob: Using class org.apache.gora.hbase.store.HBaseStore as the Gora storage class. InjectorJob: java.lang.RuntimeException: job failed: name=[20140000]inject urls, jobid=job_local1…
1.版本说明 (1)最新版本:3.3.0 (2)最新release版本:3.2.0 (3)重要历史版本:1.14.4 3.1.0及之前的版本:http://sourceforge.net/projects/archive-crawler/files/ 3.2.0及之后的版本:http://archive.org/ 由于国情需要,后者无法访问,因此本blog研究的是1.14.4版本. 2.官方材料 source:http://sourceforge.net/projects/archive-cra…
一.新建项目并将Heritrix源码导入 1.下载heritrix-1.14.4-src.zip和heritrix-1.14.4.zip两个压缩包,并解压,以后分别简称SRC包和ZIP包: 2.在Eclipse下新建Java项目,取名Heritrix.1.14.4: 3.复制SRC包下面src/java文件夹下org和st两个文件夹到项目中的src包下: 4.复制SRC包下src下conf文件夹到项目根目录: 5.复制SRC包下lib文件夹到项目根目录: 6.复制ZIP包下webapps文件夹到…
参考http://wiki.apache.org/nutch/RunNutchInEclipse 一.环境准备 1.下载nutch2.3源代码 wget http://mirror.bit.edu.cn/apache/nutch/2.3/apache-nutch-2.3-src.tar.gz 或者下载正在开发中的最新版本 svn co https://svn.apache.org/repos/asf/nutch/branches/2.x 2.选择使用的数据库类型,以hbase为例 在conf/n…
UITextField 继承自UIControl,他是在UILabel基础上,对了文本的编辑.可以允许用户输入和编辑文本 UITextField的使用步骤 1.创建控件 UITextField *textField=[[UITextField alloc]initWithFrame:CGRectMake(10, 100, 300, 50)]; textField.tag=100;//为textField赋tag,目的是可以通过父视图找到textField 2.设置属性 (1).设置背景 text…
UILabel:标签 继承自UIView ,在UIView基础上扩充了显示文本的功能.(文本框) UILabel的使用步骤 1.创建控件 UILabel *aLabel=[[UILabel alloc]initWithFrame:CGRectMake(10, 100, 300, 100)]; 2.设置属性 (1).设置背景颜色 aLabel.backgroundColor=[UIColor cyanColor]; (2)设置文本 aLabel.text=@"fuck you艹你❤️❤️❤️❤️❤…
OC:Objective-c     面向对象的c语言,简称obj-c或者OC OC和C的区别 1.OC是C语言的超集,OC是在C语言的基础上结合smalltalk的优点,开发出来的语言.oc兼容所有的C语言的语法. 2.OC扩展了面向对象的思想. 3.运行时特性 4.有丰富的类库 OOP(Object Oriented Programming)面向对象编程. 关键点;对象.类.多态.封装.继承等. OC的核心:类和对象. OC的三大特性:封装.继承.多态. 类:具有相同特征和行为的事物的抽象.…
//欲练此功必先自宫!!!     //第一天:C语言的基础     //进制     //2进制, 10进制, 8进制, 16进制     //注:8进制数前加0, 16进制数前加0x          //进制转换:     //10 -> n: 连除到取余     //n -> 10: 按权求和法(基数, 位权)     //n -> n: 1个8进制位 = 3个2进制位, 1个16进制位 = 4个2进制位          //字节     //1字节 = 8位2进制     …
  spark可以通过交互式命令行及编程两种方式来进行调用: 前者支持scala与python 后者支持scala.python与java 本文参考https://spark.apache.org/docs/latest/quick-start.html,可作快速入门 再详细资料及用法请见https://spark.apache.org/docs/latest/programming-guide.html   建议学习路径: 1.安装单机环境:http://blog.csdn.net/jedia…
一.决策树 决策树是用于分类和预测的主要技术之一,决策树学习是以实例为基础的归纳学习算法,它着眼于从一组无次序.无规则的实例中 推理出以决策树表示的分类规则.构造决策树的目的是找出属性和类别间的关系,用它来预测将来未知类别的记录的类别.它采用自顶向下的递归方式,在决策树的 内部节点进行属性的比较,并根据不同属性值判断从该节点向下的分支,在决策树的叶节点得到结论. 主要的决策树算法有ID3.C4.5(C5.0).CART.PUBLIC.SLIQ和SPRINT算法等.它们在选择测试属性采用的技术.生…
一.Berkeley DB的介绍 (1)Berkeley DB是一个嵌入式数据库,它适合于管理海量的.简单的数据.如Google使用其来保存账户信息,Heritrix用其来保存froniter. (2)key/value是Berkeley DB用来管理数据的基础,每个key/value对代表一条记录. (3)Berkeley DB在底层实现采用B树,可以看成能够存储大量数据的HashMap. (4)它是Oracle公司的一个产品,C++版本最新出现,之后JAVA等版本也陆续出现.它不支持SQL语…
二进制:以0b开头,只有0和1两种数字.如0101 十进制:0~9十个数字表示.如25 十六进制:以0~9,A~F表示,以0X开头.如0X2B 十进制转换为X进制:连除倒取余 X进制转换为十进制:按权求和. 一个八进制可以由3个二进制表示 一个十六进制可以有4个二进制表示 基本数据类型:大体上分为整型和浮点型 字节:计算机中最小的储存单位   1 Byte=8  bit 整型:   int  4字节           short  2字节           long    4字节或者8字节…
题目网址:http://haut.openjudge.cn/xiyoulianxi1/1/ 1:晶矿的个数 查看 提交 统计 提问 总时间限制:  1000ms  内存限制:  65536kB 描述 在某个区域发现了一些晶矿,已经探明这些晶矿总共有分为两类,为红晶矿和黑晶矿.现在要统计该区域内红晶矿和黑晶矿的个数.假设可以用二维地图m[][]来描述该区域,若m[i][j]为#表示该地点是非晶矿地点,若m[i][j]为r表示该地点是红晶矿地点,若m[i][j]为b表示该地点是黑晶矿地点.一个晶矿是…
题目地址:http://haut.openjudge.cn/20131112/6/ 求编号最多的组 查看 提交 统计 提问 总时间限制:  1000ms  内存限制:  63353kB 描述 相邻两个数属于同一组,例如 1 2 3 5 2 6 4 7 9 6 1-2-6-9为一组 3-5为一组 4-7为一组 所以最多元素的组为4 输入 多组数据,每组第一行两个正整数n,m,表示有1~n这n个编号,m个关系. 接下来m行,每行两个数i, j, 1 <= i, j <= n,表示i和j是一组的.…
数组:是由一组具有相同数据类型的数据组合而来. 数组定义:元素类型修饰符 数组名[数组个数]={元素1,元素2....};  int arr[ 2 ]={1,2};    //正确 int arr[ 2 ]={1,2,3};     //错误,越界 其中,数组定义时,长度表示可以省略,如果省略,长度直接由元素的个数决定 int arr[ ]={1,2,3};   //该数组长度是3 数组的使用: 访问:数组下标从0开始,范围[0,元素个数-1] 随机数产生:arc4random%(m-n+1)+…
UIEvent:事件,是由硬件捕捉的一个代表用户操作操作设备的对象. 事件分三类:触摸事件.晃动事件.远程控制事件. 触摸事件:用户通过触摸设备屏幕操作对象,.输入数据.支持多点触摸,包含1个到多个触摸点. UIView支持触摸事件(继承了UIResponder),而且支持多点触摸 使用时,需要定义UIView子类,重写触摸相关的方法. 1.刚开始触摸到屏幕的时候触发 -(void)touchesBegan:(NSSet *)touches withEvent:(UIEvent *)event{…
UIViewController 视图控制器,继承自UIResponder,作用:管理视图并且响应事件 功能: 1.分担APPdelegate的工作 2.实现模块独立,能提高复用性 创建UIViewController对象: UIViewController *viewController=[[UIViewController alloc]init]; UIViewController 自身带了一个UiView,默认的大小和屏幕大小一样. 每一个window都带有一个根视图,如果不给根视图赋值,…
UI程序的一般执行顺序: 先进入main里面,执行函数UIApplicationMain(),通过该函数创建应用程序对象和指定其代理并实现监听,当执行函数UIApplicationMain()时还会做一次跳转,跳转至AppDelegate UIApplicationMain() 函数的三大功能: 1.创建应用的UIApplication对象 2.指定应用程序的代理对象,代理的主要作用:监听应用程序是如何运行的. 3.建立事件循环(runloop:这个循环是一个死循环).作用:一旦用户操作应用程序…
全局变量:定义在函数之外.(不安全)   局部变量;定义在函数之内. 内存的划分:1栈区   2堆区  3静态区(全局区) 4常量区 5代码区 栈区..静态区.常量区.代码区的数据都是由系统分配和释放空间. 堆区的内存必须自己去申请和释放. 1.栈区     栈区的数据以栈的形式存放(先进后出) 局部变量存放在栈区 2.静态区  (全局区) 被static修饰的变量和全局变量存放在静态区 static修饰符的作用: 1.修饰的变存放在静态区 2.修饰的变量只初始化一次 3.由static修饰的变…
函数指针:指向函数的指针变量. 函数名相当于首地址. 函数指针定义:返回值类型  (*函数指针变量名)(参数类型1,参数类型2,....)=初始值 函数指针类型:返回值类型  (*)(参数类型1,参数类型2,....)=初始值 如:int  (*)(int int)  表示返回值是int类型,参数有两个,都为int类型的指针变量类型 void sayHello(){ printf("你好!!! \n"); } void (*p)()=NULL;   //表示返回值为空,无参数的,函数指…
结构体指针:指向结构体指针的变量的指针. 结构体指针指向结构体第一个成员变量的首地址 ->:   指向操作符 定义的指针变量必须指向结构体的首地址,才可以使用  ->  访问结构体成员变量. 数组指针:数组中的元素都是指针的数组. 版权声明:本文为博主原创文章,未经博主允许不得转载.…
指针:就是地址. &   取地址运算符 %p   打印地址占位符 int a=0; printf("%p ",&a);    指针变量:用来存放地址的变量 定义: 数据类型 * 变量名 = 初始值 int a=10; int *p=NULL; p=&a;    //把a的地址赋值给指针变量p,也就是说p指向了a的地址 间接访问:通过指针(地址)实现访问. * 取值运算符 *p 取到指针变量的指向的内存中的数据 指针变量所占字节,与类型修饰符无关,只与操作系统有关…