Ubuntu12搭建nutch1.2+tomcat7+jdk1.6
Ubuntu12搭建nutch1.2+tomcat7+jdk1.6
所用软件:jdk-6u24-linux-i586.bin
apache-tomcat-7.0.27.tar.gz
apache-nutch-1.2-bin.tar.gz
(注:我的文档很多复制cp 指令是在root权限下进行,所以修改权限。如果在ubuntu一般用户权限下进行复制指令,则不用修改权限)
一、安装jdk
1、把所用到的软件拷进 /home/ubuntu 路径下,即主文件夹下
2、在 /mnt 路径下建立tool文件夹,并把tool变为一般用户权限
cd /mnt
mkdir tool
chown –R ubuntu:ubuntu tool
3、进入tool文件,并建立java 文件夹,改为一般用户权限
cd tool
mkdir java
chown –R ubuntu:ubuntu java
4、把jdk拷进/mnt/tool/java路径下,并进行解压
cd java
cp /home/ubuntu/jdk-6u24-linux-i586.bin/mnt/tool/java
sudo sh jdk-6u24-linux-i586.bin
chown –R ubuntu:ubuntu jdk1.6.0_24
5、配置jdk环境变量
sudo gedit /etc/environment
打开文件后添加PATH中添加 /mnt/tool/java/jdk1.6.0_24/bin
export JAVA_HOME=/mnt/tool/java/jdk1.6.0_24
export JRE_Home=/mnt/tool/java/jdk1.6.0_24/jre
export CLASSPATH=$CLASSPATH:$JAVA_HOME/bin:$JAVA_HOME/jre/lib
配置第二个文件
Sudo gedit /etc/profile
在root 权限进行验证
java -version
自己可以再验证 java和javac 命令。正常则安装成功
二、安装tomcat
1、在/mnt/tool 路径下新建文件夹 Tomcat,并把apache-tomcat-7.0.27.tar.gz拷进去进行解压
cd /mnt/tool
mkdir Tomcat
chown –R ubuntu:ubuntu Tomcat
cd Tomcat
cp /home/ubuntu/apache-tomcat-7.0.27.tar.gz/mnt/tool/Tomcat
2、进入Tomcat路径,更改文件名,并修改权限,删除原来压缩包
chown –R ubuntu:ubuntu apache-tomcat-7.0.27
mv apache-tomcat-7.0.27tomcat7
rm –rf apache-tomcat-7.0.27.tar.gz
3、进入bin路径,配置catalina.sh文件
cd tomcat7/bin
sudo gedit catalina.sh
在cygwin=false上面添加
JAVA_HOME=/mnt/tool/java/jdk1.6.0_24
JAVA_OPTS="-server -Xms512m -Xmx1024m -XX:PermSize=600M -XX:MaxPermSize=600m -Dcom.sun.management.jmxremote"
4、配置 environment文件
sudo gedit /etc/environment
5、启动,进入/mnt/tool/Tomcat/tomcat7/bin路径,启动tomcat
./startup.sh
打开浏览器输入 http://localhost:8080/
Tomcat 安装成功
三、安装nutch
1、把nutch-1.2拷进 /mnt/tool 下,并对其解压
cp /home/ubuntu/apache-nutch-1.2-bin.tar.gz /mnt/tool
2、更改权限并删除原压缩包
Chown –R ubuntu:ubuntu nutch-1.2
rm –rf apache-nutch-1.2-bin.tar.gz
3、在 nutch-1.2 下新建一个 weburls.txt,输入内容http://www.taobao.com
cd nutch-1.2
vi weburls.txt
4、修改crawl-urlfilter.txt 中参数
图形操作就行,进入/mnt/tool/nutch-1.2/conf/crawl-urlfilter.txt,改为
MY.DOMAIN.NAME 改为 taobao.com
改为
5、进入 /mnt/tool/nutch-1.2/conf / 修改nutch-site.xml 如下
6、运行网络蜘蛛,抓取网页
进入/mnt/tool/nutch-1.2 运行
bin/nutch crawl weburls.txt -dir localweb -depth 2 -topN 100 -threads 2
-dir = localweb 指明下载数据存放路径,该目录不存在时,会被自动创建
-deptch = 2 下载深度为2
-topN = 100 下载符合条件的前100个页面
-threads = 2 启动的线程数目
蜘蛛运行时会输出大量数据,抓取结束之后,可以发现localweb目录被生成,里面有几个目录。
更改权限 localweb和logs是新生成文件夹
完成,看看/mnt/tool/nutch-1.2/localweb 下生产的 五个文件夹
7、在tomcat中部署nutch 项目,把nutch根目录下的nutch-1.2.war拷贝到tomcat下webapps中,稍会tomcat会对其自动解压
cp /mnt/tool/nutch-1.2/nutch-1.2.war/mnt/tool/Tomcat/tomcat7/webapps
修改权限
8、修改7中目录下的 、WEB-INF/classes/nutch-site.xml 文件
9、修改tomcat7目录下的server.xml文件
10、重启tomcat
在/mnt/tool/Tomcat/tomcat7/bin
输入sudo./shutdown.sh
sudo ./startup.sh
四、观察结果
在地址栏输入 localhost:8080/nutch-1.2
输入 教育,显示如下
再测试一个,输入 要啥自行车,显示如下:
至此,jdk1.6+tomcat7+nutch1.2安装配置完毕。
Ubuntu12搭建nutch1.2+tomcat7+jdk1.6的更多相关文章
- MyEclipse10 Tomcat7 JDK1.7 配置
第一步.MyEclipse10 Tomcat7 JDK1.7下载 MyEclipse10http://downloads.myeclipseide.com/downloads/products/ewo ...
- tomcat7+jdk1.8一键安装脚本
#!/bin/bash #--------------------------------------------------------------------- # # Author : 大象无形 ...
- jenkins之Tomcat7+jdk1.7+jenkins
目的 在开发中,需要经常频繁的对测试服务器进行部署,而且在多人协同中开发经常遇到的问题就是别人更新了他的代码,而你去更新你的代码时并没有更新到别人的代码,导致测试环境的代码不是最新,当然这个问题也好解 ...
- RAD6.0+EJB+WEBSPHERE+JNDI转eclipse+TOMCAT7+JDK1.7+JNDI+SPRING修改总计
##########################1.去除ejb################################################################### ...
- ubuntu12.04 64位系统配置jdk1.6和jdk-6u20-linux-i586.bin下载地址
1:下载地址http://code.google.com/p/autosetup1/downloads/detail?name=jdk-6u20-linux-i586.bin&can=2&am ...
- Linux 下 Solr的搭建与使用(建议jdk1.8以上)
官方表示solr5之后的版本不再提供对第三方容器的支持(不提供war包了). “旧式”solr.xml格式不再支持,核心必须使用core.properties文件定义. 使用第三方容器的需要自己手动修 ...
- ubuntu12.04 安装和配置jdk1.7
第一步:下载jdk-7-linux-i586.tar.gz wget -c http://download.oracle.com/otn-pub/java/jdk/7/jdk-7-linux-i586 ...
- Nutch1.2 的安装与使用
Nutch1.2的安装与使用 1.nutch1.2下载 下载地址 http://archive.apache.org/dist/nutch/ 2.nutch1.2目录 bin:用于命 ...
- ssm框架基础搭建
1项目搭建环境 windows10+eclipse4.8+tomcat7+jdk1.7 2.使用maven搭建 1)首先eclipse配置好maven环境 2)file--new--other 3) ...
随机推荐
- Ubuntu安装R及R包
安装R $sudo apt-get update $sudo apt-get install r-base $sudo apt-get install r-base-dev 安装一些可能的依赖包 $s ...
- HTTP 1.0 Status Code Definitions
part of Hypertext Transfer Protocol -- HTTP/1.1RFC 2616 Fielding, et al. 10 Status Code Definitions ...
- PHP使用swoole来实现实时异步任务队列
转载来自第七星尘的技术博客的<PHP使用swoole来实现实时异步任务队列> 关于异步任务队列 用户打开了我们的网站.他要做的就是勾选需要发邮件的代理商列表,然后把结算邮件发出去.假如我们 ...
- ES开发的一些坑(一)
一.ES-Hadoop导数据的时候报"Could not write all entries"异常 ES-Hadoop是一个开源的数据导入项目,支持数据从hdfs,hive,sp ...
- option_match
//与match区别:如果没有匹配到,返回NULLCREATE (olive:Person {name:'Olive Stone'}),(charlie:Person {name:'Charlie S ...
- EasyUITree设置节点选中
function callback1(){ reloadMind(); LoadTree0($("); setTimeout(function(){ var node = $('#tt1') ...
- proguard-rules.pro、混淆、导jar包
前记: 买了一个<精通Android Studio>本来最想看的是关于混淆导jar包的,哪知道没有,有点小失望. 好吧,自己来. 在用Android Studio开发的时候,把minify ...
- 连接db2数据库出现No buffer space available (maximum connections reached?)
Caused by: javax.naming.NamingException: [jcc][t4][2043][11550][3.57.82] 异常 java.net.SocketException ...
- TOMCAT内存溢出及大小调整的实现方法
一.tomcat内存设置问题 收藏 在使用Java程序从数据库中查询大量的数据或是应用服务器(如tomcat.jboss,weblogic)加载jar包时会出现java.lang.OutOfMemor ...
- OSS 视频存储
我这里加了 封面图片 可以不理睬! 我没有存oss. 阿里的OSS 自己可以去官网下载 我这里放到 Vendor 下的. 1 # 注意这里OSS中 请设置 存储空间名称为公共的 才能直接使用这里返回的 ...