爬虫抓取5大门户网站和电商数据day1:基础环境搭建

最新想用爬虫实现抓取五大门户网站（搜狐、新浪、网易、腾讯、凤凰网）和电商数据（天猫，京东，聚美等），今天第一天先搭建下环境和测试。

采用maven+xpath+ HttpClient+正则表达式。

maven pom.xml配置文件信息

<dependency>

      <groupId>junit</groupId>

      <artifactId>junit</artifactId>

      <version>4.12</version>

      <scope>test</scope>

    </dependency>

    <dependency>

       <groupId>org.apache.spark</groupId>

       <artifactId>spark-core_2.10</artifactId>

       <version>1.6.0</version>

    </dependency>

    <dependency>

        <groupId>org.apache.spark</groupId>

        <artifactId>spark-sql_2.10</artifactId>

        <version>1.6.0</version>

    </dependency>

    <dependency>

      <groupId>org.apache.spark</groupId>

      <artifactId>spark-hive_2.10</artifactId>

      <version>1.6.0</version>

    </dependency>

    <dependency>

          <groupId>org.apache.spark</groupId>

          <artifactId>spark-streaming_2.10</artifactId>

          <version>1.6.0</version>

    </dependency>

    <dependency>

          <groupId>org.apache.hadoop</groupId>

          <artifactId>hadoop-client</artifactId>

          <version>2.6.0</version>

    </dependency>

    <dependency>

          <groupId>org.apache.spark</groupId>

          <artifactId>spark-streaming-kafka_2.10</artifactId>

          <version>1.6.0</version>

    </dependency>

    <dependency>

          <groupId>org.apache.spark</groupId>

          <artifactId>spark-graphx_2.10</artifactId>

          <version>1.6.0</version>

    </dependency>

    <!-- httpclient4.4 -->

        <dependency>

            <groupId>org.apache.httpcomponents</groupId>

            <artifactId>httpclient</artifactId>

            <version>4.4</version>

        </dependency>

        <!-- htmlcleaner -->

        <dependency>

            <groupId>net.sourceforge.htmlcleaner</groupId>

            <artifactId>htmlcleaner</artifactId>

            <version>2.10</version>

        </dependency>

        <!-- json -->

        <dependency>

            <groupId>org.json</groupId>

            <artifactId>json</artifactId>

            <version>20140107</version>

        </dependency>

        <!-- hbase -->

        <dependency>

            <groupId>org.apache.hbase</groupId>

            <artifactId>hbase-client</artifactId>

            <version>0.96.1.1-hadoop2</version>

        </dependency>

            <dependency>

            <groupId>org.apache.hbase</groupId>

            <artifactId>hbase-server</artifactId>

            <version>0.96.1.1-hadoop2</version>

        </dependency>

        <!-- redis 2.7.0-->

        <dependency>

            <groupId>redis.clients</groupId>

            <artifactId>jedis</artifactId>

            <version>2.7.0</version>

        </dependency>

        <!-- slf4j -->

        <dependency>

            <groupId>org.slf4j</groupId>

            <artifactId>slf4j-api</artifactId>

            <version>1.7.10</version>

        </dependency>

        <dependency>

            <groupId>org.slf4j</groupId>

            <artifactId>slf4j-log4j12</artifactId>

            <version>1.7.10</version>

        </dependency>

        <!-- quartz1.8.4 -->

        <dependency>

            <groupId>org.quartz-scheduler</groupId>

            <artifactId>quartz</artifactId>

            <version>1.8.4</version>

        </dependency>

        <!-- curator -->

        <dependency>

            <groupId>org.apache.curator</groupId>

            <artifactId>curator-framework</artifactId>

            <version>2.7.1</version>

        </dependency>

新建一个测试类：SpiderTest

  /**

     * url 入口，下载页面

     * @param url

     */

    public  static String downLoadCrawlurl(String url){

        String context = null;

        Logger logger = LoggerFactory.getLogger(SpiderTest.class);

        HttpClientBuilder create = HttpClientBuilder.create();

        HttpGet httpGet = new HttpGet(url);

        CloseableHttpClient build = create.build();

        try {

            CloseableHttpResponse response = build.execute( httpGet);

            HttpEntity entity = response.getEntity();

            context = EntityUtils.toString( entity );

            System.out.println("context:" + context);

        }

        catch ( ClientProtocolException e ) {

            e.printStackTrace();

        }

        catch ( IOException e ) {

            logger.info("download...." );

        }

        return context;

    }

public static void main( String[] args ) {

　　
   String url = "http://money.163.com/";
   downLoadCrawlurl(url);
 

}

爬虫抓取5大门户网站和电商数据day1:基础环境搭建的更多相关文章

PID控制器的应用：控制网络爬虫抓取速度
一.初识PID控制器冬天乡下人喜欢烤火取暖,常见的情形就是四人围着麻将桌,桌底放一盆碳火.有人觉得火不够大,那加点木炭吧,还不够,再加点.片刻之后,又觉得火太大,脚都快被烤熟了,那就取出一些木碳…… ...
爬虫抓取页面数据原理（php爬虫框架有很多）
爬虫抓取页面数据原理(php爬虫框架有很多 ) 一.总结 1.php爬虫框架有很多,包括很多傻瓜式的软件 2.照以前写过java爬虫的例子来看,真的非常简单,就是一个获取网页数据的类或者方法(这里的话 ...
python3.4学习笔记(十四) 网络爬虫实例代码，抓取新浪爱彩双色球开奖数据实例
python3.4学习笔记(十四) 网络爬虫实例代码,抓取新浪爱彩双色球开奖数据实例新浪爱彩双色球开奖数据URL:http://zst.aicai.com/ssq/openInfo/ 最终输出结果格 ...
爬虫技术 -- 进阶学习（七）简单爬虫抓取示例（附c#代码）
这是我的第一个爬虫代码...算是一份测试版的代码.大牛大神别喷... 通过给定一个初始的地址startPiont然后对网页进行捕捉,然后通过正则表达式对网址进行匹配. List<string&g ...
python 爬虫抓取心得
quanwei9958 转自 python 爬虫抓取心得分享 urllib.quote('要编码的字符串') 如果你要在url请求里面放入中文,对相应的中文进行编码的话,可以用: urllib.quo ...
爬虫技术（四）-- 简单爬虫抓取示例（附c#代码）
这是我的第一个爬虫代码...算是一份测试版的代码.大牛大神别喷... 通过给定一个初始的地址startPiont然后对网页进行捕捉,然后通过正则表达式对网址进行匹配. List<string&g ...
Java 实现 HttpClients+jsoup，Jsoup，htmlunit，Headless Chrome 爬虫抓取数据
最近整理一下手头上搞过的一些爬虫,有HttpClients+jsoup,Jsoup,htmlunit,HeadlessChrome 一,HttpClients+jsoup,这是第一代比较low,很快就 ...
Python爬虫抓取东方财富网股票数据并实现MySQL数据库存储
Python爬虫可以说是好玩又好用了.现想利用Python爬取网页股票数据保存到本地csv数据文件中,同时想把股票数据保存到MySQL数据库中.需求有了,剩下的就是实现了. 在开始之前,保证已经安装好 ...
python爬虫抓取哈尔滨天气信息（静态爬虫）
python 爬虫爬取哈尔滨天气信息 - http://www.weather.com.cn/weather/101050101.shtml 环境: windows7 python3.4(pip i ...

随机推荐

CTU OPEN 2017 Shooting Gallery /// 区间DP
题目大意: 给定n 给定n个数选定一个区间留下其他消去要求区间两端的两个数一样若成功留下一个区间则在选定区间的基础上继续进行上述操作直到无法再选出这样的区间求最多操作数按区间长度由短到 ...
java虚拟机规范(se8)——java虚拟机的编译(一)
本文翻译自:https://docs.oracle.com/javase/specs/jvms/se8/html/jvms-2.html 第三章 java虚拟机的编译 java虚拟机是设计用来支持ja ...
c数据结构的字符串查找的Brute-Force算法
#include<stdio.h> #include<malloc.h> #include<string.h> //定义字符串的结构体 typedef struct ...
cordova插件值二维码扫描
插件地址 https://github.com/gizwits/cordova-gizwits-scan-qrcode 插件安装方式 cordova plugin add https://github ...
ASP.NET MVC 学习笔记之TempData、HttpContext和HttpContextBase杂谈
TempData本质上是Session 但是有一点不同的是,TempData被赋值之后,一旦被Action访问一次之后,马上就会清空. System.Web.HttpContext 和System.W ...
Shell内置命令 eval
STL_Algorithm
#include <algorithm> #include <cstdio> using namespace std; /*虽然最后一个排列没有下一个排列,用next_perm ...
hibernate3.6异常
WARN DTDEntityResolver:73 - recognized obsolete hibernate namespace http://hibernate.sourceforge.net ...
leetcode-13双周赛-1257-最小公共区域
题目描述: 方法: class Solution(object): def findSmallestRegion(self, regions, region1, region2): parent = ...
hbase-2.0.4集群部署
hbase-2.0.4集群部署 1. 集群节点规划: rzx1 HMaster,HRegionServer rzx2 HRegionServer rzx3 HRegionServer 前提:搭建好ha ...

爬虫抓取5大门户网站和电商数据day1:基础环境搭建

爬虫抓取5大门户网站和电商数据day1:基础环境搭建的更多相关文章

随机推荐

热门专题