利用jsoup爬虫工具，爬取数据，并利用excel导出

 import java.io.BufferedInputStream;

import java.io.BufferedReader;

import java.io.FileInputStream;

import java.io.FileOutputStream;

import java.io.IOException;

import java.io.InputStreamReader;

import java.text.SimpleDateFormat;

import java.util.ArrayList;

import java.util.List;

import net.sf.json.JSONArray;

import net.sf.json.JSONObject;

import org.apache.poi.hssf.usermodel.HSSFCell;

import org.apache.poi.hssf.usermodel.HSSFCellStyle;

import org.apache.poi.hssf.usermodel.HSSFRow;

import org.apache.poi.hssf.usermodel.HSSFSheet;

import org.apache.poi.hssf.usermodel.HSSFWorkbook;

import org.jsoup.Jsoup;

import org.jsoup.nodes.Document;

import org.jsoup.nodes.Element;

import org.jsoup.select.Elements;

    public class aaaa {

        public static void main(String[] args) {

            aaaa t = new aaaa();

            t.getExl();

        }  

   　　//得到URL数据

        public List<String> getText() throws IOException{

            List<String>Url=new ArrayList<String>();

　　　　//批量导入网址           

　　　　String file = "shop.txt";

             BufferedReader in = new BufferedReader(

                     new InputStreamReader(

                         new BufferedInputStream(

                             new FileInputStream(file)), "gbk"));

                 String str;

                 while((str= in.readLine())!=null){

                     Url.add(str);

                     System.out.println(str);

                 }

                 in.close();

                 return Url;

        }

　　//将抓取的数据组合成json对象

        public List<JSONObject> parseUrl() {

            List<JSONObject>UTL=new ArrayList<JSONObject>();

            try {

                for(String url:getText()){

　　　　　　//将url这个网页解析成一个dom对象

                Document doc = Jsoup.connect(url).get();  

　　　　　　//筛选<a class="mall-icon">的所有对象

                Elements hrefs = doc.select("a.mall-icon");

　　　　　　//遍历改对象数组

                for(Element href:hrefs){

　　　　　　　　//对该对象的元素进行处理,包装成另一个url进行二级网站的数据抓取

                    String number=href.attr("data-uid");

                    String jsonurl="http://rate.taobao.com/ShopService4C.htm?userNumId="+number;

                    System.out.println(jsonurl);

                    Document doc1 = Jsoup.connect(jsonurl).get();

                    Element jsons=doc1.body();

                    JSONObject json=JSONObject.fromObject(jsons.toString().replaceAll("<body>|</body>", "").replace("&quot;", ""));

                    UTL.add(json);

                }

                }

            } catch (IOException e) {

                e.printStackTrace();

            }

            return UTL;

        }  

　　//导出excel表格

      public void  getExl(){

          try

        {

          // 第一步，创建一个webbook，对应一个Excel文件

                HSSFWorkbook wb = new HSSFWorkbook();

                // 第二步，在webbook中添加一个sheet,对应Excel文件中的sheet

                HSSFSheet sheet = wb.createSheet("行业统计");

                // 第三步，在sheet中添加表头第0行,注意老版本poi对Excel的行数列数有限制short

                HSSFRow row = sheet.createRow((int) 0);

                // 第四步，创建单元格，并设置值表头 设置表头居中

                HSSFCellStyle style = wb.createCellStyle();

                style.setAlignment(HSSFCellStyle.ALIGN_CENTER); // 创建一个居中格式

                HSSFCell cell = row.createCell((short) 0);

                cell.setCellValue("URL");

                cell.setCellStyle(style);

                cell = row.createCell((short) 1);

                cell.setCellValue("行业均值");

                cell.setCellStyle(style);

                cell = row.createCell((short) 2);

              cell.setCellValue("本店值");

              cell.setCellStyle(style);

                List<JSONObject>list=parseUrl();

                List<String>url=getText();

                System.out.println(list.size());

                System.out.println(url.size());

                for (int i = 0; i < list.size(); i++)

              {

                  row = sheet.createRow((int) i + 1);

                  JSONObject json=(JSONObject)list.get(i);

                  JSONObject ratRefund=json.optJSONObject("ratRefund");

                  // 第四步，创建单元格，并设置值

                  System.out.println(i);

                  row.createCell((short) 0).setCellValue("淘宝淘宝");

                  row.createCell((short) 1).setCellValue(ratRefund.optString("indVal"));

                  row.createCell((short) 2).setCellValue(ratRefund.optString("localVal"));

            }

            FileOutputStream fout = new FileOutputStream("E:/taobao.xls");

            wb.write(fout);

            fout.close();

        }

        catch (Exception e)

        {

            e.printStackTrace();

        }

      }

    }

利用jsoup爬虫工具，爬取数据，并利用excel导出的更多相关文章

python爬取数据保存到Excel中
# -*- conding:utf-8 -*- # 1.两页的内容 # 2.抓取每页title和URL # 3.根据title创建文件,发送URL请求,提取数据 import requests fro ...
sumafan:python爬虫多线程爬取数据小练习（附答案）
抓取 https://www.cnbeta.com/ 首页中新闻内容页网址, 抓取内容例子: https://hot.cnbeta.com/articles/game/825125 将抓取下来的内容页 ...
使用htmlparse爬虫技术爬取电影网页的全部下载链接
昨天,我们利用webcollector爬虫技术爬取了网易云音乐17万多首歌曲,而且还包括付费的在内,如果时间允许的话,可以获取更多的音乐下来,当然,也有小伙伴留言说这样会降低国人的知识产权保护意识,诚 ...
使用htmlparser爬虫技术爬取电影网页的全部下载链接
昨天,我们利用webcollector爬虫技术爬取了网易云音乐17万多首歌曲,而且还包括付费的在内,如果时间允许的话,可以获取更多的音乐下来,当然,也有小伙伴留言说这样会降低国人的知识产权保护意识,诚 ...
【个人】爬虫实践，利用xpath方式爬取数据之爬取虾米音乐排行榜
实验网站:虾米音乐排行榜网站地址:http://www.xiami.com/chart 难度系数:★☆☆☆☆ 依赖库:request.lxml的etree (安装lxml:pip install ...
python爬虫项目-爬取雪球网金融数据（关注、持续更新）
(一)python金融数据爬虫项目爬取目标:雪球网(起始url:https://xueqiu.com/hq#exchange=CN&firstName=1&secondName=1_ ...
PYTHON 爬虫笔记九:利用Ajax+正则表达式+BeautifulSoup爬取今日头条街拍图集（实战项目二）
利用Ajax+正则表达式+BeautifulSoup爬取今日头条街拍图集目标站点分析今日头条这类的网站制作,从数据形式,CSS样式都是通过数据接口的样式来决定的,所以它的抓取方法和其他网页的抓取方 ...
Python使用Scrapy框架爬取数据存入CSV文件(Python爬虫实战4)
1. Scrapy框架 Scrapy是python下实现爬虫功能的框架,能够将数据解析.数据处理.数据存储合为一体功能的爬虫框架. 2. Scrapy安装 1. 安装依赖包 yum install g ...
【Spider】使用CrawlSpider进行爬虫时，无法爬取数据，运行后很快结束，但没有报错
在学习<python爬虫开发与项目实践>的时候有一个关于CrawlSpider的例子,当我在运行时发现,没有爬取到任何数据,以下是我敲的源代码:import scrapyfrom UseS ...

随机推荐

VS调试在Win7（vista系列）操作系统下 HttpListener拒绝访问解决办法
一. VS调试在Win7(vista系列)操作系统下 HttpListener无法绑定多个指定IP.端口问题来自:http://www.cnblogs.com/ryhan/p/4195693.ht ...
linux下mysql集群的安装
3台redhat服务器: SQL节点(mysqld): 192.168.1.77;192.168.1.78 数据节点(ndbd): 192.168.1.77;192.168.1.78 管理节点(ndb ...
Python环境下NIPIR(ICTCLAS2014)中文分词系统使用攻略
一.安装官方链接:http://pynlpir.readthedocs.org/en/latest/installation.html 官方网页中介绍了几种安装方法,大家根据个人需要,自行参考!我采 ...
mysql查询数据返回touple改为字典的方法
conn = MySQLdb.connect(host='ip',user='root',passwd='123456',db="dbname",charset="utf ...
常用UML模型简要小结
关系: 关联(组合,生命周期相同:聚合,物以类聚),依赖,泛化(继承),实现还有包含,细化复用已有用例:扩展,非必要主要的用例图: 1.用例图:就是描述一个功能场景(集合),其实用例编写(前后置 ...
RecycleView在eclipse的初体验
在sdk中找到v7包 \sdk\extras\android\support\v7\recyclerview 导入工程 Import\Android\Existing Android Code Int ...
mybatis mapper.xml 配置文件问题(有的错误xml是不报的) 导致服务无法启动。
转载自开源编程一舟mybatsi xml编译报错,tomcat启动一直循环,导致内存溢出,启动失败 mapper.xml怎么知道有没有编译错误,哪个位置有错误这应该是mybatis的一个bug, ...
关于java中线程休眠的另一种写法
编辑器加载中... 优先使用TimeUnit类中的sleep() TimeUnit是什么? TimeUnit是java.util.concurrent包下面的一个类,TimeUnit提供了可读性更好的 ...
maven 配置篇之pom
maven 配置篇之pom.xml(一) 博客分类: pm mavenXML配置管理项目管理junit 说完了settings.xml配置,下来说一下maven2的主要配置pom.xml ...
HTML5的touch事件
HTML5中新添加了很多事件,但是由于他们的兼容问题不是很理想,应用实战性不是太强,所以在这里基本省略,咱们只分享应用广泛兼容不错的事件,日后随着兼容情况提升以后再陆续添加分享.今天为大家介绍的事件主 ...

利用jsoup爬虫工具，爬取数据，并利用excel导出

利用jsoup爬虫工具，爬取数据，并利用excel导出的更多相关文章

随机推荐

热门专题