利用Jsoup包爬取网站内容

一 Jsoup包

　　下载链接：http://download.csdn.net/detail/u014000832/7994245

二爬取搜狐新闻网站标题等内容

package com.test1;

import java.io.IOException;

import org.jsoup.*;

import org.jsoup.helper.*;

import org.jsoup.nodes.*;

import org.jsoup.parser.*;

import org.jsoup.select.*;

public class HtmlParser {

    static void print(Document doc){  

        //<h1 itemprop="headline">日本物流公司瞄准中国海淘族 跨境快递4天到货</h1>

                Elements h = doc.select("h1[itemprop]");//标题

                System.out.println(h.text());  

                Elements time = doc.select("div.time");//时间

                System.out.println(time.text());

                /*

                Element source = doc.select("span[itemprop=name]").first();//来源

                System.out.println(source.text());

                */  

                Elements source = doc.select("div[class=source]");

                System.out.println(source.text());  

                Elements body = doc.select("div[itemprop=articleBody]");

                System.out.println(body.text());  

    }

    public static void main(String[] args) {

        // TODO Auto-generated method stub  

        try {

            String url = "http://news.sohu.com/";

            Document doc,TempDoc;

            doc = Jsoup.connect(url).get();

            //System.out.println(doc);

            //findalllinks

            Elements links = doc.select("a[href]");

            for (Element link : links){

                String StrUrl = link.attr("abs:href");

                if (StrUrl.startsWith("http://news.sohu.com/2016"))

                {

                    System.out.println(StrUrl);

                    TempDoc = Jsoup.connect(StrUrl).get();

                    print(TempDoc);

                }

            }

        } catch (IOException e) {

            // TODO Auto-generated catch block

            e.printStackTrace();

        }

    }

}

　原文：http://blog.csdn.net/u012315428/article/details/51136490 , 复制链接打开

利用Jsoup包爬取网站内容的更多相关文章

利用linux curl爬取网站数据
看到一个看球网站的以下截图红色框数据,想爬取下来,通常爬取网站数据一般都会从java或者python爬取,但本人这两个都不会,只会shell脚本,于是硬着头皮试一下用shell爬取,方法很笨重,但旨在 ...
Python 利用 BeautifulSoup 爬取网站获取新闻流
0. 引言介绍下 Python 用 Beautiful Soup 周期性爬取 xxx 网站获取新闻流: 图 1 项目介绍 1. 开发环境 Python: 3.6.3 BeautifulSoup: ...
查询数据，从链接地址中爬取文章内容jsoup
查询数据,从链接地址中爬取文章内容 protected void doGet(HttpServletRequest request, HttpServletResponse response) thr ...
使用Selenium爬取网站表格类数据
本文转载自一下网站:Python爬虫(5):Selenium 爬取东方财富网股票财务报表 https://www.makcyun.top/web_scraping_withpython5.html 需 ...
如何使用robots禁止各大搜索引擎爬虫爬取网站
ps:由于公司网站配置的测试环境被百度爬虫抓取,干扰了线上正常环境的使用,刚好看到每次搜索淘宝时,都会有一句由于robots.txt文件存在限制指令无法提供内容描述,于是便去学习了一波 1.原来一般来 ...
PYTHON 爬虫笔记八:利用Requests+正则表达式爬取猫眼电影top100（实战项目一）
利用Requests+正则表达式爬取猫眼电影top100 目标站点分析流程框架爬虫实战使用requests库获取top100首页: import requests def get_one_pag ...
Java使用Jsoup之爬取博客数据应用实例
导入Maven依赖  <dependency> <g ...
使用scrapy爬取网站的商品数据
目标是爬取网站http://www.muyingzhijia.com/上全部的商品数据信息,包括商品的一级类别,二级类别,商品title,品牌,价格. 搜索了一下,python的scrapy是一个不错 ...
[实战演练]python3使用requests模块爬取页面内容
本文摘要: 1.安装pip 2.安装requests模块 3.安装beautifulsoup4 4.requests模块浅析 + 发送请求 + 传递URL参数 + 响应内容 + 获取网页编码 + 获取 ...

随机推荐

Trie树详解
1. 概述 Trie树,又称字典树,单词查找树或者前缀树,是一种用于快速检索的多叉树结构,如英文字母的字典树是一个26叉树,数字的字典树是一个10叉树.Trie一词来自retrieve,发音为/tri ...
LinkedHashMap：我还能实现LRU
众所周知,LinkedHashMap继承自HashMap,在原先的HashMap的基础上,它增加了Entry的双向链接. 有意思的是基于这种实现特性,LinkedHashMap 在迭代遍历时,取得键值 ...
高性能mysql（二）——mysql的存储引擎
在文件系统中,mysql将每个数据库保存为数据目录下的一个子目录.创建表时,mysql会在子目录下创建一个和表同名的.frm文件保存表的定义.例如创建一个名为mytable的表,mysql会在myta ...
Natas Wargame Level 2 Writeup 与目录泄露（强制访问）
User-Agent详解
User-Agent : 用户代理用户在上网的时候会作为http 请求头的一部分传递给服务端 ,用于识别用户当前环境(如浏览器类型及版本号,以及操作系统信息 ) 右键f12可以查看下面是我的浏 ...
IO回忆录之怎样过目不忘(BIO/NIO/AIO/Netty)
有热心的网友加我微信,时不时问我一些技术的或者学习技术的问题.有时候我回微信的时候都是半夜了.但是我很乐意解答他们的问题.因为这些年轻人都是很有上进心的,所以在我心里他们就是很优秀的,我愿意多和努力的 ...
SpringMVC 3.2集成Spring Security 3.2集成mybaties
目录结构如下
java虚拟机学习-JVM调优总结（6）
1.Java对象的大小基本数据的类型的大小是固定的,这里就不多说了.对于非基本类型的Java对象,其大小就值得商榷. 在Java中,一个空Object对象的大小是8byte,这个大小只是保存堆中一个 ...
nodejs服务实现反向代理，解决本地开发接口请求跨域问题
前后端分离项目需要解决第一个问题就是,前端本地开发时如何解决通过ajax请求产生的跨域的问题.一般的做法是通过本地配置nginx反向代理进行处理的,除此之外,还可以通过nodejs来进行代理接口.当然 ...
R语言&页游渠道分析（转）
对着满屏的游戏后台数据,需要快速了解数据特征,一种茫然无从下手的感觉? 本文在游戏后台数据中,如何通过R语言快速的了解游戏后台的数据特征,以及统计各个数据之间的相关系数,并通过相关图来发现其中相关系数 ...

利用Jsoup包爬取网站内容

利用Jsoup包爬取网站内容的更多相关文章

随机推荐

热门专题