利用Jsoup包爬取网站内容

一 Jsoup包

　　下载链接：http://download.csdn.net/detail/u014000832/7994245

二爬取搜狐新闻网站标题等内容

package com.test1;

import java.io.IOException;

import org.jsoup.*;

import org.jsoup.helper.*;

import org.jsoup.nodes.*;

import org.jsoup.parser.*;

import org.jsoup.select.*;

public class HtmlParser {

    static void print(Document doc){  

        //<h1 itemprop="headline">日本物流公司瞄准中国海淘族 跨境快递4天到货</h1>

                Elements h = doc.select("h1[itemprop]");//标题

                System.out.println(h.text());  

                Elements time = doc.select("div.time");//时间

                System.out.println(time.text());

                /*

                Element source = doc.select("span[itemprop=name]").first();//来源

                System.out.println(source.text());

                */  

                Elements source = doc.select("div[class=source]");

                System.out.println(source.text());  

                Elements body = doc.select("div[itemprop=articleBody]");

                System.out.println(body.text());  

    }

    public static void main(String[] args) {

        // TODO Auto-generated method stub  

        try {

            String url = "http://news.sohu.com/";

            Document doc,TempDoc;

            doc = Jsoup.connect(url).get();

            //System.out.println(doc);

            //findalllinks

            Elements links = doc.select("a[href]");

            for (Element link : links){

                String StrUrl = link.attr("abs:href");

                if (StrUrl.startsWith("http://news.sohu.com/2016"))

                {

                    System.out.println(StrUrl);

                    TempDoc = Jsoup.connect(StrUrl).get();

                    print(TempDoc);

                }

            }

        } catch (IOException e) {

            // TODO Auto-generated catch block

            e.printStackTrace();

        }

    }

}

　原文：http://blog.csdn.net/u012315428/article/details/51136490 , 复制链接打开

利用Jsoup包爬取网站内容的更多相关文章

利用linux curl爬取网站数据
看到一个看球网站的以下截图红色框数据,想爬取下来,通常爬取网站数据一般都会从java或者python爬取,但本人这两个都不会,只会shell脚本,于是硬着头皮试一下用shell爬取,方法很笨重,但旨在 ...
Python 利用 BeautifulSoup 爬取网站获取新闻流
0. 引言介绍下 Python 用 Beautiful Soup 周期性爬取 xxx 网站获取新闻流: 图 1 项目介绍 1. 开发环境 Python: 3.6.3 BeautifulSoup: ...
查询数据，从链接地址中爬取文章内容jsoup
查询数据,从链接地址中爬取文章内容 protected void doGet(HttpServletRequest request, HttpServletResponse response) thr ...
使用Selenium爬取网站表格类数据
本文转载自一下网站:Python爬虫(5):Selenium 爬取东方财富网股票财务报表 https://www.makcyun.top/web_scraping_withpython5.html 需 ...
如何使用robots禁止各大搜索引擎爬虫爬取网站
ps:由于公司网站配置的测试环境被百度爬虫抓取,干扰了线上正常环境的使用,刚好看到每次搜索淘宝时,都会有一句由于robots.txt文件存在限制指令无法提供内容描述,于是便去学习了一波 1.原来一般来 ...
PYTHON 爬虫笔记八:利用Requests+正则表达式爬取猫眼电影top100（实战项目一）
利用Requests+正则表达式爬取猫眼电影top100 目标站点分析流程框架爬虫实战使用requests库获取top100首页: import requests def get_one_pag ...
Java使用Jsoup之爬取博客数据应用实例
导入Maven依赖  <dependency> <g ...
使用scrapy爬取网站的商品数据
目标是爬取网站http://www.muyingzhijia.com/上全部的商品数据信息,包括商品的一级类别,二级类别,商品title,品牌,价格. 搜索了一下,python的scrapy是一个不错 ...
[实战演练]python3使用requests模块爬取页面内容
本文摘要: 1.安装pip 2.安装requests模块 3.安装beautifulsoup4 4.requests模块浅析 + 发送请求 + 传递URL参数 + 响应内容 + 获取网页编码 + 获取 ...

随机推荐

在Android Studio上测试运行，Unity发布成Android包过程中所遇到的问题及解决方案
问题一:Exception: JNI: Init'd AndroidJavaObject with null ptr 解决方法: 所有关于JNI出现的问题,只有三种错误存在,第一是需要在真机上运行测试 ...
对象克隆(clone)实例详解
<?php class Staff { public $name; public $age; public $salary; public function __construct($name, ...
案例分享｜某医药集团的BI建设案例
相比于传统型BI,越来越多的企业开始接受并青睐新型的自助式BI,因其项目上线快,失败风险小,简单易用,颇受赞誉.以下是某医药集团上线帆软BI系统FineBI的案例,从用途架构.指标分析.和信息交互几方 ...
【更新WordPress 4.6漏洞利用PoC】PHPMailer曝远程代码执行高危漏洞（CVE-2016-10033）
[2017.5.4更新] 昨天曝出了两个比较热门的漏洞,一个是CVE-2016-10033,另一个则为CVE-2017-8295.从描述来看,前者是WordPress Core 4.6一个未经授权的R ...
JS中this到底指向谁？
关于this的指向,是一个令人很头疼的问题.但是,你运气好,碰到了我.老夫这儿有本祖传秘籍,看懂这个,妈妈再也不用担心你的this指向不对啦! 归根结底,this指向就一句话:谁最终调用函数,this ...
【wannacry病毒之暗网】-如何访问"暗网"（慎入）
心里能力不强的人,请别看. 有些事情还是不要接触比较好, 社会最恶一面不是随随便便就能接触到的, 也不是你能理解的你想要用暗网做什么是你考虑的一个问题什么是暗网? 所谓的"暗网" ...
gitignore.io-程序猿值得拥有的智能生成gitignore文件的秘密武器
gitignore.io Create useful .gitignore files for your project by selecting from 360 Operating System, ...
NancyFx 2.0的开源框架的使用-HosingOwin
Nancy框架的Owin使用先建一个空的Web项目然后往Nuget库里面添加Nancy包 Nancy Nancy.Owin Nancy.ViewEnglines.Spark 然后添加Models, ...
GirdView分页
给gridview增加以下时间,即可设置pageindex 重新绑定数据 protected void GvMenu_PageIndexChanging(object sender, GridVie ...
Circuit Breaker Features
Better to use a circuit breaker which supports the following set of features: Automatically time-out ...

利用Jsoup包爬取网站内容

利用Jsoup包爬取网站内容的更多相关文章

随机推荐

热门专题