Jsoup+HttpUnit爬取搜狐新闻

怎么说呢，静态的页面，但我也写了动态的接口支持，方便后续爬取别的新闻网站使用。

一个接口，接口有一个抽象方法pullNews用于拉新闻，有一个默认方法用于获取新闻首页：

public interface NewsPuller {

    void pullNews();

    // url:即新闻首页url

    // useHtmlUnit:是否使用htmlunit

    default Document getHtmlFromUrl(String url, boolean useHtmlUnit) throws Exception {

        if (!useHtmlUnit) {

            return Jsoup.connect(url)

                    //模拟火狐浏览器

                    .userAgent("Mozilla/4.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0)")

                    .get();

        } else {

            WebClient webClient = new WebClient(BrowserVersion.CHROME);

            webClient.getOptions().setJavaScriptEnabled(true);

            webClient.getOptions().setCssEnabled(false);

            webClient.getOptions().setActiveXNative(false);

            webClient.getOptions().setCssEnabled(false);

            webClient.getOptions().setThrowExceptionOnScriptError(false);

            webClient.getOptions().setThrowExceptionOnFailingStatusCode(false);

            webClient.getOptions().setTimeout(10000);

            HtmlPage htmlPage = null;

            try {

                htmlPage = webClient.getPage(url);

                webClient.waitForBackgroundJavaScript(10000);

                String htmlString = htmlPage.asXml();

                return Jsoup.parse(htmlString);

            } finally {

                webClient.close();

            }

        }

    }

}

　　之后就是爬虫;

import com.gargoylesoftware.htmlunit.BrowserVersion;

import com.gargoylesoftware.htmlunit.FailingHttpStatusCodeException;

import com.gargoylesoftware.htmlunit.WebClient;

import com.gargoylesoftware.htmlunit.WebConsole.Logger;

import com.gargoylesoftware.htmlunit.html.HtmlPage;

import java.io.IOException;

import java.net.MalformedURLException;

import java.util.Date;

import java.util.HashSet;

import org.jsoup.Jsoup;

import org.jsoup.nodes.Document;

import org.jsoup.nodes.Element;

import org.jsoup.select.Elements;

import org.slf4j.LoggerFactory;

public class SohuNewsPuller implements NewsPuller  {

    public static void main(String []args) {

    	System.out.println("123");

    	SohuNewsPuller ss=new SohuNewsPuller();

    	ss.pullNews();

    }

    private String url="http://news.sohu.com/";

    public void pullNews() {

        Document html= null;

        try {

            html = getHtmlFromUrl(url, false);

        } catch (Exception e) {

            e.printStackTrace();

            return;

        }

        // 2.jsoup获取新闻<a>标签

        Elements newsATags = html.select("div.focus-news")

                .select("div.list16")

                .select("li")

                .select("a");

        for (Element a : newsATags) {

            String url = a.attr("href");

            System.out.println("内容"+a.text());

            Document newsHtml = null;

            try {

                newsHtml = getHtmlFromUrl(url, false);

                Element newsContent = newsHtml.select("div#article-container")

                        .select("div.main")

                        .select("div.text")

                        .first();

                String title1 = newsContent.select("div.text-title").select("h1").text();

                String content = newsContent.select("article.article").first().text();

                System.out.println("url"+"\n"+title1+"\n"+content);

            } catch (Exception e) {

                e.printStackTrace();

            }

        }

    }

}

　　结果：

当然还没有清洗内容，后续会清洗以及爬取动态网站啥的。

参考博客：https://blog.csdn.net/gx304419380/article/details/80619043#commentsedit

代码已上传github:https://github.com/mmmjh/GetSouhuNews

欢迎吐槽！！！！

绝大部分代码是参考的人家的博客。我只是把项目还原了。

Jsoup+HttpUnit爬取搜狐新闻的更多相关文章

利用Jsoup包爬取网站内容
一 Jsoup包下载链接:http://download.csdn.net/detail/u014000832/7994245 二爬取搜狐新闻网站标题等内容 package com.test1; ...
利用朴素贝叶斯分类算法对搜狐新闻进行分类（python）
数据来源 https://www.sogou.com/labs/resource/cs.php介绍:来自搜狐新闻2012年6月—7月期间国内,国际,体育,社会,娱乐等18个频道的新闻数据,提供URL ...
搜狗输入法弹出搜狐新闻的解决办法（sohunews.exe）
狗输入法弹出搜狐新闻的解决办法(sohunews.exe) 1.找到搜狗输入法的安装目录(一般是C:\program files\sougou input\版本号\)2.右键点击sohunews.ex ...
selenium+BeautifulSoup+phantomjs爬取新浪新闻
一下载phantomjs,把phantomjs.exe的文件路径加到环境变量中,也可以phantomjs.exe拷贝到一个已存在的环境变量路径中,比如我用的anaconda,我把phantomjs. ...
【NLP】3000篇搜狐新闻语料数据预处理器的python实现
3000篇搜狐新闻语料数据预处理器的python实现白宁超 2017年5月5日17:20:04 摘要: 关于自然语言处理模型训练亦或是数据挖掘.文本处理等等,均离不开数据清洗,数据预处理的工作.这里 ...
Python爬取腾讯新闻首页所有新闻及评论
前言这篇博客写的是实现的一个爬取腾讯新闻首页所有的新闻及其所有评论的爬虫.选用Python的Scrapy框架.这篇文章主要讨论使用Chrome浏览器的开发者工具获取新闻及评论的来源地址. Chrom ...
基于jieba,TfidfVectorizer,LogisticRegression进行搜狐新闻文本分类
一.简介此文是对利用jieba,word2vec,LR进行搜狐新闻文本分类的准确性的提升,数据集和分词过程一样,这里就不在叙述,读者可参考前面的处理过程经过jieba分词,产生24000条分词结果 ...
利用jieba,word2vec,LR进行搜狐新闻文本分类
一.简介 1)jieba 中文叫做结巴,是一款中文分词工具,https://github.com/fxsjy/jieba 2)word2vec 单词向量化工具,https://radimrehurek ...
利用搜狐新闻语料库训练100维的word2vec——使用python中的gensim模块
关于word2vec的原理知识参考文章https://www.cnblogs.com/Micang/p/10235783.html 语料数据来自搜狐新闻2012年6月—7月期间国内,国际,体育,社会, ...

随机推荐

Day14 - Python基础14 事件驱动模型、IO模型
本节内容: 1:事件驱动模型 2:IO模型前戏准备 3:4种IO模型 1:事件驱动模型传统的编程是如下线性模式的: 开始--->代码块A--->代码块B--->代码块C---> ...
win7+vim搭建+verilog HDL IDE
参考地址:http://www.huangdc.com/421 参考文章为2016年,部分更新贴于文章内了安装下载vim vim在win下叫gvim,下载地址:https://www.vim.org ...
Make Them Odd
time limit per test3 secondsmemory limit per test256 megabytesinput: standard inputoutput: standard ...
推荐|MathType的使用技巧
前言持续更新中,敬请期待... 数学学科制作新的数学符号不包含于符号:输入$\not\subseteq,然后按回车键enter即可: 分式$\cfrac{3-x}{2x-1}$符号:输入$\ ...
Spring Cloud Zuul 那些你不知道的功能点
本文摘自于 <Spring Cloud微服务入门实战与进阶> 一书. 1. /routes 端点当@EnableZuulProxy与Spring Boot Actuator配合使用时 ...
something just like this---About Me
endl:JX弱校oier,04年生,妹子,2019级高一新生,然后居然不知道该说什么了,尴尬 2019年3月开始接触oi,学的很慢(看起来脑子不太好用) 2019年7月创建了这个博客,在收到“恭喜! ...
video调用直播接口：防止缓存方案
有时候我们需要调用解析过直播接口,使用video播放,但是在暂停又开始后,直播视频不会自动刷新,而是继续从暂停之前的时间点开始播放. 下面是我的解决方案代码,弟弟们请看我的下面: <!DOCTY ...
pytest框架之pytest-html报告生成
一.关于安装 pytest-html属于pytest的一个插件,使用它需要先安装 pip install pytest-html pytest可以生成多种样式的结果: 生成JunitXML格式的测试报 ...
glibc编译安装
glibc是gnu发布的libc库,即c运行库.glibc是linux系统中最底层的api,几乎其它任何运行库都会依赖于glibc.glibc除了封装linux操作系统所提供的系统服务外,它本身也提供 ...
pandas 学习第7篇：DataFrame - 数据处理（应用、操作索引、重命名、合并）
DataFrame的这些操作和Series很相似,这里简单介绍一下. 一,应用和应用映射 apply()函数对每个轴应用一个函数,applymap()函数对每个元素应用一个函数: DataFrame. ...

Jsoup+HttpUnit爬取搜狐新闻

Jsoup+HttpUnit爬取搜狐新闻的更多相关文章

随机推荐

热门专题