java爬虫之入门基础

相比于C#，java爬虫，python爬虫更为方便简要，首先呢，python的urllib2包提供了较为完整的访问网页文档的API，再者呢对于摘下来的文章，python的beautifulsoap提供了简洁的文档处理功能，这就成就了他爬虫的优势。

作为一名满脑子要成为一名大牛的程序员小白来讲，倒不是非要热爱哪一门语言，还是觉得哪一个好用而用之。

那么今天呢就来给大家分享一个我喜欢但是不好用的java爬虫系列...

先上码和效果图

package org.lq.wzq.Test;

/**

 * 读取青年网的数据，并进行分析

 * xutao   2018-11-22  09：09

 */

import java.io.*;

import java.net.*;

public class pachong {

    public static void main(String args[]){

        //确定爬取的网页地址，此处为青年网热点新闻的网页

        //网址为       http://news.youth.cn/sz/201811/t20181121_11792273.htm

        String strurl="http://news.youth.cn/sz/201811/t20181121_11792273.htm";

        //建立url爬取核心对象

        try {

            URL url=new URL(strurl);

            //通过url建立与网页的连接

            URLConnection conn=url.openConnection();

            //通过链接取得网页返回的数据

            InputStream is=conn.getInputStream();

            System.out.println(conn.getContentEncoding());

            //一般按行读取网页数据，并进行内容分析

            //因此用BufferedReader和InputStreamReader把字节流转化为字符流的缓冲流

            //进行转换时，需要处理编码格式问题   注意一般为GBK或者UTF-8（乱码就换另外一个）

            BufferedReader br=new BufferedReader(new InputStreamReader(is,"GBK"));

            //按行读取并打印

            String line=null;

            while((line=br.readLine())!=null){

                System.out.println(line);

            }

            br.close();

        } catch (Exception e) {

            // TODO Auto-generated catch block

            e.printStackTrace();

        }

    }

}

查看网站源码，你就会发现程序爬取的其实就是整个网页

而代码则是一行一行输出的，具体的整理关键点在于正则表达式的应用，拿到适合自己的数据，最后在储存到txt或者excle表格中。

具体详情请观看

1.java导入excle表格，并且对表格进行相应的修改，并对表格数据进行整理，最后导出本地表格等一系列操作

2.java读取txt文件，对字符串进行操作后导出txt文件

java爬虫之入门基础的更多相关文章

Java web struct入门基础知识
1.Struts2的前身是Opensymphony的Webwork2,实际上Strut和Webwork2合并后形成Struts2. 2.一个HelloWord示例 1)创建Web应用,所需要的Ja ...
java爬虫的selenium基础使用
实用博客 selenium java教程具体项目运用项目背景:从西安市人民政府网站上获取到县区新闻,从下图可以看出“区县热点”是需要在页面中进行点击的,这里页面使用的是javascript的函数 ...
java爬虫系列第一讲-爬虫入门
1. 概述 java爬虫系列包含哪些内容? java爬虫框架webmgic入门使用webmgic爬取 http://ady01.com 中的电影资源(动作电影列表页.电影下载地址等信息) 使用web ...
第87节：Java中的Bootstrap基础与SQL入门
第87节:Java中的Bootstrap基础与SQL入门前言复习什么是JQ? : write less do more 写更少的代码,做更多的事找出所有兄弟: $("div" ...
Java正则表达式入门基础篇
正则表达式是一种可以用于模式匹配和替换的规范,一个正则表达式就是由普通的字符(例如字符a到z)以及特殊字符(元字符)组成的文字模式,它用以描述在查找文字主体时待匹配的一个或多个字符串.正则表达式作为 ...
小白学 Python 爬虫（34）：爬虫框架 Scrapy 入门基础（二）
人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇小白学 Python 爬虫(2):前置准备(一)基本类库的安装小白学 Python 爬虫(3):前置准备(二)Li ...
小白学 Python 爬虫（35）：爬虫框架 Scrapy 入门基础（三） Selector 选择器
人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇小白学 Python 爬虫(2):前置准备(一)基本类库的安装小白学 Python 爬虫(3):前置准备(二)Li ...
小白学 Python 爬虫（36）：爬虫框架 Scrapy 入门基础（四） Downloader Middleware
人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇小白学 Python 爬虫(2):前置准备(一)基本类库的安装小白学 Python 爬虫(3):前置准备(二)Li ...
小白学 Python 爬虫（37）：爬虫框架 Scrapy 入门基础（五） Spider Middleware
人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇小白学 Python 爬虫(2):前置准备(一)基本类库的安装小白学 Python 爬虫(3):前置准备(二)Li ...

随机推荐

代理服务器和NAT技术
一.代理服务器所谓“代理”,就是代而劳之的意思.代理服务器就是代理网络用户去取得网络信息,形象的说:它是网络信息的中转站,使得一个网络终端和另一个网络终端不直接进行相连,代理网络用户去取得信息.主要 ...
[ActionScript 3.0] 自制简单拾色器
colorBoard为库中绑定的影片剪辑,colorBoard中包含影片剪辑currColor,文本colorText,影片剪辑close: colorDot为库中绑定的影片剪辑,colorDot中包 ...
iOS tableview性能优化及分析
1.最常用的就是cell的重用, 注册重用标识符每次滑动cell时需要先去缓存池中寻找可循环利用的cell,如果没有则再重新创建cell 2.减少cell中控件的数量 view对象尽量缩减控件的数量 ...
POJ1591 M*A*S*H (JAVA)
这水题,真的坑测试数据最后有空行,如果用sc.hasNextLine()判断,会RE 要改为sc.hasNext() 搞了我一上午,烦死 import java.util.*; public cla ...
【sql server】"已更新或删除的行值要么不能使该行成为唯一行,要么改变了多个行" 解决方案
#事故现场: 1.在手动修改某表中数据是,出现如下错误提示: 已更新或删除的行值要么不能使该行成为唯一行,要么改变了多个行 2.表结构及数据: #解决方法: 1.原因分析:提示被删除的行不是唯一行, ...
3. Javascript学习笔记——变量、内存、作用域
3. 变量.内存.作用域 3.1 基本类型和引用类型的值 ECMAScript 变量可能包含两种不同数据类型的值:基本类型值[Undefined.Null.Boolean.Number 和 Strin ...
python中的try/except/else/finally语句
与其他语言相同,在python中,try/except语句主要是用于处理程序正常执行过程中出现的一些异常情况,如语法错误(python作为脚本语言没有编译的环节,在执行过程中对语法进行检测,出错后发出 ...
【实战】sqlmap显示有注入却无法爆出库名
sqlmap爆mssql数据库时采用的语句如下图: 从语句中不难看出,如果关键字select被“(非tamper绕过)处理”了,那sqlmap是无法爆出数据库的,这时我们可以使用原始的猜解法, #判断 ...
@PostConstruct和@PreConstruct注解
@PostConstruct和@PreConstruct.这两个注解被用来修饰一个非静态的void()方法.而且这个方法不能有抛出异常声明. @PostConstruct //方式1 public v ...
uvm_cmdline_processor
无意中看到uvm_cmdline_processor,之前使用+UVM_TESTNAME也没深究,现在记录一下内部调用脚本中的参数,通过使用uvm_cmdline_processor可以从脚本层级, ...

java爬虫之入门基础

java爬虫之入门基础的更多相关文章

随机推荐

热门专题