java爬取百度首页源代码

爬虫感觉挺有意思的，写一个最简单的抓取百度首页html代码的程序。虽然简单了一点，后期会加深的。

 package test;

     import java.io.BufferedReader;

     import java.io.InputStreamReader;

     import java.net.URL;

     import java.net.URLConnection;

     public class Main

     {

         public static void main(String[] args)

         {

             // 定义即将访问的链接

             String url = "https://www.baidu.com/";

             // 定义一个字符串用来存储网页内容

             String result = "";

             // 定义一个缓冲字符输入流

             BufferedReader in = null;

             try

             {

                 // 将string转成url对象

                 URL realUrl = new URL(url);

                 // 初始化一个链接到那个url的连接

                 URLConnection connection = realUrl.openConnection();

                 // 开始实际的连接

                 connection.connect();

                 // 初始化 BufferedReader输入流来读取URL的响应

                 in = new BufferedReader(new InputStreamReader(connection.getInputStream()));

                 // 用来临时存储抓取到的每一行的数据

                 String line;

                 while ((line = in.readLine()) != null)

                 {

                     // 遍历抓取到的每一行并将其存储到result里面

                     result += line + "\n";

                 }

             } catch (Exception e)

             {

                 System.out.println("发送GET请求出现异常！" + e);

                 e.printStackTrace();

             } // 使用finally来关闭输入流

             finally

             {

                 try

                 {

                     if (in != null)

                     {

                         in.close();

                     }

                 } catch (Exception e2)

                 {

                     e2.printStackTrace();

                 }

             }

             System.out.println(result);

         }

     }

java爬取百度首页源代码的更多相关文章

Java爬取百度图片Google图片Bing图片
先看看抓取的结果. 8个Java类: Startup.java - main函数 ImageCrawler.java - Crawler基类 BaiduImageCrawler.java - 百度图片 ...
JAVA爬取百度贴吧图片
package com.wang.xiaowei.utils; import com.sun.image.codec.jpeg.JPEGCodec; import com.sun.image.code ...
Java网络爬虫Hello world实现——Httpclient爬取百度首页
1.创建Maven项目 2.Httpclient Maven地址 <dependency> <groupId>org.apache.httpcomponents</gro ...
【python爬虫】之爬取百度首页
刚开始学习爬虫,照着教程手打了一遍,还是蛮有成就感的.使用版本:python2.7 注意:python2的默认编码是ASCII编码而python3默认编码是utf-8 import urllib2 u ...
java 如何爬取百度百科词条内容(java如何使用webmagic爬取百度词条)
这是老师所布置的作业说一下我这里的爬去并非能把百度词条上的内容一字不漏的取下来(而是它分享链接的一个主要内容概括...)(他的主要内容我爬不到也不想去研究大家有好办法可以call me) 例如互 ...
WebCollector爬取百度搜索引擎样例
使用WebCollector来爬取百度搜索引擎依照关键字搜索的结果页面,解析规则可能会随百度搜索的改版而失效. 代码例如以下: package com.wjd.baidukey.crawler; im ...
java爬取并下载酷狗TOP500歌曲
是这样的,之前买车送的垃圾记录仪不能用了,这两天狠心买了好点的记录仪,带导航.音乐.蓝牙.4G等功能,寻思,既然有这些功能就利用起来,用4G听歌有点奢侈,就准备去酷狗下点歌听,居然都是需要办会员才能下 ...
使用Jsoup 爬取网易首页所有的图片
package com.enation.newtest; import java.io.File; import java.io.FileNotFoundException; import java. ...
利用python的爬虫技术爬取百度贴吧的帖子
在爬取糗事百科的段子后,我又在知乎上找了一个爬取百度贴吧帖子的实例,为了巩固提升已掌握的爬虫知识,于是我打算自己也做一个. 实现目标:1,爬取楼主所发的帖子 2,显示所爬去的楼层以及帖子题目 3,将爬 ...

随机推荐

c++分块算法（暴力数据结构）
快要noip了,该写些题解攒攒rp了(逃) 看到题解里那么多线段树啊,树状数组啊,本蒟蒻表示:这都是什么鬼东西? 在所有高级数据结构中,树状数组是码量最小的,跑的也基本是最快的,但理解很难,并且支持的 ...
Android学习之 adb被占用解决办法
1.adb被占用解决办法方法一:(1)查看5037端口哪个进程在用 netstat -a -o 5037 (2)查看上面进程是哪个执行文件在占用 tasklist ...
NVIDIA | 一种重建照片的 AI 图像技术
简评:或许可以称之为「擦擦乐」~ 建议大家看看视频示例 ~ 前几天,NVIDIA 的研究人员介绍了一种新的深度学习方法,使用该方法可以重建缺失像素的图像内容. 这种方法被称为「image inpa ...
【智能算法】粒子群算法（Particle Swarm Optimization）超详细解析+入门代码实例讲解
喜欢的话可以扫码关注我们的公众号哦,更多精彩尽在微信公众号[程序猿声] 01 算法起源粒子群优化算法(PSO)是一种进化计算技术(evolutionary computation),1995 年由E ...
EOFError: Compressed file ended before the end-of-stream marker was reached
EOFError: Compressed file ended before the end-of-stream marker was reached python在下载时,出现上述错误提示,一般这种 ...
20190430-Bootstrapの组件
写在前面的乱七八糟:今天务必要把BT盘完~任重道远~ 目录 1.字体图标 2.下拉菜单 3.按钮组 4.输入框组 5.导航 5.1标签页 5.2胶囊式标签页 5.3路径导航/面包屑导航 6.导航条 7 ...
利用JS获取本地时间和服务器时间
<p id="labTime"> <script type="text/javascript"> //取客户端时间 setInterva ...
Java 的多态
1 多态的概念多态(?) 可以理解为多种状态/多种形态同一事物,由于条件不同,产生的结果不同程序中的多态同一引用类型,使用不同的实例而执行结果不同的. 同:同一个类型,一般指父类. ...
es put mapping
fd dg public Map<String, Map<String, String>> javaBeanToMapping(Object instance, List< ...
简说LINUX 下chmod|chown|chgrp和用法和区别
1.chgrp(改变文件所属用户组) chgrp 用户组文件名 ###就是这个格了.如果整个目录下的都改,则加-R参数用于递归. 如:chgrp -R user smb.con ...

java爬取百度首页源代码

java爬取百度首页源代码的更多相关文章

随机推荐

热门专题