查询数据，从链接地址中爬取文章内容jsoup

查询数据，从链接地址中爬取文章内容

protected void doGet(HttpServletRequest request, HttpServletResponse response) throws ServletException, IOException {

        // TODO Auto-generated method stub

        //response.getWriter().append("Served at: ").append(request.getContextPath());

        int pageNum=1;

        int pageSize=100;

        for(pageNum=1;pageNum<101;pageNum++)

        {

            try {

                int page1= (pageNum-1)*pageSize;

                Map<Integer,String> map1 = ManageMySQL.getPageData(page1,pageSize);

                for(Integer key : map1.keySet())

                {

                    System.out.println(key+"  "+map1.get(key));

                    String context1 = getContentByURL(map1.get(key)).replace(" ", "");

                    ManageMySQL.updateContext(key, context1);

                }

            } catch (Exception e) {

                // TODO Auto-generated catch block

                e.printStackTrace();

            }

        }

    }

查询数据，从链接地址中爬取文章内容jsoup的更多相关文章

另类爬虫：从PDF文件中爬取表格数据
简介本文将展示一个稍微不一样点的爬虫. 以往我们的爬虫都是从网络上爬取数据,因为网页一般用HTML,CSS,JavaScript代码写成,因此,有大量成熟的技术来爬取网页中的各种数据.这次, ...
10、在QQ音乐中爬取某首歌曲的歌词
需求就是把关卡内的代码稍作修改,将周杰伦前五页歌曲的歌词都爬取下来,结果就是全部展示打印出来. URL https://y.qq.com/portal/search.html#p ...
关于由ajax返回的数据在for循环中只能取到最后一个数的问题
关于由ajax返回的数据在for循环中只能取到最后一个数的问题以上是来自后台的数据格式.从数据中可以看出,里面包含两个商品,每个商品价格分别为:1.98,13.60.这里我要计算两个商品的总价格,但 ...
[实战演练]python3使用requests模块爬取页面内容
本文摘要: 1.安装pip 2.安装requests模块 3.安装beautifulsoup4 4.requests模块浅析 + 发送请求 + 传递URL参数 + 响应内容 + 获取网页编码 + 获取 ...
Python3操作MySQL，查询数据并保存到文件中
我们在测试过程中,可能需要到数据库中拉去一些数据,为从测试准备.比如最近在做接口性能测试的时候,就需要很多数据来支撑,所以就需要的数据库去查询数据,下面就是python3 查询 mysql 并且保存到 ...
python爬虫实战（六）--------新浪微博（爬取微博帐号所发内容，不爬取历史内容）
相关代码已经修改调试成功----2017-4-13 详情代码请移步我的github:https://github.com/pujinxiao/sina_spider 一.说明 1.目标网址:新浪微博 ...
【scrapy】关于爬取的内容是Unicode编码
自己练习爬取拉钩网信息的时候爬取的信息如下: {'jobClass': [u'\u9500\u552e\u52a9\u7406'], 'jobUrl': u'https://www.lagou.com ...
python 爬取文章
这里我们利用强大的python爬虫来爬取一篇文章.仅仅做一个示范,更高级的用法还要大家自己实践. 好了,这里就不啰嗦了,找到一篇文章的url地址:http://www.duanwenxue.com/a ...
利用Jsoup包爬取网站内容
一 Jsoup包下载链接:http://download.csdn.net/detail/u014000832/7994245 二爬取搜狐新闻网站标题等内容 package com.test1; ...

随机推荐

tensorflow 与cuda、cudnn的对应版本关系
来源:https://www.cnblogs.com/zzb-Dream-90Time/p/9688330.html
《CoderXiaoban》第八次团队作业：Alpha冲刺 3
项目内容这个作业属于哪个课程任课教师博客主页链接这个作业的要求在哪里实验十二团队作业8:软件测试与ALPHA冲刺团队名称 Coderxiaoban团队作业学习目标 (1)掌握软件测试基 ...
「NOI2016」循环之美
P1587 [NOI2016]循环之美题目描述牛牛是一个热爱算法设计的高中生.在他设计的算法中,常常会使用带小数的数进行计算.牛牛认为,如果在 $k$ 进制下,一个数的小数部分是纯循环的,那么它就 ...
TJOI2016 字符串
字符串佳媛姐姐过生日的时候,她的小伙伴从某东上买了一个生日礼物.生日礼物放在一个神奇的箱子中.箱子外边写了一个长为n的字符串s,和m个问题.佳媛姐姐必须正确回答这m个问题,才能打开箱子拿到礼物,升职 ...
commons-dbutils使用介绍,commons-dbutils是JDBC的替代品
commons-dbutils是Apache开源组织提供的用于操作数据库的工具包.今天为大家介绍一下该包的常用方法. 对于数据库的操作无外乎增删改查,而增删改本质上可以归为一类,操作方式相同,只是SQ ...
使用session存储数据
@WebServlet("/reply") public class ReplyServlet extends HttpServlet { @Override protected ...
华东交通大学 2019 I 不要666 数位dp进阶
Problem Description 题库链接 666是一个网络用语,用来形容某人或某物很厉害很牛.而在西方,666指魔鬼,撒旦和灵魂,是不吉利的象征.所以邓志聪并不喜欢任何与6有关的数字.什么数字 ...
sql server vs mysql
1.中文: my.ini [mysqld] character-set-server=utf8 character-set-client=utf8 data\testdb\db.opt default ...
2019/7/18 --1.<%@ include file=""%>与<jsp:include page=""/>两种方式的作用
一.前言身为一名coder有太多太多的知识点要去学,太多太多的东西要去记.往往一些小细节也就难免疏忽,但悲催的是多数困恼你的bug就是因为这些微不足道的知识点.我们又不是机器人,怎么可能什么都记得了 ...
php技能树---大神的进阶之路
PHP7 迎来巨大的性能提升,又一次回到关注的焦点.根据这些年在开发圈子总结的LNMP程序猿发展轨迹,结合个人经验体会,总结出很多程序员对未来的迷漫,特别对技术学习的盲目和慌乱,简单梳理了这个每个阶段 ...

查询数据，从链接地址中爬取文章内容jsoup

查询数据，从链接地址中爬取文章内容jsoup的更多相关文章

随机推荐

热门专题