用Java爬虫爬取凤凰财经提供的沪深A股所有股票代号名称
要爬取的凤凰财经网址:http://app.finance.ifeng.com/list/stock.php?t=hs
本作主要采用的技术是jsoup,相关介绍网页:https://www.jianshu.com/p/69b395bee43a
爬取程序:
package com.ufo.hy.agumaster.tool; import java.io.BufferedReader;
import java.io.IOException;
import java.io.InputStreamReader;
import java.net.MalformedURLException;
import java.net.URL;
import java.net.URLConnection;
import java.util.ArrayList;
import java.util.List; import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements; import com.ufo.hy.agumaster.entity.Stock; /**
* Crawl stock code/name from FengHuang finance website:http://app.finance.ifeng.com/list/stock.php?t=hs
* Main package:jsoup
* Dependency:
* <dependency>
<groupId>org.jsoup</groupId>
<artifactId>jsoup</artifactId>
<version>1.7.3</version>
</dependency>
* @author heyang
*
*/
public class FenghuangCrawler {
private static final String SRC_URL="http://app.finance.ifeng.com/list/stock.php?t=hs";
private static final String ENCODING = "utf-8"; // Used to save stock code names
private List<Stock> stockList; public FenghuangCrawler() {
stockList=new ArrayList<Stock>();
String url=SRC_URL; int idx=0;
while(true) {
System.out.println(url); String html = getUrlHtml(url,ENCODING);
Document doc = Jsoup.parse(html,ENCODING); // Find core node
Element divtab01 = doc.getElementsByClass("tab01").last(); // Find stocks
Elements trs=divtab01.getElementsByTag("tr");
for(Element tr:trs) {
Elements tds=tr.getElementsByTag("td");
if(tds.size()>2) {
Element codeElm=tds.get(0).getElementsByTag("a").last();
Element nameElm=tds.get(1).getElementsByTag("a").last(); Stock s=new Stock(idx++,codeElm.text(),nameElm.text());
stockList.add(s);
}
} // Find next page url
Element lastLink=divtab01.getElementsByTag("a").last();
if(lastLink.text().equals("下一页")) {
url="http://app.finance.ifeng.com/list/stock.php"+lastLink.attr("href");
}else {
break;
}
} for(Stock s:stockList) {
System.out.println(s);
}
System.out.println("共找到"+idx+"个股票.");
} private String getUrlHtml(String url, String encoding) {
StringBuffer sb = new StringBuffer();
URL urlObj = null;
URLConnection openConnection = null;
InputStreamReader isr = null;
BufferedReader br = null;
try {
urlObj = new URL(url);
openConnection = urlObj.openConnection();
isr = new InputStreamReader(openConnection.getInputStream(), encoding);
br = new BufferedReader(isr);
String temp = null;
while ((temp = br.readLine()) != null) {
sb.append(temp + "\n");
}
} catch (MalformedURLException e) {
e.printStackTrace();
} catch (IOException e) {
e.printStackTrace();
} finally {
try {
if (isr != null) {
isr.close();
}
} catch (IOException e) {
e.printStackTrace();
}
}
return sb.toString();
} public List<Stock> getStockList() {
return stockList;
} public static void main(String[] args) {
// 根据需要设置代理
System.setProperty("http.proxyHost", "");
System.setProperty("http.proxyPort", ""); new FenghuangCrawler();
}
}
运行结果节选:
...
Stock id:3743 code:002752 name:昇兴股份
Stock id:3744 code:000796 name:凯撒旅业
Stock id:3745 code:603233 name:大参林
Stock id:3746 code:000048 name:京基智农
Stock id:3747 code:300463 name:迈克生物
Stock id:3748 code:300485 name:赛升药业
Stock id:3749 code:603387 name:基蛋生物
Stock id:3750 code:002469 name:三维工程
Stock id:3751 code:600052 name:浙江广厦
Stock id:3752 code:002187 name:广百股份
Stock id:3753 code:300069 name:金利华电
Stock id:3754 code:300317 name:珈伟新能
Stock id:3755 code:002637 name:赞宇科技
Stock id:3756 code:001914 name:招商积余
Stock id:3757 code:000564 name:供销大集
Stock id:3758 code:002363 name:隆基机械
Stock id:3759 code:603709 name:中源家居
Stock id:3760 code:000802 name:北京文化
Stock id:3761 code:002127 name:南极电商
Stock id:3762 code:600107 name:美尔雅
Stock id:3763 code:002678 name:珠江钢琴
Stock id:3764 code:002083 name:孚日股份
Stock id:3765 code:300325 name:德威新材
共找到3766个股票.
这是2020年5月1日的数据。
参考资料:
https://www.jianshu.com/p/3430f4d0b384
https://blog.csdn.net/qq_28940573/article/details/99295276
--2020-04-30--
用Java爬虫爬取凤凰财经提供的沪深A股所有股票代号名称的更多相关文章
- 一个简单java爬虫爬取网页中邮箱并保存
此代码为一十分简单网络爬虫,仅供娱乐之用. java代码如下: package tool; import java.io.BufferedReader; import java.io.File; im ...
- Java爬虫爬取网站电影下载链接
之前有看过一段时间爬虫,了解了爬虫的原理,以及一些实现的方法,本项目完成于半年前,一直放在那里,现在和大家分享出来. 网络爬虫简单的原理就是把程序想象成为一个小虫子,一旦进去了一个大门,这个小虫子就像 ...
- java爬虫爬取的html内容中空格( )变为问号“?”的解决方法
用java编写的爬虫,使用xpath爬取内容后,发现网页源码中的 全部显示为?(问号),但是使用字符串的replace("?", ""),并不能替换,网上找了一 ...
- java爬虫爬取网页内容前,对网页内容的编码格式进行判断的方式
近日在做爬虫功能,爬取网页内容,然后对内容进行语义分析,最后对网页打标签,从而判断访问该网页的用户的属性. 在爬取内容时,遇到乱码问题.故需对网页内容编码格式做判断,方式大体分为三种:一.从heade ...
- java爬虫爬取资源,小白必须会的入门代码块
java作为目前最火的语言之一,他的实用性也在被无数的java语言爱好者逐渐的开发,目前比较流行的爬取资源,用java来做也更简单一些,下面是爬取网页上所有手机型号,参数等极为简便的数据 packag ...
- java爬虫爬取https协议的网站时,SSL报错, java.lang.IllegalArgumentException TSLv1.2 报错
目前在广州一家小公司实习,这里的学习环境还是挺好的,今天公司从业十几年的大佬让我检查一下几年前的爬虫程序是否还能使用…… 我从myeclipse上check out了大佬的程序,放到workspace ...
- Java爬虫爬取京东商品信息
以下内容转载于<https://www.cnblogs.com/zhuangbiing/p/9194994.html>,在此仅供学习借鉴只用. Maven地址 <dependency ...
- 使用Python爬虫爬取网络美女图片
代码地址如下:http://www.demodashi.com/demo/13500.html 准备工作 安装python3.6 略 安装requests库(用于请求静态页面) pip install ...
- 通过爬虫爬取四川省公共资源交易平台上最近的招标信息 --- URLConnection
通过爬虫爬取公共资源交易平台(四川省)最近的招标信息 一:引入JSON的相关的依赖 <dependency> <groupId>net.sf.json-lib< ...
随机推荐
- CentOS7 安装 Nexus
CentOS7 安装 Nexus 所需软件包 jdk-8u231-linux-x64.tar.gz nexus-3.24.0-02-unix.tar.gz 创建安装目录 mkdir -p /opt/n ...
- 微信公众号怎么添加附件?比如word文档,pdf文件等
微信公众号怎么添加附件?比如word文档,pdf文件等 我们都知道创建一个微信公众号,在公众号中发布一些文章是非常简单的,但公众号添加附件下载的功能却被限制,如今可以使用小程序“微附件”进行在公众 ...
- 【LeetCode/LintCode】 题解丨微软面试题:大楼轮廓
水平面上有 N 座大楼,每座大楼都是矩阵的形状,可以用一个三元组表示 (start, end, height),分别代表其在x轴上的起点,终点和高度.大楼之间从远处看可能会重叠,求出 N 座大楼的外轮 ...
- 2020-07-06:一个6亿的表a,一个3亿的表b,通过外间tid关联,你如何最快的查询出满足条件的第50000到第50200中的这200条数据记录
福哥答案2020-07-06:表a和表b的字段都是id和tid,数据类型都是int.查询结果顺序上以 表a 为准.1.JOIN.SELECT * FROM a JOIN b ON a.tid = b. ...
- C#LeetCode刷题之#242-有效的字母异位词(Valid Anagram)
问题 该文章的最新版本已迁移至个人博客[比特飞],单击链接 https://www.byteflying.com/archives/4040 访问. 给定两个字符串 s 和 t ,编写一个函数来判断 ...
- Spring同时集成JPA与Mybatis
@ 目录 ORM Spring ORM Spring ORM 同时集成JPA与Mybatis 一.创建一个SpringBoot项目 二.建立用户信息登记表 三.Web应用项目集成mysql 四.添加S ...
- Golang并发编程基础
硬件 内存 作为并发编程一个基础硬件知识储备,首先要说的就是内存了,总的来说在绝大多数情况下把内存的并发增删改查模型搞清楚了其他的基本上也是异曲同工之妙. 内存芯片--即我们所知道的内存颗粒,是一堆M ...
- CompletableFuture异步线程
1.线程池七大参数介绍 (1)corePoolSize:线程池中常驻核心线程数 (2)maximumPoolSize:线程池能够容纳同时执行的最大线程数,此值必须大于等于1 (3)keepAliveT ...
- Netty多协议开发
HTTP协议开发 post与get的区别 1)get用于信息获取,post用于更新资源. 2)get数据放在请求行中,post数据放在请求体内. 3)get对数据长度有限制(2083字节),post没 ...
- 5分钟快速了解MySQL索引的各种类型
文章持续更新,微信搜索「万猫学社」第一时间阅读. 关注后回复「电子书」,免费获取12本Java必读技术书籍. 什么是索引? 索引是数据库存储引擎用于快速查找到指定数据的一种数据结构. 可以用新华字典做 ...