Kettle (5) - 获取 Web 数据
使用 Kettle 获取网页数据。当然,这里的网页数据主要指结构化数据,可能是 xml 格式、json 格式 或者 csv 文件等。以 http://services.odata.org/V3/Northwind/Northwind.svc/Products/ 为例,这是 odata 提供的符合 REST 规范的数据。通过这个 url 获取的产品数据,默认为 xml 格式。我们将以该 url 演示如何获取 xml 格式以及 json 格式的数据。
使用 Http Client 获取网页数据
本例通过 Http client 获取网页包括如下步骤:
第一步:通过「生成记录」组件,将 url 保存到常量中
新建一个字段,名称为 url,类型为 String,值为:
http://services.odata.org/V3/Northwind/Northwind.svc/Products/
第二步:通过「HTTP client」组件,获取网页的内容
将 url 获取的内容,放在结果字段 result 中。
第三步:从 XML 获取数据
我们知道通过这个 url 获取的是 xml 格式数据,所以使用 「Get data from XML」组件。第三步有点复杂。
因为上一步输出的字段为 result,所以本步骤 xml 源字段为 result。切换到「内容」页签。
解释下「循环读取路径」。如果我们查看本例的目标网页,我们发现有多笔数据:
所以要读取所有的产品数据,就要用到循环,而且抓取到这些数据,需要用到 XPath 路径,也就是 /feed/entry/content/m:properties。因为 XPath 中有 namespace,所以「考虑命名空间」选中。
切换到「字段」页签,在 /feed/entry/content/m:properties 这个路径下,假设我们只需要三个字段:
第四步:使用「选取字段」组件,可以简单的展示数据。
完成以上步骤后,运行,既可以获取到数据,截图如下。
获取 json 格式数据
http://services.odata.org/V3/Northwind/Northwind.svc/Products/
提供的是 OData 服务,所以我们也可以通过参数 $format=json 来得到 json 格式的数据。然后用 HTTP Client 处理 json 数据。
Kettle 的处理步骤如下:
这里主要说明与处理 xml 数据有差异的部分。
第一步,生成记录。url 的值多了一个参数:http://services.odata.org/V3/Northwind/Northwind.svc/Products/?$format=json。
第二步, Http Client,相同,没有差异。
第三步,因为 HTTP Client 获取的是 json 数据,所以用 JSON Input
获取数据。主要区别在「字段」这个页签:
要获取 ProductID, ProductName 和 UnitPrice 三个字段,使用的是 JSONPath
语法。这里不对 JSONPath 做过多说明。$..ProductID 表示获取所有
ProductID 字段。关于 JSONPath,自行参考:http://goessner.net/articles/JsonPath/。
---------------------
作者:stone0823
来源:CSDN
原文:https://blog.csdn.net/stone0823/article/details/78823052
版权声明:本文为博主原创文章,转载请附上博文链接!
Kettle (5) - 获取 Web 数据的更多相关文章
- 传递多个参数并获取Web API的数据
近段时间学习Web Api觉得非常有意思.默认的路由情况之下,获取数据时,它不必指定Action操作名. 还有另外感想,就是自从学习asp.net MVC之后,加上jQuery,让Insus.NET已 ...
- Xamarin.Android 调用Web Api(通过ListView展示远程获取的数据)
xamarin.android如何调用sqlserver 数据库呢(或者其他的),很多新手都会有这个疑问.xamarin.android调用远程数据主要有两种方式: 在Android中保存数据或调用数 ...
- pyhton 从web获取json数据 保存到本地然后再读取
从web中获取json数据直接进行处理总认为太慢.主要是从web中获取获取数据的过程有点慢. 所以就在想 假设先利用空暇时间把json数据获取并保存到本地,然后再从本地文件里读取和操作.应该就要快非常 ...
- SpringBoot web获取请求数据【转】
SpringBoot web获取请求数据 一个网站最基本的功能就是匹配请求,获取请求数据,处理请求(业务处理),请求响应,我们今天来看SpringBoot中怎么获取请求数据. 文章包含的内容如下: 获 ...
- [转]WEB页获取串口数据
本文转自:https://www.cnblogs.com/rockyhm/p/3434200.html 最近做一个B/S的项目,需要读取电子秤的值,之前一直没做过,也没有经验,于是在网上找到很多 大 ...
- WEB页获取串口数据
最近做一个B/S的项目,需要读取电子秤的值,之前一直没做过,也没有经验,于是在网上找到很多 大致分两种 使用ActiveX控件,JS调用MSCOMM32.dll的串口控件对串口进行控制 使用C#语言 ...
- asp.net三层架构 及其中使用泛型获取实体数据介绍
asp.net中使用泛型获取实体数据可以发挥更高的效率,代码简洁方便,本例采用三层架构.首先在model层中定义StuInfo实体,然后在 DAL层的SQLHelper数据操作类中定义list< ...
- 【转】如何在Windows+VS2005使用最新静态libcurl 7.35.0获取网页数据,支持HTTPS
地址: http://blog.csdn.net/hujkay作者:Jekkay Hu(34538980@qq.com)关键词:Windows,curl,ssl, visual c++ 2005, ...
- ASP.NET Web数据控件
ASP.NET Web数据控件 1.数据控件简介 这包括数据源控件和格式设置控件,前者使您可以使用 Web 控件访问数据库中的数据,后者使您可以显示和操作ASP.NET 网页上的数据. 2.数据控件 ...
随机推荐
- .Net Core 项目在Windows服务中托管【转载】
本文以创建的WebAPI项目为例子进行讲解(本人使用VS Code创建的项目) 1.使用VS Code创建WebAPI项目(项目名称自定义) 2.在创建的项目csproj项目文件中,确认是否存在运行时 ...
- CPU使用情况之平均负载
需求场景: 新入职公司,需要监控方案,于是先把zabbix里有关OS模块的监控项全部列出来,并一个一个去研究具体的代表的意思:发现其他的都很容易理解,只要有关CPU监控的就难以理解.于是 ...
- shell 生成MAC地址
# cat /dev/urandom |od -x |awk '{print $2,$3,$4}' |head -n 1 |sed -e 's/[[:space:]]//g' -e 's/\(..\) ...
- mysql:设置字符集utf8mb4 支持emoji字符
为什么要把数据库的字符集设置成utf8mb4呢?以前一直用的都是utf8啊? 答案在这里:utf8适用于不使用移动设备的互联网交互,utf8mb4适用于当前的移动设备互联网开发,因为移动设备中常常会有 ...
- asp.net:mv4 FileResult在IE8中下载不显示文件名和扩展名而显示Action方法名了!
IE8下,用户点击下载文件,会发现文件类型失丢的问题,解决方案如下: //IE8下载时,只显示action的名字,没有文件名和后缀 @仰止网Simba //return File(bufferbyte ...
- 分页传参数的两种形式,url正则 ?id=1
目的: 打开http://127.0.0.1:8000/home 点击查看详情转到 http://127.0.0.1:8000/detail-1-1.html实现查看具体信息 一,利用url路由 ...
- Matlab中调用VS编译的exe文件并传递变量 的方法
经历::在网上找了很多方法,都没有实现在matlab中调用vs的exe文件并且能够传递变量参数,一些小细节花费了自己很多时间,比喻忽略了一些空格! 网上很多的方法都是纯粹复制别人的方法,自己都没有去 ...
- 对poi-excel导出的浅层理解
上一篇对excel导入做了浅层的解释,本文将对导出再做浅层解释. 仍然是相同的套路,只不过是反过来而已. 反过来方向理论上本来是这样的:cell-->row-->sheet-->wo ...
- CountDownLatch两种用法
1.当前线程等待其他线程执行完毕后在执行. 2.模拟高并发场景. 在多线程编程里,CountDownLatch是一个很好的计数器工具. 常用的两个方法: 1.计数器减一 public void cou ...
- 机器学习算法中的准确率(Precision)、召回率(Recall)、F值(F-Measure)
摘要: 数据挖掘.机器学习和推荐系统中的评测指标—准确率(Precision).召回率(Recall).F值(F-Measure)简介. 引言: 在机器学习.数据挖掘.推荐系统完成建模之后,需要对模型 ...