使用 Kettle 获取网页数据。当然,这里的网页数据主要指结构化数据,可能是 xml 格式、json 格式 或者 csv 文件等。以 http://services.odata.org/V3/Northwind/Northwind.svc/Products/ 为例,这是 odata 提供的符合 REST 规范的数据。通过这个 url 获取的产品数据,默认为 xml 格式。我们将以该 url 演示如何获取 xml 格式以及 json 格式的数据。

使用 Http Client 获取网页数据
本例通过 Http client 获取网页包括如下步骤:

第一步:通过「生成记录」组件,将 url 保存到常量中

新建一个字段,名称为 url,类型为 String,值为:

http://services.odata.org/V3/Northwind/Northwind.svc/Products/

第二步:通过「HTTP client」组件,获取网页的内容

将 url 获取的内容,放在结果字段 result 中。

第三步:从 XML 获取数据

我们知道通过这个 url 获取的是 xml 格式数据,所以使用 「Get data from XML」组件。第三步有点复杂。

因为上一步输出的字段为 result,所以本步骤 xml 源字段为 result。切换到「内容」页签。

解释下「循环读取路径」。如果我们查看本例的目标网页,我们发现有多笔数据:

所以要读取所有的产品数据,就要用到循环,而且抓取到这些数据,需要用到 XPath 路径,也就是 /feed/entry/content/m:properties。因为 XPath 中有 namespace,所以「考虑命名空间」选中。

切换到「字段」页签,在 /feed/entry/content/m:properties 这个路径下,假设我们只需要三个字段:

第四步:使用「选取字段」组件,可以简单的展示数据。

完成以上步骤后,运行,既可以获取到数据,截图如下。

获取 json 格式数据
http://services.odata.org/V3/Northwind/Northwind.svc/Products/
提供的是 OData 服务,所以我们也可以通过参数 $format=json 来得到 json 格式的数据。然后用 HTTP Client 处理 json 数据。

Kettle 的处理步骤如下:

这里主要说明与处理 xml 数据有差异的部分。

第一步,生成记录。url 的值多了一个参数:http://services.odata.org/V3/Northwind/Northwind.svc/Products/?$format=json。

第二步, Http Client,相同,没有差异。

第三步,因为 HTTP Client 获取的是 json 数据,所以用 JSON Input
获取数据。主要区别在「字段」这个页签:

要获取 ProductID, ProductName 和 UnitPrice 三个字段,使用的是 JSONPath
语法。这里不对 JSONPath 做过多说明。$..ProductID 表示获取所有
ProductID 字段。关于 JSONPath,自行参考:http://goessner.net/articles/JsonPath/。
---------------------
作者:stone0823
来源:CSDN
原文:https://blog.csdn.net/stone0823/article/details/78823052
版权声明:本文为博主原创文章,转载请附上博文链接!

Kettle (5) - 获取 Web 数据的更多相关文章

  1. 传递多个参数并获取Web API的数据

    近段时间学习Web Api觉得非常有意思.默认的路由情况之下,获取数据时,它不必指定Action操作名. 还有另外感想,就是自从学习asp.net MVC之后,加上jQuery,让Insus.NET已 ...

  2. Xamarin.Android 调用Web Api(通过ListView展示远程获取的数据)

    xamarin.android如何调用sqlserver 数据库呢(或者其他的),很多新手都会有这个疑问.xamarin.android调用远程数据主要有两种方式: 在Android中保存数据或调用数 ...

  3. pyhton 从web获取json数据 保存到本地然后再读取

    从web中获取json数据直接进行处理总认为太慢.主要是从web中获取获取数据的过程有点慢. 所以就在想 假设先利用空暇时间把json数据获取并保存到本地,然后再从本地文件里读取和操作.应该就要快非常 ...

  4. SpringBoot web获取请求数据【转】

    SpringBoot web获取请求数据 一个网站最基本的功能就是匹配请求,获取请求数据,处理请求(业务处理),请求响应,我们今天来看SpringBoot中怎么获取请求数据. 文章包含的内容如下: 获 ...

  5. [转]WEB页获取串口数据

    本文转自:https://www.cnblogs.com/rockyhm/p/3434200.html 最近做一个B/S的项目,需要读取电子秤的值,之前一直没做过,也没有经验,于是在网上找到很多  大 ...

  6. WEB页获取串口数据

    最近做一个B/S的项目,需要读取电子秤的值,之前一直没做过,也没有经验,于是在网上找到很多  大致分两种 使用ActiveX控件,JS调用MSCOMM32.dll的串口控件对串口进行控制 使用C#语言 ...

  7. asp.net三层架构 及其中使用泛型获取实体数据介绍

    asp.net中使用泛型获取实体数据可以发挥更高的效率,代码简洁方便,本例采用三层架构.首先在model层中定义StuInfo实体,然后在 DAL层的SQLHelper数据操作类中定义list< ...

  8. 【转】如何在Windows+VS2005使用最新静态libcurl 7.35.0获取网页数据,支持HTTPS

    地址: http://blog.csdn.net/hujkay作者:Jekkay Hu(34538980@qq.com)关键词:Windows,curl,ssl,  visual c++ 2005, ...

  9. ASP.NET Web数据控件

    ASP.NET Web数据控件 1.数据控件简介 这包括数据源控件和格式设置控件,前者使您可以使用 Web 控件访问数据库中的数据,后者使您可以显示和操作ASP.NET 网页上的数据.  2.数据控件 ...

随机推荐

  1. Nginx做web服务器反向代理

    实验目的 通过nginx实现反向代理的功能,类似apache反向代理和haproxy反向代理 工作中用nginx做反向代理和负载均衡的也越来越多了 有些公司从web服务器到反向代理,都使用nginx. ...

  2. ADS1.2和JlinkV8 erro starting external process,Process error code 87(0x57)参数错误

    ADS1.2和JlinkV8  erro starting external process,Process error code 87(0x57)参数错误 网上的大致说法是说这个跟W7有关 说是将I ...

  3. 小程序客服下发消息禁止后 session from 还有用吗?

    文章概要 1. 小程序下发政策调整分析 2. session from 数据还传到底三方了没?  1. 小程序下发政策调整分析 小程序客服功能下发策略调整                       ...

  4. Excel函数匹配查找

    需求 例如:北京沃尔玛有限公司,由已知的沃尔玛缩写,将两者进行匹配. 函数 lookup() 第一个参数“Lookup_value”:是要查找的值:第二个参数“lookup_vector”:是要查找的 ...

  5. 20145319 《网络渗透》MS08_067安全漏洞

    20145319 <网络渗透>MS08_067安全漏洞 一 实验内容 了解掌握metasploit平台的一些基本操作,能学会利用已知信息完成简单的渗透操作 了解漏洞MS08_067的相关知 ...

  6. 04-体验一下apache组织封装的BeanUtil工具包

    apache 自己为程序员们封装了一个专门用于处理的工具类,其功能有(数据类型会自动转成与JavaBean相关的) map转javabean javabean转map javabean对象复制 获取j ...

  7. layui流加载+h5自带模板

    @{ ViewBag.Title = "服务列表"; Layout = "~/Areas/hahaha/Views/Shared/_Head.cshtml"; ...

  8. bootstrap的日期选择器

    时间框偏移解决办法 首先导入js和css文件 <script src="https://cdn.bootcss.com/jquery/3.2.1/jquery.min.js" ...

  9. Linux常用命令大全(分类)

    首先按ESC键回到命令模式: vi保存文件有不同的选项,对应于不同的命令,你可以从下面的命令中选择一个需要的::w 保存文件但不退出vi :w file 将修改另外保存到file中,不退出vi:w! ...

  10. 自己动手实现JDK动态代理

    出自:作者:孤独烟  http://rjzheng.cnblogs.com/ ------------------------------------------------------------- ...