通过Java进行网页抓取并生成plist创建代码

抓取网页的方法：

抓取网页可以通过正则表达式也可以通过Java。

通过firefox浏览器，安装Firebug来查看网页的源代码。

首先将要抓取的部分保存到本地，步骤如下：

1.在要抓取的位置右键，选择使用Firebug查看元素

2.鼠标悬停在特定元素上面时，元素会高亮，找到整个表格数据的标签，右键选择复制HTML，然后新建一个html文件粘贴进去，为了防止乱码，应当把网页的head也保存下来。

网页本地化完成后，用eclipse新建一个Java工程，导入jsoup.jar库，

右键如下图操作，变成“奶瓶”表示可用：

利用jSoup包抓取网页的方法：

已知网页的内部结构为：

<li><a href="http://xxx"><img src="http://xxx.jpg"><p>xxx</p></a></li>

其中要抓取的部分为名称<p>标签和图片<img>标签的src属性。Elements为元素数组，得到的是多条li数据，Element为从li中获取的元素，抓取标签内属性使用attr方法，直接抓取文字使用text方法。

<span style="white-space:pre">		</span>//文件路径

		String url = "/Users/soulghost/Desktop/WebCatch.html";

		try{

			//加载网页

			Document doc = Jsoup.parse(new File(url), "UTF-8");

			//抓去特定标签的元素

			Elements lis = doc.select("li");

			//遍历所有元素

			for(int i = 0; i < lis.size(); i++){

				Element li = lis.get(i);

				Element img = li.select("img").get(0);

				String imgName = img.attr("src");

				Element p  = li.select("p").get(0);

				String heroName = p.text();

			}

		}catch (Exception e){

		}

生成plist的方法：先新建字典，然后加入NSArray，最后将数组使用writeToFile直接生称为xxx.plist即可。

例如：

    NSDictionary *dict1 = @{@"name":@"abc",@"icon":@"abc.png"};

    NSDictionary *dict2 = @{@"name":@"efg",@"icon":@"efg.png"};

    NSDictionary *dict3 = @{@"name":@"hij",@"icon":@"hij.png"};

    NSArray *apps = @[dict1, dict2, dict3];

    [apps writeToFile:@"/Users/soulghost/Desktop/heros.plist" atomically:YES];

因此应该在Java中打印这样的代码，然后拷贝到Xcode中运行来生成plist。

注意特殊字符，例如""使用反斜杠来转义（\“）来转义。

Tip：不要忘了array的新建用 @[ ]，字典用@{ }。

使用Xcode下载src中的图片：

网络数据通过二进制方式传播，使用NSData类来获取特定URL的数据：

注意一个细节，使用string的lastPathComponent方法可以获取路径中最后的文件名部分。

另一个细节，因为icon键内存放的是url，应该转化为图标名称filename，注意新建可变数组marray和可变字典来修改数据，然后生成新的数组。

    NSMutableArray *marray = [NSMutableArray array];

    for (NSDictionary *hero in array) {

        NSString *iconURL = hero[@"icon"];

        NSURL *url = [NSURL URLWithString:iconURL];

        NSData *data = [NSData dataWithContentsOfURL:url];

        NSString *filename = [iconURL lastPathComponent];

        NSString *path = [NSString stringWithFormat:@"/xxx/%@",filename];

        [data writeToFile:path atomically:YES];

        NSMutableDictionary *newDict = [NSMutableDictionary dictionary];

        newDict[@"name"] = hero[@"name"];

        newDict[@"icon"] = filename;

        [marray addObject:newDict];

    }

通过Java进行网页抓取并生成plist创建代码的更多相关文章

Java实现网页抓取的一个Demo
这个小案例的话我是存放在我的github 上. 下面给出链接自己可以去看下,也可以直接下载源码.有具体的说明 <Java网页抓取>
Java开源网页抓取工具httpClient以及jsoup
网上看到不错的Java网页抓取工具和库先记录一下使用java开源工具httpClient及jsoup抓取解析网页数据
java抓取动态生成的网页
最近在做项目的时候有一个需求:从网页面抓取数据,要求是首先抓取整个网页的html源码(后期更新要使用到).刚开始一看这个简单,然后就稀里哗啦的敲起了代码(在这之前使用过Hadoop平台的分布式爬虫框架 ...
java网页抓取
网页抓取就是,我们想要从别人的网站上得到我们想要的,也算是窃取了,有的网站就对这个网页抓取就做了限制,比如百度直接进入正题 //要抓取的网页地址 String urlStr = "http ...
基于Casperjs的网页抓取技术【抓取豆瓣信息网络爬虫实战示例】
CasperJS is a navigation scripting & testing utility for the PhantomJS (WebKit) and SlimerJS (Ge ...
如何用python抓取js生成的数据 - SegmentFault
如何用python抓取js生成的数据 - SegmentFault 如何用python抓取js生成的数据 1赞踩收藏想写一个爬虫,但是需要抓去的的数据是js生成的,在源代码里看不到,要怎么才能抓 ...
网页抓取小工具（IE法）
网页抓取小工具(IE法)—— 吴姐 http://club.excelhome.net/thread-1095707-1-1.html 用IE提取网页资料的好处在于:所见即所得,网页上能看到的信息一般 ...
分享一个c#t的网页抓取类
using System; using System.Collections.Generic; using System.Web; using System.Text; using System.Ne ...
网页抓取：PHP实现网页爬虫方式小结
来源:http://www.ido321.com/1158.html 抓取某一个网页中的内容,需要对DOM树进行解析,找到指定节点后,再抓取我们需要的内容,过程有点繁琐.LZ总结了几种常用的.易于实现 ...

随机推荐

Docker常见仓库CentOS
CentOS 基本信息 CentOS 是流行的 Linux 发行版,其软件包大多跟 RedHat 系列保持一致. 该仓库提供了 CentOS 从 5 ~ 7 各个版本的镜像. 使用方法默认会启动一个 ...
JavaScript Math（算数）对象
Math 对象 Math(算数)对象的作用是:执行普通的算数任务. Math 对象提供多种算数值类型和函数.无需在使用这个对象之前对它进行定义. 使用Math的属性/方法的语法: var x=Math ...
Common-used commands in Docker
1. Start running a image in background mode docker run -it -d <image>:<tag> e.g. docker ...
ICL Auto Vectorization
简介此文简单介绍如何使用intel c++编译器实现向量化加速. 全文如下安排: base : 待优化的源代码. vectorization : 第一个向量化版本. aligned : 内存对其对向 ...
Spark核心类：弹性分布式数据集RDD及其转换和操作pyspark.RDD
http://blog.csdn.net/pipisorry/article/details/53257188 弹性分布式数据集RDD(Resilient Distributed Dataset) 术 ...
全废话SQL Server统计信息（2）——统计信息基础
接上文:http://blog.csdn.net/dba_huangzj/article/details/52835958 我想在大地上画满窗子,让所有习惯黑暗的眼睛都习惯光明--顾城<我是一个 ...
[Mysql]Innodb 独立表空间和共享表空间
innodb有2中表空间方式: 共享表空间和独立表空间查询数据的设置: show variables like '%per_table'; 默认是共享表空间,独立表空间在配置文件中添加 inno ...
svn(subversion)代码版本管理在linux下的一些常见使用命令
以下的操作都是默认你的服务器安装有svn的大前提下进行的. 一.创建版本库我的版本库存放路径为: /var/svn : 下面我们来创建一个名为 svntet 的版本库注释: svnadmin ...
UNIX网络编程——原始套接字（dos攻击）
原始套接字(SOCK_RAW).应用原始套接字,我们可以编写出由TCP和UDP套接字不能够实现的功能. 注意原始套接字只能够由有 root权限的人创建. 可以参考前面的博客<<UNIX网络 ...
5.1.3.jvm java虚拟机系统参数查看
不同的参数配置对系统的执行效果有较大的影响,因此,我们有必要了解系统实际的运行参数. 1.1.1.1. -XX:+PrintVMOptions 参数-XX:+PrintVMOptions可以在程序运行 ...

通过Java进行网页抓取并生成plist创建代码

通过Java进行网页抓取并生成plist创建代码的更多相关文章

随机推荐

热门专题