爬取微博的数据时别人用的是FM.view方法传递html标签那么jsoup怎么解析呢

使用JSOUP就行这里给出点思路

我只做了自己的首页和其他人的微博首页的抓取其他的抓取没尝试(不好意思比较懒...）

首先是利用JSOUP进行登陆获取页面看了下微博的登陆表格发现用了ajax的方式所以代码获取cookie有点难

所以偷了个懒就用IE的开发者工具获取到了cookie 获取到的cookie要写成map的形式然后用代码:

Response res=Jsoup.connect("http://weibo.com").cookies(map).method(Method.POST).execute();
String s=res.body();

得到了下发现挺多的:

可以自己写段脚本来打印map.put(xxx,xxx)

我这里用scala写了段用java写一样的无所谓:

s.split("; ").foreach(s => {val x=s.split("=");println(s"""map.put("${x(0)}","${x(1)}");""")});

最后得到的body 嗯......是一大堆的script标签最上面是微博的固定的顶上那一栏的内容(导航条的内容)

lz尝试了下发现需要的是 <script>FM.view 中一个id为pl_content_homeFeed的他就是首页的内容

然后lz进行了下简单的处理没有用正则因为....额...写不好:

String s=res.body();
//System.out.println(s);
String[] ss=s.split("<script>FM.view");
int i=0;
//pl_content_homeFeed
// for(String x:ss){
// System.out.println(i++ + "======================================");
// System.out.println(x.substring(0, x.length()>100?100:x.length()));
// System.out.println("===========================================");
// }
String content=ss[8].split("\"html\":\"")[1].replaceAll("\\\\n", "").replaceAll("\\\\t", "").replaceAll("\\\\", "");
content=content.substring(0, content.length()<=13?content.length():content.length()-13);
System.out.println(content);

输出的content就是首页显示的微博内容

不过这个输出的话unicode没有被转成中文字符需要用native2ascii工具去网上找到了一个:

http://soulshard.iteye.com/blog/346807

实测可以使用:

System.out.println(Native2AsciiUtils.ascii2Native(content));

注意了以上的代码 lz是固定了主页的所以在截取时直接用了index为8的

把post方法改成get方法也可以获取到其他人的微博页

然后给出一个打印出获取的所有html内容的做法(试了一些主页可行):

package jsoupTest;
import java.io.IOException;
import java.util.ArrayList;
import java.util.HashMap;
import java.util.List;
import java.util.Map;
import org.jsoup.Connection.Method;
import org.jsoup.Connection.Response;
import org.jsoup.Jsoup;
public class JsoupTest {
public static void main(String[] args) throws IOException {
Map<String, String> map = new HashMap<>();
//map.put请根据自己的微博cookie得到
Response res = Jsoup.connect("http://weibo.com/u/别人的主页id")
.cookies(map).method(Method.GET).execute();
String s = res.body();
System.out.println(s);
String[] ss = s.split("<script>FM.view");
int i = 0;
// pl_content_homeFeed
// pl.content.homeFeed.index
List<String> list = new ArrayList<>();
for (String x : ss) {
// System.out.println(i++ + "======================================");
// System.out.println(x.substring(0,
// x.length() > 200 ? 200 : x.length()));
// System.out.println("===========================================");
if (x.contains("\"html\":\"")) {
String value = getHtml(x);
list.add(value);
System.out.println(value);
}
}
// content=ss[8].split("\"html\":\"")[1].replaceAll("(\\\\t|\\\\n)",
// "").replaceAll("\\\\\"", "\"").replaceAll("\\\\/", "/");
// content=content.substring(0,
// content.length()<=13?content.length():content.length()-13);
// System.out.println(Native2AsciiUtils.ascii2Native(content));
}
public static String getHtml(String s) {
String content = s.split("\"html\":\"")[1]
.replaceAll("(\\\\t|\\\\n|\\\\r)", "").replaceAll("\\\\\"", "\"")
.replaceAll("\\\\/", "/");
content = content.substring(0,
content.length() <= 13 ? content.length()
: content.length() - 13);
return Native2AsciiUtils.ascii2Native(content);
}
}

抓取的内容应该要适当格式化一下才可以用Jsoup做解析

不过试了下直接做解析也没什么问题(虽然有一些标签错误)

这只是个页面抓取的策略其他的我不想多写了大家自己实践一下前提是你用自己的新浪微博的cookie进行抓取

爬取微博的数据时别人用的是FM.view方法传递html标签那么jsoup怎么解析呢的更多相关文章

【网络爬虫】【java】微博爬虫（一）：小试牛刀——网易微博爬虫（自定义关键字爬取微博数据）（附软件源码）
一.写在前面 (本专栏分为"java版微博爬虫"和"python版网络爬虫"两个项目,系列里所有文章将基于这两个项目讲解,项目完整源码已经整理到我的Github ...
【scrapy_redis】调试后爬取了部分数据，然后重新调试时，直接被去重机制过滤掉无法重头开始爬取
这2天遇到一个问题,之前调试的时候爬取了一些数据,结果第二天重新调试的时候发现爬虫很快结束,而且还没有报错.后来从日志里看到这个: no more duplicates will be shown ( ...
selenium跳过webdriver检测并爬取天猫商品数据
目录简介编写思路使用教程演示图片源代码 @(文章目录) 简介现在爬取淘宝,天猫商品数据都是需要首先进行登录的.上一节我们已经完成了模拟登录淘宝的步骤,所以在此不详细讲如何模拟登录淘宝.把关 ...
C#爬取微博文字、图片、视频（不使用Cookie）
前两天在网上偶然看到一个大佬OmegaXYZ写的文章,Python爬取微博文字与图片(不使用Cookie) 于是就心血来潮,顺手撸一个C#版本的. 其实原理也很简单,现在网上大多数版本都需要Cooki ...
python3爬取微博评论并存为xlsx
python3爬取微博评论并存为xlsx**由于微博电脑端的网页版页面比较复杂,我们可以访问手机端的微博网站,网址为:https://m.weibo.cn/一.访问微博网站,找到热门推荐链接我们打开微 ...
python爬虫25 | 爬取下来的数据怎么保存？ CSV 了解一下
大家好我是小帅b 是一个练习时长两年半的练习生喜欢唱! 跳! rap! 篮球! 敲代码! 装逼! 不好意思我又走错片场了接下来的几篇文章小帅b将告诉你如何将你爬取到的数据保存下来有文本 ...
利用Python爬取朋友圈数据，爬到你开始怀疑人生
人生最难的事是自我认知,用Python爬取朋友圈数据,让我们重新审视自己,审视我们周围的圈子. 文:朱元禄(@数据分析-jacky) 哲学的两大问题:1.我是谁?2.我们从哪里来? 本文 jacky试 ...
【python数据挖掘】爬取豆瓣影评数据
概述: 爬取豆瓣影评数据步骤: 1.获取网页请求 2.解析获取的网页 3.提速数据 4.保存文件源代码: # 1.导入需要的库 import urllib.request from bs4 impo ...
吴裕雄--天生自然python数据清洗与数据可视化：MYSQL、MongoDB数据库连接与查询、爬取天猫连衣裙数据保存到MongoDB
本博文使用的数据库是MySQL和MongoDB数据库.安装MySQL可以参照我的这篇博文:https://www.cnblogs.com/tszr/p/12112777.html 其中操作Mysql使 ...

随机推荐

关于viewport我自己的理解
其实即使不在html中添加meta viewport标签,每个移动端浏览器都会有一个默认的viewport,只是这个viewport的宽度是980,然后做1:3或者1:2的自动缩放.所以当不在html ...
shelve
shelve是对pickle的封装 json & pickle是把所有的数据全部封装,一次性写入文件,而shelve可以把数据分类,以键值对的形式分别写入文件 shelve模块是一个简单的k, ...
android抽屉效果
所谓抽屉是区别于侧滑菜单他不会把内容区域挤掉他只是覆盖在内容区域下边一个布局文件一个代码可以说的就是布局文件就是 <android.support.v4.widget.Dr ...
Could not load file or assembly 'System.Net.Http, Version=4.2.0.0, Culture=neutral, PublicKeyToken=b03f5f7f11d50a3a' or one of its dependencies. The located assembly's manifest definition does not mat
Could not load file or assembly 'System.Net.Http, Version=4.2.0.0, Culture=neutral, PublicKeyToken=b ...
initialize flexnet service failed error code 50003
网络上下载回来的绿色版Xshell/Xftp在每次启动时都会报这个错,通过FlexNet Licensing Service 安装与卸载脚本了解到,程序启动的时候会检查FlexNet Licensi ...
js去除字符串空格(空白符)
使用js去除字符串内所带有空格,有以下三种方法: ( 1 ) replace正则匹配方法去除字符串内所有的空格:str = str.replace(/\s*/g,""); 去除字 ...
poj 2777(线段树+lazy思想) 小小粉刷匠
http://poj.org/problem?id=2777 题目大意涂颜色,输入长度,颜色总数,涂颜色次数,初始颜色都为1,然后当输入为C的时候将x到y涂为颜色z,输入为Q的时候输出x到y的颜色总 ...
iOS.Thread.OSAtomic
1. 原子操作 (Atomic Operations) 编写多线程代码最重要的一点是:对共享数据的访问要加锁. Shared data is any data which more than one ...
iOS.KVC.setValue:forKey:
Foundation Framework 定义了 NSObject(NSKeyValueCoding), - (void)setValue:(id)value forKey:(NSString *)k ...
[Centos] ERROR: Could not find useradd in chroot, maybe the install failed?
[mockbuild at localhost ~]$ mock -r centos-5-x86_64-testdev.cfg initinitcleanprepThis may take a whi ...

爬取微博的数据时别人用的是FM.view方法传递html标签那么jsoup怎么解析呢

爬取微博的数据时别人用的是FM.view方法传递html标签那么jsoup怎么解析呢的更多相关文章

随机推荐

热门专题