爬取微博的数据时别人用的是FM.view方法传递html标签那么jsoup怎么解析呢
使用JSOUP就行 这里给出点思路
我只做了自己的首页和其他人的微博首页的抓取 其他的抓取没尝试(不好意思 比较懒...)
首先是利用JSOUP进行登陆 获取页面 看了下微博的登陆表格 发现用了ajax的方式 所以代码获取cookie有点难
所以偷了个懒就用IE的开发者工具获取到了cookie 获取到的cookie要写成map的形式 然后用代码:
- Response res=Jsoup.connect("http://weibo.com").cookies(map).method(Method.POST).execute();
- String s=res.body();
得到了下发现挺多的:
可以自己写段脚本来打印map.put(xxx,xxx)
我这里用scala写了段 用java写一样的 无所谓:
- s.split("; ").foreach(s => {val x=s.split("=");println(s"""map.put("${x(0)}","${x(1)}");""")});
最后得到的body 嗯......是一大堆的script标签 最上面是微博的固定的顶上那一栏的内容(导航条的内容)
lz尝试了下 发现需要的是 <script>FM.view 中一个id为pl_content_homeFeed的 他就是首页的内容
然后lz进行了下简单的处理 没有用正则 因为....额...写不好:
- String s=res.body();
- //System.out.println(s);
- String[] ss=s.split("<script>FM.view");
- int i=0;
- //pl_content_homeFeed
- // for(String x:ss){
- // System.out.println(i++ + "======================================");
- // System.out.println(x.substring(0, x.length()>100?100:x.length()));
- // System.out.println("===========================================");
- // }
- String content=ss[8].split("\"html\":\"")[1].replaceAll("\\\\n", "").replaceAll("\\\\t", "").replaceAll("\\\\", "");
- content=content.substring(0, content.length()<=13?content.length():content.length()-13);
- System.out.println(content);
输出的content就是首页显示的微博内容
不过这个输出的话unicode没有被转成中文字符 需要用native2ascii工具 去网上找到了一个:
http://soulshard.iteye.com/blog/346807
实测可以使用:
- System.out.println(Native2AsciiUtils.ascii2Native(content));
注意了 以上的代码 lz是固定了主页的 所以在截取时直接用了index为8的
把post方法改成get方法 也可以获取到其他人的微博页
然后给出一个打印出获取的所有html内容的做法(试了一些主页可行):
- package jsoupTest;
- import java.io.IOException;
- import java.util.ArrayList;
- import java.util.HashMap;
- import java.util.List;
- import java.util.Map;
- import org.jsoup.Connection.Method;
- import org.jsoup.Connection.Response;
- import org.jsoup.Jsoup;
- public class JsoupTest {
- public static void main(String[] args) throws IOException {
- Map<String, String> map = new HashMap<>();
- //map.put请根据自己的微博cookie得到
- Response res = Jsoup.connect("http://weibo.com/u/别人的主页id")
- .cookies(map).method(Method.GET).execute();
- String s = res.body();
- System.out.println(s);
- String[] ss = s.split("<script>FM.view");
- int i = 0;
- // pl_content_homeFeed
- // pl.content.homeFeed.index
- List<String> list = new ArrayList<>();
- for (String x : ss) {
- // System.out.println(i++ + "======================================");
- // System.out.println(x.substring(0,
- // x.length() > 200 ? 200 : x.length()));
- // System.out.println("===========================================");
- if (x.contains("\"html\":\"")) {
- String value = getHtml(x);
- list.add(value);
- System.out.println(value);
- }
- }
- // content=ss[8].split("\"html\":\"")[1].replaceAll("(\\\\t|\\\\n)",
- // "").replaceAll("\\\\\"", "\"").replaceAll("\\\\/", "/");
- // content=content.substring(0,
- // content.length()<=13?content.length():content.length()-13);
- // System.out.println(Native2AsciiUtils.ascii2Native(content));
- }
- public static String getHtml(String s) {
- String content = s.split("\"html\":\"")[1]
- .replaceAll("(\\\\t|\\\\n|\\\\r)", "").replaceAll("\\\\\"", "\"")
- .replaceAll("\\\\/", "/");
- content = content.substring(0,
- content.length() <= 13 ? content.length()
- : content.length() - 13);
- return Native2AsciiUtils.ascii2Native(content);
- }
- }
抓取的内容应该要适当格式化一下才可以用Jsoup做解析
不过试了下直接做解析也没什么问题(虽然有一些标签错误)
这只是个页面抓取的策略 其他的我不想多写了 大家自己实践一下 前提是你用自己的新浪微博的cookie进行抓取
爬取微博的数据时别人用的是FM.view方法传递html标签那么jsoup怎么解析呢的更多相关文章
- 【网络爬虫】【java】微博爬虫(一):小试牛刀——网易微博爬虫(自定义关键字爬取微博数据)(附软件源码)
一.写在前面 (本专栏分为"java版微博爬虫"和"python版网络爬虫"两个项目,系列里所有文章将基于这两个项目讲解,项目完整源码已经整理到我的Github ...
- 【scrapy_redis】调试后爬取了部分数据,然后重新调试时,直接被去重机制过滤掉无法重头开始爬取
这2天遇到一个问题,之前调试的时候爬取了一些数据,结果第二天重新调试的时候发现爬虫很快结束,而且还没有报错.后来从日志里看到这个: no more duplicates will be shown ( ...
- selenium跳过webdriver检测并爬取天猫商品数据
目录 简介 编写思路 使用教程 演示图片 源代码 @(文章目录) 简介 现在爬取淘宝,天猫商品数据都是需要首先进行登录的.上一节我们已经完成了模拟登录淘宝的步骤,所以在此不详细讲如何模拟登录淘宝.把关 ...
- C#爬取微博文字、图片、视频(不使用Cookie)
前两天在网上偶然看到一个大佬OmegaXYZ写的文章,Python爬取微博文字与图片(不使用Cookie) 于是就心血来潮,顺手撸一个C#版本的. 其实原理也很简单,现在网上大多数版本都需要Cooki ...
- python3爬取微博评论并存为xlsx
python3爬取微博评论并存为xlsx**由于微博电脑端的网页版页面比较复杂,我们可以访问手机端的微博网站,网址为:https://m.weibo.cn/一.访问微博网站,找到热门推荐链接我们打开微 ...
- python爬虫25 | 爬取下来的数据怎么保存? CSV 了解一下
大家好 我是小帅b 是一个练习时长两年半的练习生 喜欢 唱! 跳! rap! 篮球! 敲代码! 装逼! 不好意思 我又走错片场了 接下来的几篇文章 小帅b将告诉你 如何将你爬取到的数据保存下来 有文本 ...
- 利用Python爬取朋友圈数据,爬到你开始怀疑人生
人生最难的事是自我认知,用Python爬取朋友圈数据,让我们重新审视自己,审视我们周围的圈子. 文:朱元禄(@数据分析-jacky) 哲学的两大问题:1.我是谁?2.我们从哪里来? 本文 jacky试 ...
- 【python数据挖掘】爬取豆瓣影评数据
概述: 爬取豆瓣影评数据步骤: 1.获取网页请求 2.解析获取的网页 3.提速数据 4.保存文件 源代码: # 1.导入需要的库 import urllib.request from bs4 impo ...
- 吴裕雄--天生自然python数据清洗与数据可视化:MYSQL、MongoDB数据库连接与查询、爬取天猫连衣裙数据保存到MongoDB
本博文使用的数据库是MySQL和MongoDB数据库.安装MySQL可以参照我的这篇博文:https://www.cnblogs.com/tszr/p/12112777.html 其中操作Mysql使 ...
随机推荐
- SystemC_Basic
1.http://baike.baidu.com/view/1018980.htm 百度百科介绍的很好,举例很清晰. 2.SystemC的三个基本进程:SC_METHOD,SC_THREAD,SC_C ...
- selector 选择器
布局文件中: <ImageView android:id="@+id/image_message" android:layout_width="40dp" ...
- 安卓操作系统版本(Version)与应用程序编程接口等级(Application Programming Interface Level)对照表
Android是一种基于Linux的自由及开放源代码的操作系统,主要使用于移动设备,如智能手机和平板电脑. 使用Android API,可以在Java环境开发App,编译.打包后可在Android系统 ...
- TZOJ 二分图练习
二分图主要是 1.如何建图,谁匹配谁,怎么匹配 2.判断求的是什么:最大匹配=最小点覆盖,最大独立子集=最小路径覆盖=最小边覆盖=图中顶点数-最大匹配 A.2733:棋盘游戏 描述 小希和Gardon ...
- day 05 字典,字典嵌套
字典: 1.列表如果存储大量数据,查询速度相对慢一些 2.列表存储的数据,一般没有什么关联性 针对以上原因,python提供了一个基础数据类型,dict 字典 数据类型的分类 : 容器型数据类型:li ...
- 成为JAVA架构师必看书籍推荐
原创文章 “学习的最好途径就是看书“,这是我自己学习并且小有了一定的积累之后的第一体会.个人认为看书有两点好处: 1.能出版出来的书一定是经过反复的思考.雕琢和审核的,因此从专业性的角度来说,一本好书 ...
- os模块。笔记
os 模块提供了很多允许你的程序与操作系统直接交互的功能 得到当前工作目录,即当前Python脚本工作的目录路径: os.getcwd() 返回指定目录下的所有文件和目录名:os.listdir() ...
- Js 怎么遍历json对象所有key及根据动态key获取值(根据key值获取相应的value值)
Js代码 <script type="text/javascript"> getJson('age'); function getJson(key){ var json ...
- C#读取Excel表中的数据时混合字段部分数据没有
解决同一列中“字符串”和“数字”两种格式同时存在,读取时,不能正确显示“字符串”格式的问题:set xlsconn=CreateObject("ADODB.Connection") ...
- ubuntu关闭服务需要身份验证
service tomcat stop ==== AUTHENTICATING FOR org.freedesktop.systemd1.manage-units === 需要通过认证才能停止“tom ...