爬去知乎百万用户信息之UserTask
点击我前往Github查看源代码 别忘记star
本项目github地址:https://github.com/wangqifan/ZhiHu
UserManage是获取用户信息的爬虫模块
public class UserManage
{
private string html; private string url_token; }
构造函数
用户主页的uRL格式为"https://www.zhihu.com/people/"+url_token+"/following";
public UserManage(string urltoken)
{
url_token = urltoken;
}
先封装一个获取html页面的方法
private bool GetHtml()
{
string url="https://www.zhihu.com/people/"+url_token+"/following";
html = HttpHelp.DownLoadString(url);
return !string.IsNullOrEmpty(html);
}
拿到了html页面,接下来是剥取页面中的JSON,借助HtmlAgilityPack
public void analyse()
{
if (GetHtml())
{
try
{
Stopwatch watch = new Stopwatch();
watch.Start();
HtmlDocument doc = new HtmlAgilityPack.HtmlDocument();
doc.LoadHtml(html);
HtmlNode node = doc.GetElementbyId("data");
StringBuilder stringbuilder =new StringBuilder(node.GetAttributeValue("data-state", ""));
stringbuilder.Replace(""", "'");
stringbuilder.Replace("<", "<");
stringbuilder.Replace(">", ">"); watch.Stop();
Console.WriteLine("分析Html用了{0}毫秒", watch.ElapsedMilliseconds.ToString()); }
catch (Exception ex)
{
Console.WriteLine(ex.ToString());
}
} }
添加用户的关注列表的链接
private void GetUserFlowerandNext(string json)
{
string foollowed = "https://www.zhihu.com/api/v4/members/" + url_token + "/followers?include=data%5B*%5D.answer_count%2Carticles_count%2Cfollower_count%2Cis_followed%2Cis_following%2Cbadge%5B%3F(type%3Dbest_answerer)%5D.topics&offset=0&limit=20";
string following = "https://www.zhihu.com/api/v4/members/" + url_token + "/followees?include=data%5B%2A%5D.answer_count%2Carticles_count%2Cfollower_count%2Cis_followed%2Cis_following%2Cbadge%5B%3F%28type%3Dbest_answerer%29%5D.topics&limit=20&offset=0";
RedisCore.PushIntoList(, "nexturl", following);
RedisCore.PushIntoList(, "nexturl", foollowed);
}
对json数据进一步剥取,只要用户的信息,借助JSON解析工具Newtonsoft.Json
private void GetUserInformation(string json)
{
JObject obj = JObject.Parse(json);
string xpath = "['" + url_token + "']";
JToken tocken = obj.SelectToken("['entities']").SelectToken("['users']").SelectToken(xpath);
RedisCore.PushIntoList(, "User", tocken.ToString()); }
现在来完成下analyse函数
public void analyse()
{
if (GetHtml())
{
try
{
Stopwatch watch = new Stopwatch();
watch.Start();
HtmlDocument doc = new HtmlAgilityPack.HtmlDocument();
doc.LoadHtml(html);
HtmlNode node = doc.GetElementbyId("data");
StringBuilder stringbuilder =new StringBuilder(node.GetAttributeValue("data-state", ""));
stringbuilder.Replace(""", "'");
stringbuilder.Replace("<", "<");
stringbuilder.Replace(">", ">");
GetUserInformation(stringbuilder.ToString());
GetUserFlowerandNext(stringbuilder.ToString());
watch.Stop();
Console.WriteLine("分析Html用了{0}毫秒", watch.ElapsedMilliseconds.ToString()); }
catch (Exception ex)
{
Console.WriteLine(ex.ToString());
}
} }
}
UrlTask是从nexturl队列获取用户的关注列表的url,获取关注列表。服务器返回的Json的数据
封装一个对象的序列化和反序列化的类
public class SerializeHelper
{
/// <summary>
/// 对数据进行序列化
/// </summary>
/// <param name="value"></param>
/// <returns></returns>
public static string SerializeToString(object value)
{
return JsonConvert.SerializeObject(value);
}
/// <summary>
/// 反序列化操作
/// </summary>
/// <typeparam name="T"></typeparam>
/// <param name="str"></param>
/// <returns></returns>
public static T DeserializeToObject<T>(string str)
{ return JsonConvert.DeserializeObject<T>(str);
}
}
封装UrlTask类
public class UrlTask
{
private string url { get; set; }
private string JSONstring { get; set; }
public UrlTask(string _url)
{
url = _url;
}
}
添加一个获取资源的方法
private bool GetHtml()
{
JSONstring= HttpHelp.DownLoadString(url);
Console.WriteLine("Json下载完成");
return !string.IsNullOrEmpty(JSONstring);
}
解析json方法
public void Analyse()
{
try
{
if (GetHtml())
{
Stopwatch watch = new Stopwatch();
watch.Start(); followerResult result = SerializeHelper.DeserializeToObject<followerResult>(JSONstring);
if (!result.paging.is_end)
{
RedisCore.PushIntoList(1, "nexturl", result.paging.next);
}
foreach (var item in result.data)
{
int type=Math.Abs(item.GetHashCode())% 3 + 3;
if (RedisCore.InsetIntoHash(type, "urltokenhash", item.url_token, "存在"))
{
RedisCore.PushIntoList(1, "urltoken", item.url_token); } }
watch.Stop();
Console.WriteLine("解析json用了{0}毫秒",watch.ElapsedMilliseconds.ToString());
}
}
catch (Exception ex)
{
Console.WriteLine(ex.ToString());
} }
解析:如果result.paging.is_end为true,那么这个是用户关注列表的最后一页,那么它的nexturl应该加入队列,负责不要加入,对于后面的用户数组,因为信息不去全,不要了,有了Id前往主页获取详细信息。
模块组合
封装一个一个方法,从队列拿到nextutl,前往用户的关注列表,拿到更多用户ID
private static void GetNexturl()
{
string nexturl = RedisCore.PopFromList(1, "nexturl");
if (!string.IsNullOrEmpty(nexturl))
{
UrlTask task = new UrlTask(nexturl);
task.Analyse();
}
}
封装一个方法,循环从队列获取用户的urltoken(如果队列空了,执行GetNexturl),前往用户主页,获取信息
private static void GetUser(object data)
{ while (true)
{
string url_token = RedisCore.PopFromList(1, "urltoken");
Console.WriteLine(url_token);
if (!string.IsNullOrEmpty(url_token))
{
UserManage manage = new UserManage(url_token);
manage.analyse();
}
else
{
GetNexturl();
}
} }
在main函数里面执行这些方法,由于任务量大,采用多线程,线程数视情况而定
for (int i = 0; i < 10; i++)
{
ThreadPool.QueueUserWorkItem(GetUser);
}
添加种子数据,用于刚开始时候队列都是空的,需要添加种子数据
- 手动添加,在redile-cl.exe敲命令
- 在main函数中加入
UserTask task=new UserTask(“某个用户的uRLtoken”);
task.analyse();
执行一次之后要注释掉,避免重复
爬去知乎百万用户信息之UserTask的更多相关文章
- 爬取知乎百万信息之UrlTask
这个模块的作用是从nexturl队列获取用户的关注列表的url,获取关注列表.服务器返回的Json的数据 封装一个对象的序列化和反序列化的类 public class SerializeHelper ...
- web scraper——爬取知乎|微博用户数据模板【三】
前言 在这里呢,我就只给模板,不写具体的教程啦,具体的可以参考我之前写的博文. https://www.cnblogs.com/wangyang0210/p/10338574.html 模板 进入微博 ...
- 利用 Scrapy 爬取知乎用户信息
思路:通过获取知乎某个大V的关注列表和被关注列表,查看该大V和其关注用户和被关注用户的详细信息,然后通过层层递归调用,实现获取关注用户和被关注用户的关注列表和被关注列表,最终实现获取大量用户信息. 一 ...
- [Python爬虫] Selenium爬取新浪微博客户端用户信息、热点话题及评论 (上)
转载自:http://blog.csdn.net/eastmount/article/details/51231852 一. 文章介绍 源码下载地址:http://download.csdn.net/ ...
- 使用python scrapy爬取知乎提问信息
前文介绍了python的scrapy爬虫框架和登录知乎的方法. 这里介绍如何爬取知乎的问题信息,并保存到mysql数据库中. 首先,看一下我要爬取哪些内容: 如下图所示,我要爬取一个问题的6个信息: ...
- Python爬虫从入门到放弃(十八)之 Scrapy爬取所有知乎用户信息(上)
爬取的思路 首先我们应该找到一个账号,这个账号被关注的人和关注的人都相对比较多的,就是下图中金字塔顶端的人,然后通过爬取这个账号的信息后,再爬取他关注的人和被关注的人的账号信息,然后爬取被关注人的账号 ...
- 爬虫(十六):scrapy爬取知乎用户信息
一:爬取思路 首先我们应该找到一个账号,这个账号被关注的人和关注的人都相对比较多的,就是下图中金字塔顶端的人,然后通过爬取这个账号的信息后,再爬取他关注的人和被关注的人的账号信息,然后爬取被关注人的账 ...
- Python之爬虫(二十) Scrapy爬取所有知乎用户信息(上)
爬取的思路 首先我们应该找到一个账号,这个账号被关注的人和关注的人都相对比较多的,就是下图中金字塔顶端的人,然后通过爬取这个账号的信息后,再爬取他关注的人和被关注的人的账号信息,然后爬取被关注人的账号 ...
- 基于webmagic的爬虫小应用--爬取知乎用户信息
听到“爬虫”,是不是第一时间想到Python/php ? 多少想玩爬虫的Java学习者就因为语言不通而止步.Java是真的不能做爬虫吗? 当然不是. 只不过python的3行代码能解决的问题,而Jav ...
随机推荐
- USB Type-C工作原理解析
自从苹果发布了新MacBook,USB Type-C接口就成为了热议对象.我来从硬件角度解析下这个USB Type-C,以便大家更好的了解USB Type-C的工作原理. 特色 尺寸小,支持正反插,速 ...
- yii2的安装
yii2也是依赖于composer, 就像laravel, 所以先安装composer, 如果安装不上composer可以看laravel安装的文章. 安装好composer之后安装一个插件 comp ...
- VC编程技巧:IE控件的高级用法
一.如何显示内存中的 HTML 网页 二.屏蔽 IE 控件的上下文菜单 三.扩展 HTML 脚本中的 external 对象 四.显示 HTML 样式的对话窗 五.执行 HTML 脚本 http:// ...
- STM32硬件复位时间
两个参数,,1低电平时间 2低电平压值 1.stm32复位时间 ------ 低电平时间:1.5 至 4.5 ms 2.压值
- 到底怎么样才叫看书?——Tony Zhao's
到底怎么样才叫看书?——上篇 目录: 一.引入 二.经历了就能理解 三.读书要分级 四.只读经典 五.别吝惜你动笔的那点时间 一.引入 看到这个题目的时候你可能会感到有点好笑:“这还用问,看书就是把书 ...
- DB2系统管理试题标准答案
1. 如果需要创建一个表,并把表中的索引数据和其他数据分开存储,则应该 A.建立两个SMS表空间分别存储索引数据和其他数据 B.建立两个DMS表空间分别存储索引数据和其他数据 C.建立一个DMS表空间 ...
- UVa 221 (STL 离散化) Urban Elevations
题意: 作图为n个建筑物的俯视图,右图为从南向北看的正视图,按从左往右的顺序输出可见建筑物的标号. 分析: 题中已经说了,要么x相同,要么x相差足够大,不会出现精度问题. 给这n个建筑物从左往右排序, ...
- Java [Leetcode 41]First Missing Positive
题目描述: Given an unsorted integer array, find the first missing positive integer. For example,Given [1 ...
- jQuery基础知识— 获得内容和属性
jQuery拥有可操作HTML元素和属性的方法. 获得内容: text()--设置或返回所选元素的文本内容 html()--设置或返回所选元素的内容(包括HTML标记) val()--设置或返回表 ...
- [C#/.NET]Entity Framework(EF) Code First 多对多关系的实体增,删,改,查操作全程详细示例
本文我们来学习一下在Entity Framework中使用Context删除多对多关系的实体是如何来实现的.我们将以一个具体的控制台小实例来了解和学习整个实现Entity Framework 多对多关 ...