爬去知乎百万用户信息之UserTask
点击我前往Github查看源代码 别忘记star
本项目github地址:https://github.com/wangqifan/ZhiHu
UserManage是获取用户信息的爬虫模块
public class UserManage
{
private string html; private string url_token; }
构造函数
用户主页的uRL格式为"https://www.zhihu.com/people/"+url_token+"/following";
public UserManage(string urltoken)
{
url_token = urltoken;
}
先封装一个获取html页面的方法
private bool GetHtml()
{
string url="https://www.zhihu.com/people/"+url_token+"/following";
html = HttpHelp.DownLoadString(url);
return !string.IsNullOrEmpty(html);
}
拿到了html页面,接下来是剥取页面中的JSON,借助HtmlAgilityPack
public void analyse()
{
if (GetHtml())
{
try
{
Stopwatch watch = new Stopwatch();
watch.Start();
HtmlDocument doc = new HtmlAgilityPack.HtmlDocument();
doc.LoadHtml(html);
HtmlNode node = doc.GetElementbyId("data");
StringBuilder stringbuilder =new StringBuilder(node.GetAttributeValue("data-state", ""));
stringbuilder.Replace(""", "'");
stringbuilder.Replace("<", "<");
stringbuilder.Replace(">", ">"); watch.Stop();
Console.WriteLine("分析Html用了{0}毫秒", watch.ElapsedMilliseconds.ToString()); }
catch (Exception ex)
{
Console.WriteLine(ex.ToString());
}
} }
添加用户的关注列表的链接
private void GetUserFlowerandNext(string json)
{
string foollowed = "https://www.zhihu.com/api/v4/members/" + url_token + "/followers?include=data%5B*%5D.answer_count%2Carticles_count%2Cfollower_count%2Cis_followed%2Cis_following%2Cbadge%5B%3F(type%3Dbest_answerer)%5D.topics&offset=0&limit=20";
string following = "https://www.zhihu.com/api/v4/members/" + url_token + "/followees?include=data%5B%2A%5D.answer_count%2Carticles_count%2Cfollower_count%2Cis_followed%2Cis_following%2Cbadge%5B%3F%28type%3Dbest_answerer%29%5D.topics&limit=20&offset=0";
RedisCore.PushIntoList(, "nexturl", following);
RedisCore.PushIntoList(, "nexturl", foollowed);
}
对json数据进一步剥取,只要用户的信息,借助JSON解析工具Newtonsoft.Json
private void GetUserInformation(string json)
{
JObject obj = JObject.Parse(json);
string xpath = "['" + url_token + "']";
JToken tocken = obj.SelectToken("['entities']").SelectToken("['users']").SelectToken(xpath);
RedisCore.PushIntoList(, "User", tocken.ToString()); }
现在来完成下analyse函数
public void analyse()
{
if (GetHtml())
{
try
{
Stopwatch watch = new Stopwatch();
watch.Start();
HtmlDocument doc = new HtmlAgilityPack.HtmlDocument();
doc.LoadHtml(html);
HtmlNode node = doc.GetElementbyId("data");
StringBuilder stringbuilder =new StringBuilder(node.GetAttributeValue("data-state", ""));
stringbuilder.Replace(""", "'");
stringbuilder.Replace("<", "<");
stringbuilder.Replace(">", ">");
GetUserInformation(stringbuilder.ToString());
GetUserFlowerandNext(stringbuilder.ToString());
watch.Stop();
Console.WriteLine("分析Html用了{0}毫秒", watch.ElapsedMilliseconds.ToString()); }
catch (Exception ex)
{
Console.WriteLine(ex.ToString());
}
} }
}
UrlTask是从nexturl队列获取用户的关注列表的url,获取关注列表。服务器返回的Json的数据
封装一个对象的序列化和反序列化的类
public class SerializeHelper
{
/// <summary>
/// 对数据进行序列化
/// </summary>
/// <param name="value"></param>
/// <returns></returns>
public static string SerializeToString(object value)
{
return JsonConvert.SerializeObject(value);
}
/// <summary>
/// 反序列化操作
/// </summary>
/// <typeparam name="T"></typeparam>
/// <param name="str"></param>
/// <returns></returns>
public static T DeserializeToObject<T>(string str)
{ return JsonConvert.DeserializeObject<T>(str);
}
}
封装UrlTask类
public class UrlTask
{
private string url { get; set; }
private string JSONstring { get; set; }
public UrlTask(string _url)
{
url = _url;
}
}
添加一个获取资源的方法
private bool GetHtml()
{
JSONstring= HttpHelp.DownLoadString(url);
Console.WriteLine("Json下载完成");
return !string.IsNullOrEmpty(JSONstring);
}
解析json方法
public void Analyse()
{
try
{
if (GetHtml())
{
Stopwatch watch = new Stopwatch();
watch.Start(); followerResult result = SerializeHelper.DeserializeToObject<followerResult>(JSONstring);
if (!result.paging.is_end)
{
RedisCore.PushIntoList(1, "nexturl", result.paging.next);
}
foreach (var item in result.data)
{
int type=Math.Abs(item.GetHashCode())% 3 + 3;
if (RedisCore.InsetIntoHash(type, "urltokenhash", item.url_token, "存在"))
{
RedisCore.PushIntoList(1, "urltoken", item.url_token); } }
watch.Stop();
Console.WriteLine("解析json用了{0}毫秒",watch.ElapsedMilliseconds.ToString());
}
}
catch (Exception ex)
{
Console.WriteLine(ex.ToString());
} }
解析:如果result.paging.is_end为true,那么这个是用户关注列表的最后一页,那么它的nexturl应该加入队列,负责不要加入,对于后面的用户数组,因为信息不去全,不要了,有了Id前往主页获取详细信息。
模块组合
封装一个一个方法,从队列拿到nextutl,前往用户的关注列表,拿到更多用户ID
private static void GetNexturl()
{
string nexturl = RedisCore.PopFromList(1, "nexturl");
if (!string.IsNullOrEmpty(nexturl))
{
UrlTask task = new UrlTask(nexturl);
task.Analyse();
}
}
封装一个方法,循环从队列获取用户的urltoken(如果队列空了,执行GetNexturl),前往用户主页,获取信息
private static void GetUser(object data)
{ while (true)
{
string url_token = RedisCore.PopFromList(1, "urltoken");
Console.WriteLine(url_token);
if (!string.IsNullOrEmpty(url_token))
{
UserManage manage = new UserManage(url_token);
manage.analyse();
}
else
{
GetNexturl();
}
} }
在main函数里面执行这些方法,由于任务量大,采用多线程,线程数视情况而定
for (int i = 0; i < 10; i++)
{
ThreadPool.QueueUserWorkItem(GetUser);
}
添加种子数据,用于刚开始时候队列都是空的,需要添加种子数据
- 手动添加,在redile-cl.exe敲命令
- 在main函数中加入
UserTask task=new UserTask(“某个用户的uRLtoken”);
task.analyse();
执行一次之后要注释掉,避免重复
爬去知乎百万用户信息之UserTask的更多相关文章
- 爬取知乎百万信息之UrlTask
这个模块的作用是从nexturl队列获取用户的关注列表的url,获取关注列表.服务器返回的Json的数据 封装一个对象的序列化和反序列化的类 public class SerializeHelper ...
- web scraper——爬取知乎|微博用户数据模板【三】
前言 在这里呢,我就只给模板,不写具体的教程啦,具体的可以参考我之前写的博文. https://www.cnblogs.com/wangyang0210/p/10338574.html 模板 进入微博 ...
- 利用 Scrapy 爬取知乎用户信息
思路:通过获取知乎某个大V的关注列表和被关注列表,查看该大V和其关注用户和被关注用户的详细信息,然后通过层层递归调用,实现获取关注用户和被关注用户的关注列表和被关注列表,最终实现获取大量用户信息. 一 ...
- [Python爬虫] Selenium爬取新浪微博客户端用户信息、热点话题及评论 (上)
转载自:http://blog.csdn.net/eastmount/article/details/51231852 一. 文章介绍 源码下载地址:http://download.csdn.net/ ...
- 使用python scrapy爬取知乎提问信息
前文介绍了python的scrapy爬虫框架和登录知乎的方法. 这里介绍如何爬取知乎的问题信息,并保存到mysql数据库中. 首先,看一下我要爬取哪些内容: 如下图所示,我要爬取一个问题的6个信息: ...
- Python爬虫从入门到放弃(十八)之 Scrapy爬取所有知乎用户信息(上)
爬取的思路 首先我们应该找到一个账号,这个账号被关注的人和关注的人都相对比较多的,就是下图中金字塔顶端的人,然后通过爬取这个账号的信息后,再爬取他关注的人和被关注的人的账号信息,然后爬取被关注人的账号 ...
- 爬虫(十六):scrapy爬取知乎用户信息
一:爬取思路 首先我们应该找到一个账号,这个账号被关注的人和关注的人都相对比较多的,就是下图中金字塔顶端的人,然后通过爬取这个账号的信息后,再爬取他关注的人和被关注的人的账号信息,然后爬取被关注人的账 ...
- Python之爬虫(二十) Scrapy爬取所有知乎用户信息(上)
爬取的思路 首先我们应该找到一个账号,这个账号被关注的人和关注的人都相对比较多的,就是下图中金字塔顶端的人,然后通过爬取这个账号的信息后,再爬取他关注的人和被关注的人的账号信息,然后爬取被关注人的账号 ...
- 基于webmagic的爬虫小应用--爬取知乎用户信息
听到“爬虫”,是不是第一时间想到Python/php ? 多少想玩爬虫的Java学习者就因为语言不通而止步.Java是真的不能做爬虫吗? 当然不是. 只不过python的3行代码能解决的问题,而Jav ...
随机推荐
- Android:Style和Theme
在Web开发中,Html负责内容,CSS负责表现.同样,在Android开发中,可以使用Theme.Style+UI组件的方式实现内容和形式的分离. Style是针对窗体元素级别的,改变指定控件或者L ...
- java去除重复的字符串和移除不想要的字符串
在java开发中碰到了有些字符串是重复的,如果在进行业务处理要全部遍历太对的数据就会重复,所以在进行业务处理前进行一个去重操作. 这里由于业务需要所以先将字符串转化为string数组,使用split分 ...
- [ffmpeg 扩展第三方库编译系列] 关于libopenjpeg mingw32编译问题
在mingw32如果想编译libopenjpeg 会比较麻烦 会出现undefined reference to `_imp__opj_destroy_cstr_info@4' 等错误 因此编译时候需 ...
- Factorial
Factorial 计算阶乘 In mathematics, the factorial of a non-negative integer n, denoted by n!, is the pro ...
- GCC编译C程序源代码
编译简单的 C 程序 C 语言经典的入门例子是 Hello World,下面是一示例代码: #include <stdio.h> int main(void) { printf ...
- jquery网页倒计时效果,秒杀,限时抢购!
<!doctype html> <html> <head> <meta charset="utf-8"> <title> ...
- jsoi2014前两轮回眸
今天从常州回来了,第二轮考得惨不忍睹 大概来总结一下前两轮: 第一轮是4个小时,3道题,一道网络流,一道环形DP,一道线段树 最后一道题ahoi的原题(传送bzoj1798),非常水的线段树,是个很好 ...
- poj3265
考状态的dp 我的方法可能比较奇怪 设f[i,j]表示第i个月解决j个问题可以最多解决到第几个问题 容易知道,答案(月份)不会超过2n+1: f[i,j]=max(f[i-1,k]+j) 复杂度为O( ...
- 浏览器兼容问题系列---使IE支持CSS3 Media Quary
兼容是一件很让前端攻城师头疼的事情,笔者今天在做一个Demo的时候就碰到了一个问题(大牛就不要拍砖了,谢谢!) 经常做移动互联网前端的攻城师想必对于css3 media quary已经很熟悉了,但是碰 ...
- UVa 247 (传递闭包) Calling Circles
题意: 有n个人m通电话,如果有两个人相互打电话(直接或间接)则在同一个电话圈里.输出所有电话圈的人的名单. 分析: 根据打电话的关系,可以建一个有向图,然后用Warshall算法求传递闭包. 最后输 ...