爬去知乎百万用户信息之UserTask

本项目github地址：https://github.com/wangqifan/ZhiHu

UserManage是获取用户信息的爬虫模块

public   class UserManage

    {

        private string html;

        private string url_token;

     }

构造函数

用户主页的uRL格式为"https://www.zhihu.com/people/"+url_token+"/following";

 public UserManage(string urltoken)

         {

             url_token = urltoken;

         }

先封装一个获取html页面的方法

 private bool GetHtml()

        {                

            string url="https://www.zhihu.com/people/"+url_token+"/following";

            html = HttpHelp.DownLoadString(url);

            return  !string.IsNullOrEmpty(html);

        }

拿到了html页面，接下来是剥取页面中的JSON，借助HtmlAgilityPack

public  void  analyse()

        {

                if (GetHtml())

                {

                    try

                    {

                        Stopwatch watch = new Stopwatch();

                        watch.Start();

                        HtmlDocument doc = new HtmlAgilityPack.HtmlDocument();

                        doc.LoadHtml(html);

                        HtmlNode node = doc.GetElementbyId("data");

                        StringBuilder stringbuilder =new StringBuilder(node.GetAttributeValue("data-state", ""));

                        stringbuilder.Replace("&quot;", "'");

                        stringbuilder.Replace("&lt;", "<");

                        stringbuilder.Replace("&gt;", ">");

                        watch.Stop();

                       Console.WriteLine("分析Html用了{0}毫秒", watch.ElapsedMilliseconds.ToString());

                    }

                    catch (Exception ex)

                    {

                        Console.WriteLine(ex.ToString());

                    }

                }

            }

添加用户的关注列表的链接

 private void  GetUserFlowerandNext(string json)

        {

                 string foollowed = "https://www.zhihu.com/api/v4/members/" + url_token + "/followers?include=data%5B*%5D.answer_count%2Carticles_count%2Cfollower_count%2Cis_followed%2Cis_following%2Cbadge%5B%3F(type%3Dbest_answerer)%5D.topics&offset=0&limit=20";

                 string following = "https://www.zhihu.com/api/v4/members/" + url_token + "/followees?include=data%5B%2A%5D.answer_count%2Carticles_count%2Cfollower_count%2Cis_followed%2Cis_following%2Cbadge%5B%3F%28type%3Dbest_answerer%29%5D.topics&limit=20&offset=0";

                 RedisCore.PushIntoList(, "nexturl", following);

                 RedisCore.PushIntoList(, "nexturl", foollowed);

        }

对json数据进一步剥取，只要用户的信息，借助JSON解析工具Newtonsoft.Json

private void  GetUserInformation(string json)

        {

                JObject obj = JObject.Parse(json);

                string xpath = "['" + url_token + "']";

                JToken tocken = obj.SelectToken("['entities']").SelectToken("['users']").SelectToken(xpath);

                RedisCore.PushIntoList(, "User", tocken.ToString());

        }

现在来完成下analyse函数

 public  void  analyse()

        {

                if (GetHtml())

                {

                    try

                    {

                        Stopwatch watch = new Stopwatch();

                        watch.Start();

                        HtmlDocument doc = new HtmlAgilityPack.HtmlDocument();

                        doc.LoadHtml(html);

                        HtmlNode node = doc.GetElementbyId("data");

                        StringBuilder stringbuilder =new StringBuilder(node.GetAttributeValue("data-state", ""));

                        stringbuilder.Replace(""", "'");

                        stringbuilder.Replace("<", "<");

                        stringbuilder.Replace(">", ">");

                        GetUserInformation(stringbuilder.ToString());

                        GetUserFlowerandNext(stringbuilder.ToString());

                        watch.Stop();

                        Console.WriteLine("分析Html用了{0}毫秒", watch.ElapsedMilliseconds.ToString());

                    }

                    catch (Exception ex)

                    {

                        Console.WriteLine(ex.ToString());

                    }

                }

            }

        }

UrlTask是从nexturl队列获取用户的关注列表的url，获取关注列表。服务器返回的Json的数据

封装一个对象的序列化和反序列化的类

public   class SerializeHelper

    {

        /// <summary>

        /// 对数据进行序列化

        /// </summary>

        /// <param name="value"></param>

        /// <returns></returns>

        public static string SerializeToString(object value)

        {

            return JsonConvert.SerializeObject(value);

        }

        /// <summary>

        /// 反序列化操作

        /// </summary>

        /// <typeparam name="T"></typeparam>

        /// <param name="str"></param>

        /// <returns></returns>

        public static T DeserializeToObject<T>(string str)

        {

            return JsonConvert.DeserializeObject<T>(str);

        }

}

封装UrlTask类

 public class UrlTask

    {

        private  string url { get; set; }

        private string JSONstring { get; set; }

        public UrlTask(string _url)

        {

            url = _url;

        }

}

添加一个获取资源的方法

 private bool GetHtml()

        {

            JSONstring= HttpHelp.DownLoadString(url);

            Console.WriteLine("Json下载完成");

            return !string.IsNullOrEmpty(JSONstring);

        }
解析json方法

 public  void  Analyse()

        {

            try

            {

                if (GetHtml())

                {

                    Stopwatch watch = new Stopwatch();

                    watch.Start();

                    followerResult result = SerializeHelper.DeserializeToObject<followerResult>(JSONstring);

                     if (!result.paging.is_end)

                     {

                         RedisCore.PushIntoList(1, "nexturl", result.paging.next);

                      }

                    foreach (var item in result.data)

                    {

                         int type=Math.Abs(item.GetHashCode())% 3 + 3;

                         if (RedisCore.InsetIntoHash(type, "urltokenhash", item.url_token, "存在"))

                         {

                             RedisCore.PushIntoList(1, "urltoken", item.url_token);

                         }

                    }

                    watch.Stop();

                    Console.WriteLine("解析json用了{0}毫秒",watch.ElapsedMilliseconds.ToString());

                }

            }

            catch (Exception ex)

            {

                Console.WriteLine(ex.ToString());

            }

   }

解析：如果result.paging.is_end为true，那么这个是用户关注列表的最后一页，那么它的nexturl应该加入队列，负责不要加入，对于后面的用户数组，因为信息不去全，不要了，有了Id前往主页获取详细信息。

模块组合

封装一个一个方法，从队列拿到nextutl，前往用户的关注列表，拿到更多用户ID

  private static void GetNexturl()

        {

            string nexturl = RedisCore.PopFromList(1, "nexturl");

            if (!string.IsNullOrEmpty(nexturl))

            {

                UrlTask task = new UrlTask(nexturl);

                task.Analyse();

            }

        }

封装一个方法，循环从队列获取用户的urltoken（如果队列空了，执行GetNexturl），前往用户主页，获取信息

private static void GetUser(object data)

        {

            while (true)

            {

                string url_token = RedisCore.PopFromList(1, "urltoken");

                Console.WriteLine(url_token);

                if (!string.IsNullOrEmpty(url_token))

                {

                    UserManage manage = new UserManage(url_token);

                    manage.analyse();

                }

                else

                {

                    GetNexturl();

                }

            }

        }

在main函数里面执行这些方法，由于任务量大，采用多线程，线程数视情况而定

for (int i = 0; i < 10; i++)

            {

                ThreadPool.QueueUserWorkItem(GetUser);

            }

添加种子数据，用于刚开始时候队列都是空的，需要添加种子数据

手动添加，在redile-cl.exe敲命令
在main函数中加入

 UserTask task=new UserTask(“某个用户的uRLtoken”);

               task.analyse();

执行一次之后要注释掉，避免重复

爬去知乎百万用户信息之UserTask的更多相关文章

爬取知乎百万信息之UrlTask
这个模块的作用是从nexturl队列获取用户的关注列表的url,获取关注列表.服务器返回的Json的数据封装一个对象的序列化和反序列化的类 public class SerializeHelper ...
web scraper——爬取知乎|微博用户数据模板【三】
前言在这里呢,我就只给模板,不写具体的教程啦,具体的可以参考我之前写的博文. https://www.cnblogs.com/wangyang0210/p/10338574.html 模板进入微博 ...
利用 Scrapy 爬取知乎用户信息
思路:通过获取知乎某个大V的关注列表和被关注列表,查看该大V和其关注用户和被关注用户的详细信息,然后通过层层递归调用,实现获取关注用户和被关注用户的关注列表和被关注列表,最终实现获取大量用户信息. 一 ...
[Python爬虫] Selenium爬取新浪微博客户端用户信息、热点话题及评论 (上)
转载自:http://blog.csdn.net/eastmount/article/details/51231852 一. 文章介绍源码下载地址:http://download.csdn.net/ ...
使用python scrapy爬取知乎提问信息
前文介绍了python的scrapy爬虫框架和登录知乎的方法. 这里介绍如何爬取知乎的问题信息,并保存到mysql数据库中. 首先,看一下我要爬取哪些内容: 如下图所示,我要爬取一个问题的6个信息: ...
Python爬虫从入门到放弃（十八）之 Scrapy爬取所有知乎用户信息(上)
爬取的思路首先我们应该找到一个账号,这个账号被关注的人和关注的人都相对比较多的,就是下图中金字塔顶端的人,然后通过爬取这个账号的信息后,再爬取他关注的人和被关注的人的账号信息,然后爬取被关注人的账号 ...
爬虫（十六）：scrapy爬取知乎用户信息
一:爬取思路首先我们应该找到一个账号,这个账号被关注的人和关注的人都相对比较多的,就是下图中金字塔顶端的人,然后通过爬取这个账号的信息后,再爬取他关注的人和被关注的人的账号信息,然后爬取被关注人的账 ...
Python之爬虫（二十） Scrapy爬取所有知乎用户信息(上)
爬取的思路首先我们应该找到一个账号,这个账号被关注的人和关注的人都相对比较多的,就是下图中金字塔顶端的人,然后通过爬取这个账号的信息后,再爬取他关注的人和被关注的人的账号信息,然后爬取被关注人的账号 ...
基于webmagic的爬虫小应用--爬取知乎用户信息
听到“爬虫”,是不是第一时间想到Python/php ? 多少想玩爬虫的Java学习者就因为语言不通而止步.Java是真的不能做爬虫吗? 当然不是. 只不过python的3行代码能解决的问题,而Jav ...

随机推荐

USB Type-C工作原理解析
自从苹果发布了新MacBook,USB Type-C接口就成为了热议对象.我来从硬件角度解析下这个USB Type-C,以便大家更好的了解USB Type-C的工作原理. 特色尺寸小,支持正反插,速 ...
yii2的安装
yii2也是依赖于composer, 就像laravel, 所以先安装composer, 如果安装不上composer可以看laravel安装的文章. 安装好composer之后安装一个插件 comp ...
VC编程技巧：IE控件的高级用法
一.如何显示内存中的 HTML 网页二.屏蔽 IE 控件的上下文菜单三.扩展 HTML 脚本中的 external 对象四.显示 HTML 样式的对话窗五.执行 HTML 脚本 http:// ...
STM32硬件复位时间
两个参数,,1低电平时间 2低电平压值 1.stm32复位时间 ------ 低电平时间:1.5 至 4.5 ms 2.压值
到底怎么样才叫看书？——Tony Zhao's
到底怎么样才叫看书?——上篇目录: 一.引入二.经历了就能理解三.读书要分级四.只读经典五.别吝惜你动笔的那点时间一.引入看到这个题目的时候你可能会感到有点好笑:“这还用问,看书就是把书 ...
DB2系统管理试题标准答案
1. 如果需要创建一个表,并把表中的索引数据和其他数据分开存储,则应该 A.建立两个SMS表空间分别存储索引数据和其他数据 B.建立两个DMS表空间分别存储索引数据和其他数据 C.建立一个DMS表空间 ...
UVa 221 (STL 离散化) Urban Elevations
题意: 作图为n个建筑物的俯视图,右图为从南向北看的正视图,按从左往右的顺序输出可见建筑物的标号. 分析: 题中已经说了,要么x相同,要么x相差足够大,不会出现精度问题. 给这n个建筑物从左往右排序, ...
Java [Leetcode 41]First Missing Positive
题目描述: Given an unsorted integer array, find the first missing positive integer. For example,Given [1 ...
jQuery基础知识— 获得内容和属性
jQuery拥有可操作HTML元素和属性的方法. 获得内容: text()--设置或返回所选元素的文本内容 html()--设置或返回所选元素的内容(包括HTML标记) val()--设置或返回表 ...
[C#/.NET]Entity Framework(EF) Code First 多对多关系的实体增，删，改，查操作全程详细示例
本文我们来学习一下在Entity Framework中使用Context删除多对多关系的实体是如何来实现的.我们将以一个具体的控制台小实例来了解和学习整个实现Entity Framework 多对多关 ...

爬去知乎百万用户信息之UserTask

爬去知乎百万用户信息之UserTask的更多相关文章

随机推荐

热门专题