爬去知乎百万用户信息之UserTask

本项目github地址：https://github.com/wangqifan/ZhiHu

UserManage是获取用户信息的爬虫模块

public   class UserManage

    {

        private string html;

        private string url_token;

     }

构造函数

用户主页的uRL格式为"https://www.zhihu.com/people/"+url_token+"/following";

 public UserManage(string urltoken)

         {

             url_token = urltoken;

         }

先封装一个获取html页面的方法

 private bool GetHtml()

        {                

            string url="https://www.zhihu.com/people/"+url_token+"/following";

            html = HttpHelp.DownLoadString(url);

            return  !string.IsNullOrEmpty(html);

        }

拿到了html页面，接下来是剥取页面中的JSON，借助HtmlAgilityPack

public  void  analyse()

        {

                if (GetHtml())

                {

                    try

                    {

                        Stopwatch watch = new Stopwatch();

                        watch.Start();

                        HtmlDocument doc = new HtmlAgilityPack.HtmlDocument();

                        doc.LoadHtml(html);

                        HtmlNode node = doc.GetElementbyId("data");

                        StringBuilder stringbuilder =new StringBuilder(node.GetAttributeValue("data-state", ""));

                        stringbuilder.Replace("&quot;", "'");

                        stringbuilder.Replace("&lt;", "<");

                        stringbuilder.Replace("&gt;", ">");

                        watch.Stop();

                       Console.WriteLine("分析Html用了{0}毫秒", watch.ElapsedMilliseconds.ToString());

                    }

                    catch (Exception ex)

                    {

                        Console.WriteLine(ex.ToString());

                    }

                }

            }

添加用户的关注列表的链接

 private void  GetUserFlowerandNext(string json)

        {

                 string foollowed = "https://www.zhihu.com/api/v4/members/" + url_token + "/followers?include=data%5B*%5D.answer_count%2Carticles_count%2Cfollower_count%2Cis_followed%2Cis_following%2Cbadge%5B%3F(type%3Dbest_answerer)%5D.topics&offset=0&limit=20";

                 string following = "https://www.zhihu.com/api/v4/members/" + url_token + "/followees?include=data%5B%2A%5D.answer_count%2Carticles_count%2Cfollower_count%2Cis_followed%2Cis_following%2Cbadge%5B%3F%28type%3Dbest_answerer%29%5D.topics&limit=20&offset=0";

                 RedisCore.PushIntoList(, "nexturl", following);

                 RedisCore.PushIntoList(, "nexturl", foollowed);

        }

对json数据进一步剥取，只要用户的信息，借助JSON解析工具Newtonsoft.Json

private void  GetUserInformation(string json)

        {

                JObject obj = JObject.Parse(json);

                string xpath = "['" + url_token + "']";

                JToken tocken = obj.SelectToken("['entities']").SelectToken("['users']").SelectToken(xpath);

                RedisCore.PushIntoList(, "User", tocken.ToString());

        }

现在来完成下analyse函数

 public  void  analyse()

        {

                if (GetHtml())

                {

                    try

                    {

                        Stopwatch watch = new Stopwatch();

                        watch.Start();

                        HtmlDocument doc = new HtmlAgilityPack.HtmlDocument();

                        doc.LoadHtml(html);

                        HtmlNode node = doc.GetElementbyId("data");

                        StringBuilder stringbuilder =new StringBuilder(node.GetAttributeValue("data-state", ""));

                        stringbuilder.Replace(""", "'");

                        stringbuilder.Replace("<", "<");

                        stringbuilder.Replace(">", ">");

                        GetUserInformation(stringbuilder.ToString());

                        GetUserFlowerandNext(stringbuilder.ToString());

                        watch.Stop();

                        Console.WriteLine("分析Html用了{0}毫秒", watch.ElapsedMilliseconds.ToString());

                    }

                    catch (Exception ex)

                    {

                        Console.WriteLine(ex.ToString());

                    }

                }

            }

        }

UrlTask是从nexturl队列获取用户的关注列表的url，获取关注列表。服务器返回的Json的数据

封装一个对象的序列化和反序列化的类

public   class SerializeHelper

    {

        /// <summary>

        /// 对数据进行序列化

        /// </summary>

        /// <param name="value"></param>

        /// <returns></returns>

        public static string SerializeToString(object value)

        {

            return JsonConvert.SerializeObject(value);

        }

        /// <summary>

        /// 反序列化操作

        /// </summary>

        /// <typeparam name="T"></typeparam>

        /// <param name="str"></param>

        /// <returns></returns>

        public static T DeserializeToObject<T>(string str)

        {

            return JsonConvert.DeserializeObject<T>(str);

        }

}

封装UrlTask类

 public class UrlTask

    {

        private  string url { get; set; }

        private string JSONstring { get; set; }

        public UrlTask(string _url)

        {

            url = _url;

        }

}

添加一个获取资源的方法

 private bool GetHtml()

        {

            JSONstring= HttpHelp.DownLoadString(url);

            Console.WriteLine("Json下载完成");

            return !string.IsNullOrEmpty(JSONstring);

        }
解析json方法

 public  void  Analyse()

        {

            try

            {

                if (GetHtml())

                {

                    Stopwatch watch = new Stopwatch();

                    watch.Start();

                    followerResult result = SerializeHelper.DeserializeToObject<followerResult>(JSONstring);

                     if (!result.paging.is_end)

                     {

                         RedisCore.PushIntoList(1, "nexturl", result.paging.next);

                      }

                    foreach (var item in result.data)

                    {

                         int type=Math.Abs(item.GetHashCode())% 3 + 3;

                         if (RedisCore.InsetIntoHash(type, "urltokenhash", item.url_token, "存在"))

                         {

                             RedisCore.PushIntoList(1, "urltoken", item.url_token);

                         }

                    }

                    watch.Stop();

                    Console.WriteLine("解析json用了{0}毫秒",watch.ElapsedMilliseconds.ToString());

                }

            }

            catch (Exception ex)

            {

                Console.WriteLine(ex.ToString());

            }

   }

解析：如果result.paging.is_end为true，那么这个是用户关注列表的最后一页，那么它的nexturl应该加入队列，负责不要加入，对于后面的用户数组，因为信息不去全，不要了，有了Id前往主页获取详细信息。

模块组合

封装一个一个方法，从队列拿到nextutl，前往用户的关注列表，拿到更多用户ID

  private static void GetNexturl()

        {

            string nexturl = RedisCore.PopFromList(1, "nexturl");

            if (!string.IsNullOrEmpty(nexturl))

            {

                UrlTask task = new UrlTask(nexturl);

                task.Analyse();

            }

        }

封装一个方法，循环从队列获取用户的urltoken（如果队列空了，执行GetNexturl），前往用户主页，获取信息

private static void GetUser(object data)

        {

            while (true)

            {

                string url_token = RedisCore.PopFromList(1, "urltoken");

                Console.WriteLine(url_token);

                if (!string.IsNullOrEmpty(url_token))

                {

                    UserManage manage = new UserManage(url_token);

                    manage.analyse();

                }

                else

                {

                    GetNexturl();

                }

            }

        }

在main函数里面执行这些方法，由于任务量大，采用多线程，线程数视情况而定

for (int i = 0; i < 10; i++)

            {

                ThreadPool.QueueUserWorkItem(GetUser);

            }

添加种子数据，用于刚开始时候队列都是空的，需要添加种子数据

手动添加，在redile-cl.exe敲命令
在main函数中加入

 UserTask task=new UserTask(“某个用户的uRLtoken”);

               task.analyse();

执行一次之后要注释掉，避免重复

爬去知乎百万用户信息之UserTask的更多相关文章

爬取知乎百万信息之UrlTask
这个模块的作用是从nexturl队列获取用户的关注列表的url,获取关注列表.服务器返回的Json的数据封装一个对象的序列化和反序列化的类 public class SerializeHelper ...
web scraper——爬取知乎|微博用户数据模板【三】
前言在这里呢,我就只给模板,不写具体的教程啦,具体的可以参考我之前写的博文. https://www.cnblogs.com/wangyang0210/p/10338574.html 模板进入微博 ...
利用 Scrapy 爬取知乎用户信息
思路:通过获取知乎某个大V的关注列表和被关注列表,查看该大V和其关注用户和被关注用户的详细信息,然后通过层层递归调用,实现获取关注用户和被关注用户的关注列表和被关注列表,最终实现获取大量用户信息. 一 ...
[Python爬虫] Selenium爬取新浪微博客户端用户信息、热点话题及评论 (上)
转载自:http://blog.csdn.net/eastmount/article/details/51231852 一. 文章介绍源码下载地址:http://download.csdn.net/ ...
使用python scrapy爬取知乎提问信息
前文介绍了python的scrapy爬虫框架和登录知乎的方法. 这里介绍如何爬取知乎的问题信息,并保存到mysql数据库中. 首先,看一下我要爬取哪些内容: 如下图所示,我要爬取一个问题的6个信息: ...
Python爬虫从入门到放弃（十八）之 Scrapy爬取所有知乎用户信息(上)
爬取的思路首先我们应该找到一个账号,这个账号被关注的人和关注的人都相对比较多的,就是下图中金字塔顶端的人,然后通过爬取这个账号的信息后,再爬取他关注的人和被关注的人的账号信息,然后爬取被关注人的账号 ...
爬虫（十六）：scrapy爬取知乎用户信息
一:爬取思路首先我们应该找到一个账号,这个账号被关注的人和关注的人都相对比较多的,就是下图中金字塔顶端的人,然后通过爬取这个账号的信息后,再爬取他关注的人和被关注的人的账号信息,然后爬取被关注人的账 ...
Python之爬虫（二十） Scrapy爬取所有知乎用户信息(上)
爬取的思路首先我们应该找到一个账号,这个账号被关注的人和关注的人都相对比较多的,就是下图中金字塔顶端的人,然后通过爬取这个账号的信息后,再爬取他关注的人和被关注的人的账号信息,然后爬取被关注人的账号 ...
基于webmagic的爬虫小应用--爬取知乎用户信息
听到“爬虫”,是不是第一时间想到Python/php ? 多少想玩爬虫的Java学习者就因为语言不通而止步.Java是真的不能做爬虫吗? 当然不是. 只不过python的3行代码能解决的问题,而Jav ...

随机推荐

华为荣耀6PLUS 秒杀苹果
华为荣耀6PLUS 秒杀苹果. [ az09 ] 于:2015-02-21 12:36:47 复:4036020 刚入手华为荣耀6PLUS,双4G版,在温哥华使用,效果很好. 首先很漂亮,感觉去掉HO ...
POJ2586——Y2K Accounting Bug
Y2K Accounting Bug Description Accounting for Computer Machinists (ACM) has sufferred from the Y2K ...
Android EditText属性
1.EditText输入的文字为密码形式的设置 (1)通过.xml里设置: 把该EditText设为:android:password="true" // 以”.”形式显示文本 ( ...
23.allegro中钻孔[原创]
1.钻孔: NC Parameters,NC Drill, Dill Legend, NC Route ----------------------- ------ ----- ------- --- ...
Nandflash 驱动移植
前段时间,研究了一下4G的Nandflash驱动.手头上只有飞凌6410BSP自带的Nandflash驱动,该驱动不支持K9GAG08U0D(2G)和K9LBG08U0D(4G)的Nandflash. ...
C++中巧妙的位运算
位运算要多想到与预算和异或运算,并常常将两个数对应位上相同和不同分开处理一.x&(x-1)消除x二进制中最右边的一个1. 这个比较厉害,比如统计某个二.与和异或的巧妙结合的思想与运算可以 ...
bzoj1937
这道题没弄明白初始模型很好想,是用到了最小生成树的性质加入非树边后树上形成的环,非树边一定大于等于任意树边然后考虑树边一定是缩小,非树边一定是增大有di+wi>=dj-wj wi+wj& ...
BZOJ2893: 征服王
题解: 裸的上下界最小流是有问题的.因为在添加了附加源之后求出来的流,因为s,t以及其它点地位都是平等的.如果有一个流经过了s和t,那么总可以认为这个流是从s出发到t的满足题意的流. 既然可能存在s到 ...
data guard折腾记一
终于有空闲的机器腾出来了,生产环境上的一套Oracle环境终于可以鸟枪换炮了,生产环境有Data Guard,为了减少停机时间,而且避免重新构建Data Guard的麻烦(其实也不麻烦,就是浪费时间) ...
Eclipse中出现Select at least one project解决办法
今天遇到个问这个问题的,顺便帮解决了,是在导入工程的时候出现的,这是因为有同名的工程的,进入windows->show view->project explorer 这里找出来删掉再导入工 ...

爬去知乎百万用户信息之UserTask

爬去知乎百万用户信息之UserTask的更多相关文章

随机推荐

热门专题