requests爬取知乎话题和子话题

zhihu.py

# *_*coding:utf-8 *_*

import pymysql

import requests

from lxml import etree

from requests_test.child_topic import GetChildTopic

from requests_test.parent_topic import GetParentTopic

if __name__ == "__main__":

    parent = GetParentTopic()

    res = parent.get_parent_data()

    # child  = GetChildTopic()

    # child.get_child_data(1027,2)

    child = GetChildTopic()

    for i in res:

        print("parent_id:",i)

        child.get_child_data(i,50)

parent_topic.py

# *_*coding:utf-8 *_*

import pymysql

from lxml import etree

import requests

class GetParentTopic(object):

    def __init__(self):

        self.conn = pymysql.connect(host='192.168.33.10', user='root', passwd='root', db='spider', charset='utf8')

        self.cur = self.conn.cursor()

    def get_parent_data(self):

        headers = {

            'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36'

        }

        url = 'https://www.zhihu.com/topics'

        response = requests.get(url, headers=headers)

        res = response.text

        html = etree.HTML(res)

        ul = html.xpath("//ul[@class='zm-topic-cat-main clearfix']/li");

        parent_topic = {}

        for li in ul:

            title = li.xpath('./a/text()')[0];

            topic_id = li.xpath('./@data-id')[0];

            parent_topic[topic_id] = title

            import time

            # 格式化成2016-03-20 11:45:39形式

            now = time.strftime("%Y-%m-%d %H:%M:%S", time.localtime())

            # 插入数据

            sql = "insert ignore   into topic(`title`,`topic_id`,`create_time`) values('{}','{}','{}')".format(title,

                                                                                                         topic_id, now)

            #print(sql)

            reCount = self.cur.execute(sql)

            self.conn.commit()

        self.cur.close()

        self.conn.close()

        return parent_topic

child_topic.py

# *_*coding:utf-8 *_*

import json

import urllib

from time import sleep

import pymysql

from lxml import etree

import requests

class GetChildTopic(object):

    def __init__(self):

        self.conn = pymysql.connect(host='192.168.33.10', user='root', passwd='root', db='spider', charset='utf8')

        self.cur = self.conn.cursor()

    def sql_filter(self,sql, max_length=20):

        dirty_stuff = ["\"", "\\", "/", "*", "'", "=", "-", "#", ";", "<", ">", "+", "%", "$", "(", ")", "%", "@", "!"]

        for stuff in dirty_stuff:

            sql = sql.replace(stuff, "")

        return sql[:max_length]

    def get_child_data(self,parent_id, total_pages):

        int(parent_id)

        for page in range(1, total_pages + 1):

            #sleep(1)

            output = []

            print("now_parent_id",parent_id,"now_page:",page)

            url = "https://www.zhihu.com/node/TopicsPlazzaListV2"

            headers = {

                "User-Agent": "Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36",

            }

            offset = (page - 1) * 20

            data = {'method': 'next', "params": json.dumps({"topic_id": parent_id, "offset": offset, "hash_id": ""})}

            response = requests.post(url, data=data, headers=headers)

            print(url,response,);

            print(data)

            res = response.json()['msg']

            if(len(res) < 0):

                break;

            for item in res:

                html = etree.HTML(item)

                title = html.xpath('//img/@alt')[0]

                img_url = html.xpath('//img/@src')[0]

                topic_url = html.xpath('//a[1]/@href')[0]

                topic_id = topic_url.split('/')[-1]

                topic_url = urllib.parse.urljoin(url, topic_url)

                desc = html.xpath('//p/text()')

                if desc is not None and len(desc) == 1:

                    desc = desc[0]

                else:

                    desc = ''

                title = self.sql_filter(title, 200)

                img_url = self.sql_filter(img_url, 200)

                topic_url = self.sql_filter(topic_url, 200)

                desc = self.sql_filter(desc, 200)

                output.append({'title': title, 'img_url': img_url, "topic_url": topic_url, "desc": desc, "topic_id": topic_id,'parent_id': parent_id})

            print(output)

            self.save_child_topic(output)

    def save_child_topic(self,data):

        for item in data:

            import time

            # 格式化成2016-03-20 11:45:39形式

            now = time.strftime("%Y-%m-%d %H:%M:%S", time.localtime())

            # 插入数据

            sql = "insert  ignore into topic(`title`,`topic_id`,`img_url`,`parent_id`,`desc`,`topic_url`,`level`,`create_time`) values('{}','{}','{}','{}','{}','{}','{}','{}')".format(

                item['title'], item['topic_id'], item['img_url'], item['parent_id'], item['desc'], item['topic_url'], 1,

                now)

            #print(sql)

            reCount = self.cur.execute(sql)

            self.conn.commit()

    def __del__(self):

        self.cur.close()

        self.conn.close()

　　sql

CREATE TABLE `topic` (

  `id` int(11) NOT NULL AUTO_INCREMENT,

  `title` varchar(255) NOT NULL DEFAULT '' COMMENT '标题',

  `topic_id` int(11) NOT NULL,

  `img_url` varchar(255) NOT NULL DEFAULT '' COMMENT '子标题图片',

  `parent_id` int(11) NOT NULL DEFAULT '0',

  `desc` text,

  `create_time` varchar(255) NOT NULL DEFAULT '',

  `topic_url` varchar(255) DEFAULT '' COMMENT '子标题超链接',

  `level` tinyint(4) NOT NULL DEFAULT '0' COMMENT '0父级 ',

  PRIMARY KEY (`id`),

  UNIQUE KEY `uni_top_par` (`topic_id`,`parent_id`),

  KEY `index_parent_id` (`parent_id`),

  KEY `index_topic_id` (`topic_id`)

) ENGINE=InnoDB AUTO_INCREMENT=8379 DEFAULT CHARSET=utf8mb4;

requests爬取知乎话题和子话题的更多相关文章

爬取知乎热榜标题和连接（python，requests，xpath）
用python爬取知乎的热榜,获取标题和链接. 环境和方法:ubantu16.04.python3.requests.xpath 1.用浏览器打开知乎,并登录 2.获取cookie和User—Agen ...
16、爬取知乎大v张佳玮的文章“标题”、“摘要”、“链接”，并存储到本地文件
爬取知乎大v张佳玮的文章“标题”.“摘要”.“链接”,并存储到本地文件 # 爬取知乎大v张佳玮的文章“标题”.“摘要”.“链接”,并存储到本地文件 # URL https://www.zhihu.co ...
教程+资源,python scrapy实战爬取知乎最性感妹子的爆照合集(12G)!
一.出发点: 之前在知乎看到一位大牛(二胖)写的一篇文章:python爬取知乎最受欢迎的妹子(大概题目是这个,具体记不清了),但是这位二胖哥没有给出源码,而我也没用过python,正好顺便学一学,所以 ...
scrapy 爬取知乎问题、答案，并异步写入数据库（mysql）
python版本 python2.7 爬取知乎流程: 一 .分析在访问知乎首页的时候(https://www.zhihu.com),在没有登录的情况下,会进行重定向到(https://www. ...
python 爬取知乎图片
先上完整代码 import requests import time import datetime import os import json import uuid from pyquery im ...
scrapy爬取知乎某个问题下的所有图片
前言: 1.仅仅是想下载图片,别人上传的图片也是没有版权的,下载来可以自己欣赏做手机背景但不商用 2.由于爬虫周期的问题,这个代码写于2019.02.13 1.关于知乎爬虫网上能访问到的理论上都能爬 ...
通过scrapy，从模拟登录开始爬取知乎的问答数据
这篇文章将讲解如何爬取知乎上面的问答数据. 首先,我们需要知道,想要爬取知乎上面的数据,第一步肯定是登录,所以我们先介绍一下模拟登录: 先说一下我的思路: 1.首先我们需要控制登录的入口,重写star ...
使用requests爬取梨视频、bilibili视频、汽车之家，bs4遍历文档树、搜索文档树，css选择器
今日内容概要使用requests爬取梨视频 requests+bs4爬取汽车之家 bs4遍历文档树 bs4搜索文档树 css选择器内容详细 1.使用requests爬取梨视频 # 模拟发送http ...
利用 Scrapy 爬取知乎用户信息
思路:通过获取知乎某个大V的关注列表和被关注列表,查看该大V和其关注用户和被关注用户的详细信息,然后通过层层递归调用,实现获取关注用户和被关注用户的关注列表和被关注列表,最终实现获取大量用户信息. 一 ...

随机推荐

公历转农历的python实现
大杂烩.作为自己的记录,保存. 两个要点: 1.公历转农历用了查表法(第126行) 2.节气用了天文法?(第176行) 运行图 (背景是hao123万年历) 源代码: # lunar.py # 20 ...
VS2013在Windows7 64位上变慢的解决方法
重装了windows7系统,又重装了vs2013,发现在打开vs2013.编译工程及调试的时候,vs2013都会变的比较慢,参考网上资料,这里列出几种可能的解决方法: 1. 打开工具--&g ...
【AHOI2006】基因匹配
题面题解众所周知,最长公共子序列的$dp$是$\text{O}(n^2)$, 但是每一个数字只重复$5$遍,那么我们暴力匹配$25n$个点对那么我们就可以将其变成求最长上升子序列用二分栈或者树 ...
四 Hive整合HBase
安装环境: hbase版本:hbase-1.4.0-bin.tar.gz hive版本: apache-hive-1.2.1-bin.tar 注意请使用高一点的hbase版本,不然就算hive和h ...
Python Machine Learning: Scikit-Learn Tutorial
这是一篇翻译的博客,原文链接在这里.这是我看的为数不多的介绍scikit-learn简介而全面的文章,特别适合入门.我这里把这篇文章翻译一下,英语好的同学可以直接看原文. 大部分喜欢用Python来学 ...
SSIS 容器
容器(Container)是控制流的特殊的任务(Task),它为一个或多个Task提供逻辑组合,可以实现工作流的重复执行和顺序执行,还可以把变量和事件处理程序的作用域缩小到容器中.不能在容器内的Tas ...
从零开始自学 Java Web
目录: 1.Java JDK下载安装及配置 2.eclipse下载与安装并测试 3.eclipse快捷键 4.Tomcat 下载与安装 5.Tomcat部署Web应用 6.Eclipse中配置Tomc ...
JavaWeb项目学习教程(2) 系统数据库设计
最开始本来想写一个管理系统,因为考虑到期末来临,我女朋友就可以看着教程然后学一些东西,然后可以自己慢慢手敲代码.但无奈自己也太懒,两个月过后,我才开始继续写这个博客,而现在我都已经开学了.不过博客还是 ...
Kickstart Round G 2018
第一次打codejam....惨的一比,才A1.5题,感觉自己最近状态渣到姥姥家了,赶紧练练 A 模拟,注意0的问题 #include <iostream> #include <cs ...
TPO-23 C1 Post a student announcement
第 1 段 1.Listen to a conversation between a student and the director of campus activities. 请听一段学生与校园活 ...

requests爬取知乎话题和子话题

requests爬取知乎话题和子话题的更多相关文章

随机推荐

热门专题