学python几个月了正好练练手,发现问题不断提高,先从专题入手,爬取些数据,一开始对简书网站结构不熟悉,抓取推荐,热门,城市3个导航栏,交流发现推荐和热门是排序不同,url会重复,以及每个专题详情页三个类目最新评论,最新收录, 热门也会重复 做了下调整,代码执行完毕会返回所有专题的urls元组对象,以便下一步进入每个专题页面解析获取其他数据。注:变量focus关注数,和打开专题后最上面显示的专题关注人数会有差异,例如有的专题关注了10175人,在专题列表页会显示成"10.07k",因此在下一次获取详情页的时候回取到具体数值

多进程获取简书专题数据并写入MySQL数据库

  • 抓取热门和城市页面http://www.jianshu.com/recommendations/collections分类下的所有专题url,专题名字,收录文章数,关注数
  • 定义多个函数获取
    • 获取城市和热门两个分类异步加载的url函数
    • 解析url函数
    • 抓取数据 返回data对象
    • 获取数据存入数据库
    • 多进程

建表

#MySQL数据库建表
CREATE TABLE catetable(
cate_name VARCHAR(255),
cate_url VARCHAR(255),
total_num INT(19),
focus INT(19),
KEY cate_name(cate_name),
KEY cate_url(cate_url)
)ENGINE=INNODB DEFAULT CHARSET=utf8

python代码

#coding:utf-8
import sys
reload(sys)
sys.setdefaultencoding('utf-8')
import requests
from lxml import etree
import MySQLdb
from multiprocessing import Pool '''
获取所有所有专题所在页的url列表下一步提取每个专题的url
分析:http://www.jianshu.com/recommendations/collections页面为异步加载,查看热门和城市导航栏请求构造url列表
'''
def get_cateurls():
urls=[]
for i in range(1, 3):
cityurl='http://www.jianshu.com/recommendations/collections?page=%s&order_by=city' % i
urls.append(cityurl)
for j in range(1,40):
hoturl='http://www.jianshu.com/recommendations/collections?page=%s&order_by=hot'% j
urls.append(hoturl)
return urls ''' 解析页面 '''
def get_response(url):
html=requests.get(url).content
selector=etree.HTML(html)
return selector ''' 获取专题数据 得到专题名称 专题url 收录文章数 关注人数 通过zip函数转置数据返回data对象'''
def get_catedata(url):
selector=get_response(url)
cate_url= map(lambda x: 'http://www.jianshu.com'+x, selector.xpath('//div[@id="list-container"]//div[contains(@class,"count")]/a/@href'))
cate_name=selector.xpath('//div/h4/a/text()')
total_num=map(lambda x: int(x.strip("篇文章").strip()),selector.xpath('//div[@id="list-container"]//div[contains(@class,"count")]/a/text()'))
focus1=selector.xpath('//div[@id="list-container"]//div[contains(@class,"count")]/text()')
focus=[]
for i in focus1:
focus_num=i.split("·")[1].rstrip("人关注")
if "K" in focus_num:
focus_num=int(float(focus_num[:-1])*1000)
else:
focus_num=int(focus_num)
#print i,focus_num
focus.append(focus_num)
data=zip(cate_name,cate_url,total_num,focus)
return data ''' 写入数据库'''
def insert_into_Mysql(url):
try:
conn=MySQLdb.connect(host='127.0.0.1',user='root',passwd='你的密码',db='local_db',port=3306,charset='utf8')
with conn:
cursor = conn.cursor()
print u'正在加载 %s 页面' % url
data=get_catedata(url)
for i in data:
#print i[0], i[1], i[2],i[3]
cursor.execute("INSERT INTO catetable (cate_name,cate_url,total_num,focus) values(%s,%s,%s,%s)", (i[0], i[1], i[2],i[3]))
conn.commit()
sql='select * from catetable'
count = cursor.execute(sql)
print u'总共输入了%s条数据' % count
except MySQLdb.Error,e:
print e ''' 从数据库获取所有的专题url便于以后专题页面数据的进一步获取'''
def get_allcate_urls_from_mysql():
try:
conn = MySQLdb.connect(host='127.0.0.1', user='root', passwd='你的密码', db='local_db', port=3306, charset='utf8')
with conn:
cursor = conn.cursor()
sql = 'select cate_url from catetable'
count = cursor.execute(sql)
print u'共输入了%s条数据' % count
print u'正在获取专题url'
all_cate_urls=cursor.fetchall()
return all_cate_urls
except MySQLdb.Error, e:
print url,e ''' 多进程执行'''
def get_allcate_urls():
urls=get_cateurls()
pool = Pool(processes=4)
pool.map(insert_into_Mysql,urls)
allcate_urls=get_allcate_urls_from_mysql()
return allcate_urls ''' 先获取到所有专题的数据 下次获取每个专题的数据'''
if __name__ == '__main__':
allcate_urls=get_allcate_urls()

  

查看数据表数据

执行完查询到一共有914个专题,其中城市专题34个,880个热门专题

Python 2.7_多进程获取简书专题数据(一)的更多相关文章

  1. python分别使用多线程和多进程获取所有股票实时数据

    python分别使用多线程和多进程获取所有股票实时数据   前一天简单介绍了python怎样获取历史数据和实时分笔数据,那么如果要获取所有上市公司的实时分笔数据,应该怎么做呢? 肯定有人想的是,用一个 ...

  2. jsoup爬虫简书首页数据做个小Demo

    代码地址如下:http://www.demodashi.com/demo/11643.html 昨天LZ去面试,遇到一个大牛,被血虐一番,发现自己基础还是很薄弱,对java一些原理掌握的还是不够稳固, ...

  3. python插入记录后获取最后一条数据的id

    python插入记录后取得主键id的方法(cursor.lastrowid和conn.insert_id()) 参考:https://blog.csdn.net/qq_37788558/article ...

  4. python xlrd 模块(获取Excel表中数据)

    python xlrd 模块(获取Excel表中数据) 一.安装xlrd模块   到python官网下载http://pypi.python.org/pypi/xlrd模块安装,前提是已经安装了pyt ...

  5. [Selenium2+python2.7][Scrap]爬虫和selenium方式下拉滚动条获取简书作者目录并且生成Markdown格式目录

    预计阅读时间: 15分钟 环境: win7 + Selenium2.53.6+python2.7 +Firefox 45.2  (具体配置参考 http://www.cnblogs.com/yoyok ...

  6. 简书全站爬取 mysql异步保存

    # 简书网 # 数据保存在mysql中; 将selenium+chromedriver集成到scrapy; 整个网站数据爬取 # 抓取ajax数据 #爬虫文件 # -*- coding: utf-8 ...

  7. Python 2.7_发送简书关注的专题作者最新一篇文章及连接到邮件_20161218

    最近看简书文章关注了几个专题作者,写的文章都不错,对爬虫和数据分析都写的挺好,因此想到能不能获取最新的文章推送到Ipad网易邮箱大师.邮件发送代码封装成一个函数,从廖雪峰大神那里学的  http:// ...

  8. Python爬取简书主页信息

    主要学习如何通过抓包工具分析简书的Ajax加载,有时间再写一个Multithread proxy spider提升效率. 1. 关键点: 使用单线程爬取,未登录,爬取简书主页Ajax加载的内容.主要有 ...

  9. python2.7 爬取简书30日热门专题文章之简单分析_20170207

    昨天在简书上写了用Scrapy抓取简书30日热门文章,对scrapy是刚接触,跨页面抓取以及在pipelines里调用settings,连接mysql等还不是很熟悉,今天依旧以单独的py文件区去抓取数 ...

随机推荐

  1. Redis慢查询,redis-cli,redis-benchmark,info

    一.慢查询: 1.慢查询的作用:通过慢查询分析,找到有问题的命令进行优化. 2.慢查询的redis的配置参数: slowlog-log-slower-than 慢查询预设阈值(单位是微秒1秒=1000 ...

  2. Loadrunder脚本篇——web_custom_request做接口测试

    一.POST + JSON格式参数 例: web_custom_request("create", "URL=http://xxx.xxx.x.xx:1600/ditui ...

  3. Java访问网络url,获取网页的html代码

    在Java中,Java.net包里面的类是进行网络编程的,其中,java.net.URL类和java.net.URLConection类是编程者方便地利用URL在Internet上进行网络通信.有两种 ...

  4. springboot获取URL请求参数的几种方法

    原文地址:http://www.cnblogs.com/xiaoxi/p/5695783.html 1.直接把表单的参数写在Controller相应的方法的形参中,适用于get方式提交,不适用于pos ...

  5. Linux基本命令 网络命令

    概述 网络和监控命令类似于这些: hostname, ping, ifconfig, iwconfig, netstat, nslookup, traceroute, finger, telnet, ...

  6. uCOS-II的学习笔记(共九期)和例子(共六个)

    源:uCOS-II的学习笔记(共九期)和例子(共六个) 第一篇 :学习UCOS前的准备工作http://blog.sina.com.cn/s/blog_98ee3a930100w0eu.html 第二 ...

  7. Shell编程之case条件

    一.case条件语句 1.语法 case "变量" in 值 1) 指令 1... ;; 值 2) 指令 2... ;; *) 指令 3... esac case条件语句的执行流程 ...

  8. Windows定时任务没有执行

    最近部署网站首页静态化程序,需要定时执行的,由于部署在Windows上,为了方便直接用Windows计划任务做定时了.跑了一段时间发现.首页的静态html文件日期一直是老的,手动执行程序会更新,怀疑任 ...

  9. 20165101刘天野 2017-2018-2 《Java程序设计》第3周学习总结

    20165101刘天野 2017-2018-2 <Java程序设计>第3周学习总结 编程语言的几个发展阶段 类 构造方法与对象的创建 类与程序的基本结构 参数传值 对象的组合 实例成员与类 ...

  10. uboot无法引导uImage错误及其解决方法

    先编译友善提供的linux内核: make ARCH=arm mini2440_defconfigmake CROSS_COMPILE=arm-linux- uImage 在arch/arm/boot ...