花了一周整理的,这是价值10W的32个Python项目!
今天为大家整理了32个Python爬虫项目。
整理的原因是,爬虫入门简单快速,也非常适合新入门的小伙伴培养信心。所有链接指向GitHub,祝大家玩得愉快~
QQSpider
!
QQ空间爬虫,包括日志、说说、个人信息等,一天可抓取 400 万条数据。
https://github.com/LiuXingMing/QQSpider
WechatSogou
https://github.com/Chyroc/WechatSogou
DouBanSpider
https://github.com/lanbing510/DouBanSpider
https://github.com/LiuRoy/zhihu_spider
https://github.com/airingursb/bilibili-user
SinaSpider
https://github.com/LiuXingMing/SinaSpider
distribute_crawler
https://github.com/gnemoug/distribute_crawler
CnkiSpider
中国知网爬虫。设置检索条件后,执行src/CnkiSpider.py抓取数据,抓取数据存储在/data目录下,每个数据文件的第一行为字段名称。
https://github.com/yanzhou/CnkiSpider
LianJiaSpider
链家网爬虫。爬取北京地区链家历年二手房成交记录。涵盖链家爬虫一文的全部代码,包括链家模拟登录代码。
https://github.com/lanbing510/LianJiaSpider
scrapy_jingdong
京东爬虫。基于scrapy的京东网站爬虫,保存格式为csv。
https://github.com/taizilongxu/scrapy_jingdong
QQ-Groups-Spider
QQ 群爬虫。批量抓取 QQ 群信息,包括群名称、群号、群人数、群主、群简介等内容,最终生成 XLS(X) / CSV 结果文件。
https://github.com/caspartse/QQ-Groups-Spider
wooyun_public
乌云爬虫。乌云公开漏洞、知识库爬虫和搜索。全部公开漏洞的列表和每个漏洞的文本内容存在MongoDB中,大概约2G内容;如果整站爬全部文本和图片作为离线查询,大概需要10G空间、2小时(10M电信带宽);爬取全部知识库,总共约500M空间。漏洞搜索使用了Flask作为web server,bootstrap作为前端。
https://github.com/hanc00l/wooyun_public
spider
hao123网站爬虫。以hao123为入口页面,滚动爬取外链,收集网址,并记录网址上的内链和外链数目,记录title等信息,windows7 32位上测试,目前每24个小时,可收集数据为10万左右。
https://github.com/simapple/spider
findtrip
机票爬虫(去哪儿和携程网)。Findtrip是一个基于Scrapy的机票爬虫,目前整合了国内两大机票网站(去哪儿 + 携程)。
https://github.com/fankcoder/findtrip
163spider
基于requests、MySQLdb、torndb的网易客户端内容爬虫。
https://github.com/leyle/163spider
doubanspiders
豆瓣电影、书籍、小组、相册、东西等爬虫集。
https://github.com/fanpei91/doubanspiders
baidu-music-spider
百度mp3全站爬虫,使用redis支持断点续传。
https://github.com/Shu-Ji/baidu-music-spider
tbcrawler
淘宝和天猫的爬虫,可以根据搜索关键词,物品id来抓去页面的信息,数据存储在MongoDB。
https://github.com/pakoo/tbcrawler
stockholm
一个股票数据(沪深)爬虫和选股策略测试框架。根据选定的日期范围抓取所有沪深两市股票的行情数据。支持使用表达式定义选股策略。支持多线程处理。保存数据到JSON文件、CSV文件。
https://github.com/benitoro/stockholm
BaiduyunSpider
百度云盘爬虫。
https://github.com/k1995/BaiduyunSpider
Spider
社交数据爬虫。支持微博,知乎,豆瓣。
https://github.com/Qutan/Spider
proxy pool
Python爬虫代理IP池(proxy pool)。
https://github.com/jhao104/proxy_pool
music-163
爬取网易云音乐所有歌曲的评论。
https://github.com/RitterHou/music-163
jandan_spider
爬取煎蛋妹纸图片。
https://github.com/kulovecc/jandan_spider
CnblogsSpider
Cnblogs列表页爬虫。
https://github.com/jackgitgz/CnblogsSpider
spider_smooc
爬取慕课网视频。
https://github.com/qiyeboy/spider_smooc
CnkiSpider
中国知网爬虫。
https://github.com/yanzhou/CnkiSpider
knowsecSpider2
知道创宇爬虫题目。
https://github.com/littlethunder/knowsecSpider2
aiss-spider
爱丝APP图片爬虫。
https://github.com/x-spiders/aiss-spider
SinaSpider
动态IP解决新浪的反爬虫机制,快速抓取内容。
https://github.com/szcf-weiya/SinaSpider
csdn-spider
爬取CSDN上的博客文章。
https://github.com/Kevinsss/csdn-spider
ProxySpider
爬取西刺上的代理IP,并验证代理可用性。
https://github.com/changetjut/ProxySpider
花了一周整理的,这是价值10W的32个Python项目!的更多相关文章
- 从GitHub中整理出来的15个最受欢迎的Python开源框架,你喜欢哪个
从GitHub中整理出的15个最受欢迎的Python开源框架.这些框架包括事件I/O,OLAP,Web开发,高性能网络通信,测试,爬虫等. Django: Python Web应用开发框架 Djang ...
- 新鲜出炉!花了三天整理的JVM复习知识点,面试突击必备!
此次JVM知识点包含以下几个部分 1.类加载机制 2.jvm运行时数据区 3.java对象内存布局 4.jvm内存模型 5.垃圾回收机制 6.垃圾收集器 7.问题排查 一 类加载机制 主要说的部分是这 ...
- [Boolan-C++学习笔记]第二周整理
1.对于String类型的类(含有指针) 其中的指针成员能够灵活的申请存储空间,但指针操作又带来内存泄漏的风险,变更指针的操作需要尤为谨慎. 要点在于写好BigThree 构造函数 { 完成成员初始化 ...
- [Boolan-C++学习笔记]第一周整理
1.两种典型类 Complex 无指针 String 有指针 编写思路差异较大 2.使用Class声明:Object Based.类与类之间的关系:Object Oriented 3.头文件的布局 # ...
- 【建议收藏】一份阿里大牛花了三天整理出来的XML学习笔记,写的非常详细
1. 什么是XML? XML 指可扩展标记语言(EXtensible Markup Language)XML 是一种标记语言,很类似 HTMLXML 的设计宗旨是传输数据,而非显示数据XML 标签没有 ...
- 花了三天整理,Spring Cloud微服务如何设计异常处理机制?还看不懂算我输
前言 首先说一下为什么发这篇文章,是这样的.之前和粉丝聊天的时候有聊到在采用Spring Cloud进行微服务架构设计时,微服务之间调用时异常处理机制应该如何设计的问题.我们知道在进行微服务架构设计时 ...
- css考核点整理(十二)-能描述下你在项目中都用到了哪些符合逐渐增强和优雅降级的理念的技巧吗
能描述下你在项目中都用到了哪些符合逐渐增强和优雅降级的理念的技巧吗
- 一周中的后两天 笔记(网路基础 Python基础)
网络基础 (统一的协议) 一, 计算机之间通过物理介质(网络设备)连接在一起 二, 计算机之间基于网络协议通信 tcp/ip五层 应用层: 传输层:tcp/udp协议 找到对应的软件 一个 ...
- 课程一(Neural Networks and Deep Learning),第二周(Basics of Neural Network programming)—— 3、Python Basics with numpy (optional)
Python Basics with numpy (optional)Welcome to your first (Optional) programming exercise of the deep ...
随机推荐
- UOJ192 最强跳蚤
题目链接 problem 给出一个n个点带边权的树,问有多少对\((u,v)\)满足\(u\)到\(v\)路径上边权的乘积为完全平方数. \(n\le 10^5,w\le 10^8\) solutio ...
- Unity 公告板 Billboard
创建脚本如下 Billboard.cs using UnityEngine; using System.Collections; public class Billboard : MonoBehavi ...
- centos 安装 memcached
centos 安装 memcached 1. 安装依赖: libeventyum install libevent-devel 2. 获取最新版本wget http://memcached.org/l ...
- 对S7通信的连接的理解以及对比CAN通信协议来理解PLC通讯
对S7通信的连接的理解以及对比CAN通信协议来理解PLC通讯. 对功能块 SFB12 和 SFB13 的R_ID参数的理解 ? 对于同一个数据包.发送方与接收方的R_ID应该相同. 用下图解释 双向连 ...
- 转linux top 命令
top 命令 每天一个linux命令(44):top命令 非常好的一篇博文,这位作者<每天一个linux命令>系列写的非常棒! 关于top的cpu使用率超过100% 在环境中会出现这种现象 ...
- MyISAM与InnoDB 的区别
1. 事务:InnoDB支持,MyISAM不支持,在InnoDB中每一条SQL语句都会默认封装成事务自动提交,然而这样会影响速度,因此最好把多条SQL语句放在begin和commit之间组成一个事务: ...
- QT5安装
Windows+Qt5.3.1+VS2013安装教程 https://blog.csdn.net/two_ye/article/details/96109876 (已成功)windows下,VS201 ...
- 使用conda创建虚拟环境
conda创建python虚拟环境 前言 conda常用的命令: conda list 查看安装了哪些包. conda env list 或 conda info -e 查看当前存在哪些虚拟环境 co ...
- ubuntu18.04下载yarn
下载curl sudo apt-get update && sudo apt-get install curl 配置库 curl -sS https://dl.yarnpkg.com/ ...
- 从零到Django大牛的的进阶之路01
搭建 创建虚拟环境 mkvirtualenv django_py3_1.11 -p python3 安装Django pip install django==1.11.11 创建工程 django-a ...