今天为大家整理了32个Python爬虫项目。
整理的原因是,爬虫入门简单快速,也非常适合新入门的小伙伴培养信心。所有链接指向GitHub,祝大家玩得愉快~
QQSpider

QQ空间爬虫,包括日志、说说、个人信息等,一天可抓取 400 万条数据。
https://github.com/LiuXingMing/QQSpider
WechatSogou

https://github.com/Chyroc/WechatSogou
DouBanSpider

https://github.com/lanbing510/DouBanSpider

https://github.com/LiuRoy/zhihu_spider

https://github.com/airingursb/bilibili-user
SinaSpider

https://github.com/LiuXingMing/SinaSpider
distribute_crawler

https://github.com/gnemoug/distribute_crawler
CnkiSpider
中国知网爬虫。设置检索条件后,执行src/CnkiSpider.py抓取数据,抓取数据存储在/data目录下,每个数据文件的第一行为字段名称。
https://github.com/yanzhou/CnkiSpider
LianJiaSpider
链家网爬虫。爬取北京地区链家历年二手房成交记录。涵盖链家爬虫一文的全部代码,包括链家模拟登录代码。
https://github.com/lanbing510/LianJiaSpider
scrapy_jingdong
京东爬虫。基于scrapy的京东网站爬虫,保存格式为csv。
https://github.com/taizilongxu/scrapy_jingdong
QQ-Groups-Spider
QQ 群爬虫。批量抓取 QQ 群信息,包括群名称、群号、群人数、群主、群简介等内容,最终生成 XLS(X) / CSV 结果文件。
https://github.com/caspartse/QQ-Groups-Spider
wooyun_public
乌云爬虫。乌云公开漏洞、知识库爬虫和搜索。全部公开漏洞的列表和每个漏洞的文本内容存在MongoDB中,大概约2G内容;如果整站爬全部文本和图片作为离线查询,大概需要10G空间、2小时(10M电信带宽);爬取全部知识库,总共约500M空间。漏洞搜索使用了Flask作为web server,bootstrap作为前端。
https://github.com/hanc00l/wooyun_public
spider
hao123网站爬虫。以hao123为入口页面,滚动爬取外链,收集网址,并记录网址上的内链和外链数目,记录title等信息,windows7 32位上测试,目前每24个小时,可收集数据为10万左右。
https://github.com/simapple/spider
findtrip
机票爬虫(去哪儿和携程网)。Findtrip是一个基于Scrapy的机票爬虫,目前整合了国内两大机票网站(去哪儿 + 携程)。
https://github.com/fankcoder/findtrip
163spider
基于requests、MySQLdb、torndb的网易客户端内容爬虫。
https://github.com/leyle/163spider
doubanspiders
豆瓣电影、书籍、小组、相册、东西等爬虫集。
https://github.com/fanpei91/doubanspiders
baidu-music-spider
百度mp3全站爬虫,使用redis支持断点续传。
https://github.com/Shu-Ji/baidu-music-spider
tbcrawler
淘宝和天猫的爬虫,可以根据搜索关键词,物品id来抓去页面的信息,数据存储在MongoDB。
https://github.com/pakoo/tbcrawler
stockholm
一个股票数据(沪深)爬虫和选股策略测试框架。根据选定的日期范围抓取所有沪深两市股票的行情数据。支持使用表达式定义选股策略。支持多线程处理。保存数据到JSON文件、CSV文件。
https://github.com/benitoro/stockholm
BaiduyunSpider
百度云盘爬虫。
https://github.com/k1995/BaiduyunSpider
Spider
社交数据爬虫。支持微博,知乎,豆瓣。
https://github.com/Qutan/Spider
proxy pool
Python爬虫代理IP池(proxy pool)。
https://github.com/jhao104/proxy_pool
music-163
爬取网易云音乐所有歌曲的评论。
https://github.com/RitterHou/music-163
jandan_spider
爬取煎蛋妹纸图片。
https://github.com/kulovecc/jandan_spider
CnblogsSpider
Cnblogs列表页爬虫。
https://github.com/jackgitgz/CnblogsSpider
spider_smooc
爬取慕课网视频。
https://github.com/qiyeboy/spider_smooc
CnkiSpider
中国知网爬虫。
https://github.com/yanzhou/CnkiSpider
knowsecSpider2
知道创宇爬虫题目。
https://github.com/littlethunder/knowsecSpider2
aiss-spider
爱丝APP图片爬虫。
https://github.com/x-spiders/aiss-spider
SinaSpider
动态IP解决新浪的反爬虫机制,快速抓取内容。
https://github.com/szcf-weiya/SinaSpider
csdn-spider
爬取CSDN上的博客文章。
https://github.com/Kevinsss/csdn-spider
ProxySpider
爬取西刺上的代理IP,并验证代理可用性。
https://github.com/changetjut/ProxySpider

花了一周整理的,这是价值10W的32个Python项目!的更多相关文章

  1. 从GitHub中整理出来的15个最受欢迎的Python开源框架,你喜欢哪个

    从GitHub中整理出的15个最受欢迎的Python开源框架.这些框架包括事件I/O,OLAP,Web开发,高性能网络通信,测试,爬虫等. Django: Python Web应用开发框架 Djang ...

  2. 新鲜出炉!花了三天整理的JVM复习知识点,面试突击必备!

    此次JVM知识点包含以下几个部分 1.类加载机制 2.jvm运行时数据区 3.java对象内存布局 4.jvm内存模型 5.垃圾回收机制 6.垃圾收集器 7.问题排查 一 类加载机制 主要说的部分是这 ...

  3. [Boolan-C++学习笔记]第二周整理

    1.对于String类型的类(含有指针) 其中的指针成员能够灵活的申请存储空间,但指针操作又带来内存泄漏的风险,变更指针的操作需要尤为谨慎. 要点在于写好BigThree 构造函数 { 完成成员初始化 ...

  4. [Boolan-C++学习笔记]第一周整理

    1.两种典型类 Complex 无指针 String 有指针 编写思路差异较大 2.使用Class声明:Object Based.类与类之间的关系:Object Oriented 3.头文件的布局 # ...

  5. 【建议收藏】一份阿里大牛花了三天整理出来的XML学习笔记,写的非常详细

    1. 什么是XML? XML 指可扩展标记语言(EXtensible Markup Language)XML 是一种标记语言,很类似 HTMLXML 的设计宗旨是传输数据,而非显示数据XML 标签没有 ...

  6. 花了三天整理,Spring Cloud微服务如何设计异常处理机制?还看不懂算我输

    前言 首先说一下为什么发这篇文章,是这样的.之前和粉丝聊天的时候有聊到在采用Spring Cloud进行微服务架构设计时,微服务之间调用时异常处理机制应该如何设计的问题.我们知道在进行微服务架构设计时 ...

  7. css考核点整理(十二)-能描述下你在项目中都用到了哪些符合逐渐增强和优雅降级的理念的技巧吗

    能描述下你在项目中都用到了哪些符合逐渐增强和优雅降级的理念的技巧吗

  8. 一周中的后两天 笔记(网路基础 Python基础)

    网络基础 (统一的协议) 一,  计算机之间通过物理介质(网络设备)连接在一起 二,  计算机之间基于网络协议通信   tcp/ip五层   应用层: 传输层:tcp/udp协议 找到对应的软件 一个 ...

  9. 课程一(Neural Networks and Deep Learning),第二周(Basics of Neural Network programming)—— 3、Python Basics with numpy (optional)

    Python Basics with numpy (optional)Welcome to your first (Optional) programming exercise of the deep ...

随机推荐

  1. javac导出参考文档报错 错误: 编码GBK的不可映射字符”

  2. spring mvc 的@PathVariable对应中文乱码解决办法

    参考:https://www.aliyun.com/jiaocheng/800577.html

  3. git使用问题二删除远程仓库文件,本地保留不动

    git rm --cached filename/-r directory git commit "xxxx" git push

  4. SChema中group指示器的使用

    <?xml version="1.0" encoding="UTF-8"?> <!-- edited with XMLSpy v2011 (h ...

  5. 合天rev200.exe

    查过之后无壳,查看一下详细信息 运行一下. 猜测可能是输入两个password...拖到ida里面查看,shfit+f12查看 转到此处然后继续查看,找到第一个password通过 一开始时直接输入的 ...

  6. java执行操作系统脚本

    http://www.cnblogs.com/bencakes/p/6139477.html 以前只是知道Runtime.getRuntime().exec(command);这种用法,但是有时候命令 ...

  7. pyhton中pandas数据分析模块快速入门(非常容易懂)

    //2019.07.16python中pandas模块应用1.pandas是python进行数据分析的数据分析库,它提供了对于大量数据进行分析的函数库和各种方法,它的官网是http://pandas. ...

  8. 接口测试基础----postman、jmeter

    一,什么是接口 接口一般接口分两种: 系统对外接口:与外部系统对接的接口,用来获取或者传递数据给外部系统 系统内部接口:系统模块.方法之间用来获取或者传递数据的接口 二.接口分类 webservice ...

  9. 51nod 1293:球与切换器

    1293 球与切换器 题目来源: Codility 基准时间限制:1 秒 空间限制:131072 KB 分值: 80 难度:5级算法题  收藏  取消关注 有N行M列的正方形盒子.每个盒子有三种状态0 ...

  10. C++面试常见问题——02动态分配内存

    动态分配内存 C++动态内存 C++程序中内存分为两个部分 堆:程序中未使用的内存,在程序运行时可用于动态分配内存. 栈:函数内部申明的所有变量都将占用栈内存. 很多时候不知道一个程序到底需要多少内存 ...