花了一周整理的,这是价值10W的32个Python项目!
今天为大家整理了32个Python爬虫项目。
整理的原因是,爬虫入门简单快速,也非常适合新入门的小伙伴培养信心。所有链接指向GitHub,祝大家玩得愉快~
QQSpider
!
QQ空间爬虫,包括日志、说说、个人信息等,一天可抓取 400 万条数据。
https://github.com/LiuXingMing/QQSpider
WechatSogou
https://github.com/Chyroc/WechatSogou
DouBanSpider
https://github.com/lanbing510/DouBanSpider
https://github.com/LiuRoy/zhihu_spider
https://github.com/airingursb/bilibili-user
SinaSpider
https://github.com/LiuXingMing/SinaSpider
distribute_crawler
https://github.com/gnemoug/distribute_crawler
CnkiSpider
中国知网爬虫。设置检索条件后,执行src/CnkiSpider.py抓取数据,抓取数据存储在/data目录下,每个数据文件的第一行为字段名称。
https://github.com/yanzhou/CnkiSpider
LianJiaSpider
链家网爬虫。爬取北京地区链家历年二手房成交记录。涵盖链家爬虫一文的全部代码,包括链家模拟登录代码。
https://github.com/lanbing510/LianJiaSpider
scrapy_jingdong
京东爬虫。基于scrapy的京东网站爬虫,保存格式为csv。
https://github.com/taizilongxu/scrapy_jingdong
QQ-Groups-Spider
QQ 群爬虫。批量抓取 QQ 群信息,包括群名称、群号、群人数、群主、群简介等内容,最终生成 XLS(X) / CSV 结果文件。
https://github.com/caspartse/QQ-Groups-Spider
wooyun_public
乌云爬虫。乌云公开漏洞、知识库爬虫和搜索。全部公开漏洞的列表和每个漏洞的文本内容存在MongoDB中,大概约2G内容;如果整站爬全部文本和图片作为离线查询,大概需要10G空间、2小时(10M电信带宽);爬取全部知识库,总共约500M空间。漏洞搜索使用了Flask作为web server,bootstrap作为前端。
https://github.com/hanc00l/wooyun_public
spider
hao123网站爬虫。以hao123为入口页面,滚动爬取外链,收集网址,并记录网址上的内链和外链数目,记录title等信息,windows7 32位上测试,目前每24个小时,可收集数据为10万左右。
https://github.com/simapple/spider
findtrip
机票爬虫(去哪儿和携程网)。Findtrip是一个基于Scrapy的机票爬虫,目前整合了国内两大机票网站(去哪儿 + 携程)。
https://github.com/fankcoder/findtrip
163spider
基于requests、MySQLdb、torndb的网易客户端内容爬虫。
https://github.com/leyle/163spider
doubanspiders
豆瓣电影、书籍、小组、相册、东西等爬虫集。
https://github.com/fanpei91/doubanspiders
baidu-music-spider
百度mp3全站爬虫,使用redis支持断点续传。
https://github.com/Shu-Ji/baidu-music-spider
tbcrawler
淘宝和天猫的爬虫,可以根据搜索关键词,物品id来抓去页面的信息,数据存储在MongoDB。
https://github.com/pakoo/tbcrawler
stockholm
一个股票数据(沪深)爬虫和选股策略测试框架。根据选定的日期范围抓取所有沪深两市股票的行情数据。支持使用表达式定义选股策略。支持多线程处理。保存数据到JSON文件、CSV文件。
https://github.com/benitoro/stockholm
BaiduyunSpider
百度云盘爬虫。
https://github.com/k1995/BaiduyunSpider
Spider
社交数据爬虫。支持微博,知乎,豆瓣。
https://github.com/Qutan/Spider
proxy pool
Python爬虫代理IP池(proxy pool)。
https://github.com/jhao104/proxy_pool
music-163
爬取网易云音乐所有歌曲的评论。
https://github.com/RitterHou/music-163
jandan_spider
爬取煎蛋妹纸图片。
https://github.com/kulovecc/jandan_spider
CnblogsSpider
Cnblogs列表页爬虫。
https://github.com/jackgitgz/CnblogsSpider
spider_smooc
爬取慕课网视频。
https://github.com/qiyeboy/spider_smooc
CnkiSpider
中国知网爬虫。
https://github.com/yanzhou/CnkiSpider
knowsecSpider2
知道创宇爬虫题目。
https://github.com/littlethunder/knowsecSpider2
aiss-spider
爱丝APP图片爬虫。
https://github.com/x-spiders/aiss-spider
SinaSpider
动态IP解决新浪的反爬虫机制,快速抓取内容。
https://github.com/szcf-weiya/SinaSpider
csdn-spider
爬取CSDN上的博客文章。
https://github.com/Kevinsss/csdn-spider
ProxySpider
爬取西刺上的代理IP,并验证代理可用性。
https://github.com/changetjut/ProxySpider
花了一周整理的,这是价值10W的32个Python项目!的更多相关文章
- 从GitHub中整理出来的15个最受欢迎的Python开源框架,你喜欢哪个
从GitHub中整理出的15个最受欢迎的Python开源框架.这些框架包括事件I/O,OLAP,Web开发,高性能网络通信,测试,爬虫等. Django: Python Web应用开发框架 Djang ...
- 新鲜出炉!花了三天整理的JVM复习知识点,面试突击必备!
此次JVM知识点包含以下几个部分 1.类加载机制 2.jvm运行时数据区 3.java对象内存布局 4.jvm内存模型 5.垃圾回收机制 6.垃圾收集器 7.问题排查 一 类加载机制 主要说的部分是这 ...
- [Boolan-C++学习笔记]第二周整理
1.对于String类型的类(含有指针) 其中的指针成员能够灵活的申请存储空间,但指针操作又带来内存泄漏的风险,变更指针的操作需要尤为谨慎. 要点在于写好BigThree 构造函数 { 完成成员初始化 ...
- [Boolan-C++学习笔记]第一周整理
1.两种典型类 Complex 无指针 String 有指针 编写思路差异较大 2.使用Class声明:Object Based.类与类之间的关系:Object Oriented 3.头文件的布局 # ...
- 【建议收藏】一份阿里大牛花了三天整理出来的XML学习笔记,写的非常详细
1. 什么是XML? XML 指可扩展标记语言(EXtensible Markup Language)XML 是一种标记语言,很类似 HTMLXML 的设计宗旨是传输数据,而非显示数据XML 标签没有 ...
- 花了三天整理,Spring Cloud微服务如何设计异常处理机制?还看不懂算我输
前言 首先说一下为什么发这篇文章,是这样的.之前和粉丝聊天的时候有聊到在采用Spring Cloud进行微服务架构设计时,微服务之间调用时异常处理机制应该如何设计的问题.我们知道在进行微服务架构设计时 ...
- css考核点整理(十二)-能描述下你在项目中都用到了哪些符合逐渐增强和优雅降级的理念的技巧吗
能描述下你在项目中都用到了哪些符合逐渐增强和优雅降级的理念的技巧吗
- 一周中的后两天 笔记(网路基础 Python基础)
网络基础 (统一的协议) 一, 计算机之间通过物理介质(网络设备)连接在一起 二, 计算机之间基于网络协议通信 tcp/ip五层 应用层: 传输层:tcp/udp协议 找到对应的软件 一个 ...
- 课程一(Neural Networks and Deep Learning),第二周(Basics of Neural Network programming)—— 3、Python Basics with numpy (optional)
Python Basics with numpy (optional)Welcome to your first (Optional) programming exercise of the deep ...
随机推荐
- 前端学习笔记系列一:13new Date()的参数
前两天发现手机页面的倒计时在Android上正常显示,在iPhone却不能显示. 后来又发现在ff和ie里也不显示.(以前只在chrome里看过,显示正常). 后来同事改了new Date()里字符串 ...
- 必应壁纸php获取接口
<?php if($_GET['idx']==null){ $str=file_get_contents('http://cn.bing.com/HPImageArchive.aspx?idx= ...
- JAVA虚拟机:对象的创建
在虚拟机中,当遇到需要new一个对象时,虚拟机首先会去处于方法区的常量池中查找new指令的参数,即查找此类的符号引用是否已存在,并且检查此符号引用的代表类是否已经做过加载.解析和初始化,如果做过则不会 ...
- Window Server 2019 配置篇(8)- 利用MDT定制自动加入域的脚本
我们要更改我们的镜像文件,使得自动安装完成后,计算机已经自动在域中 删除在WDS-server上做的自动部署,我们在上面安装一下MDT和ADK文件,这两个文件如果需要的话可以评论,我会在随后上传 之后 ...
- firewalld学习--维护命令
启动 systemctl start firewalld 停止 systemctl stop firewalld 重启 systemctl restart firewalld 查询状态 systemc ...
- 第2节 网站点击流项目(下):6、访客visit分析
0: jdbc:hive2://node03:10000> select * from ods_click_stream_visit limit 2;+--------------------- ...
- MapReduce会自动忽略文件夹下的.开头的文件
MapReduce会自动忽略文件夹下的.开头的文件,跳过这些文件的处理.
- web.xml文件中context-param的作用
转 <context-param>的作用:web.xml的配置中<context-param>配置作用1. 启动一个WEB项目的时候,容器(如:Tomcat)会去读它的配置文件 ...
- python反序列化漏洞
原理在网页源码中如果出现将用户输入数据进行反序列化当成参数输出时,出现漏洞,可造成任意命令执行例如网页源码try: become = self.get_argument('become') ...
- Unity 打开其他exe文件
using UnityEngine; using System.Collections; using System.Diagnostics;///// public class FeiYuZhu : ...