GitHub 上有哪些优秀的 Python 爬虫项目?

大型爬虫项目:

Photon

一个高速的爬虫程序。最大的特点是它不是像普通爬虫那样只爬取结构和静态资源,Photon被偏向设计为信息收集爬虫,它有非常灵活的规则设置和利于阅读的导出结果。

Photon提供的各种选项可以让用户按照自己的方式抓取网页。

它最厉害的地方在于数据提取

默认情况下,Photon在抓取时会提取以下数据:

网址(范围内和范围外的)

带参数的网址(http://example.com/gallery.php?id=2

情报(电子邮件,社交媒体帐户,亚马逊水桶等)

文件(pdf,png,xml等)

JavaScript等文件

基于自定义正则表达式模式的字符串

提取的信息按下图方式保存。

PySpide

一个国人编写的强大的网络爬虫系统并带有强大的WebUI。采用Python语言编写,分布式架构,支持多种数据库后端,强大的WebUI支持脚本编辑器,任务监视器,项目管理器以及结果查看器。

它可以实现:

  • python 脚本控制,可以用任何你喜欢的html解析包(内置 pyquery)
  • WEB 界面编写调试脚本,起停脚本,监控执行状态,查看活动历史,获取结果产出
  • 数据存储支持MySQL, MongoDB, Redis, SQLite, Elasticsearch; PostgreSQL 及 SQLAlchemy
  • 队列服务支持RabbitMQ, Beanstalk, Redis 和 Kombu
  • 支持抓取 JavaScript 的页面
  • 组件可替换,支持单机/分布式部署,支持 Docker 部署
  • 强大的调度控制,支持超时重爬及优先级设置
  • 支持python2&3

实用型爬虫项目:

financical.py

财务报表下载小助手。

动态示意图:

video_downloader

爱奇艺等主流视频网站的VIP视频破解助手(暂只支持PC和手机在线观看VIP视频!)

感谢Python3二维码生成器作者:https://github.com/sylnsfar/qrcode

无需Python3环境,在Windows下,解压即用!

BSGS_Rent

爬取并分析北上广深链家网租房房源全部数据,得出租金分布,租房考虑因素等建议(北上广深租房图鉴)

主要的文件有:

  • house_data_crawler.py:爬取北上广深租房房源数据的代码(带说明和注释,需要安装mongodb)
  • info.py:租房类型和各城市各区域的信息,供house_data_crawler.py调用
  • 北上广深租房图鉴.ipynb:Jupyter notebook代码,对北上广深租房数据进行分析
  • data_sample.csv:租房数据,这里只随机选择了12000条,每城市3000条

12306

用Python抢火车票简单代码,有爬虫基础就很好操作。

webspider

本系统是一个主要使用python3, celery和requests来爬取职位数据的爬虫,实现了定时任务,出错重试,日志记录,自动更改Cookies等的功能,并使用ECharts + Bootstrap 来构建前端页面,来展示爬取到的数据。

downloader.py

一个可以用于下载图片、视频、文件的小工具,有下载进度显示功能。稍加修改即可添加到自己的爬虫中。

biqukan.py

《笔趣看》盗版小说网站,爬取小说工具

webspider

本系统是一个主要使用python3, celery和requests来爬取职位数据的爬虫,实现了定时任务,出错重试,日志记录,自动更改Cookies等的功能,并使用ECharts + Bootstrap 来构建前端页面,来展示爬取到的数据。

geetest

爬虫最大的敌人之一是什么?没错,验证码!Geetest作为提供验证码服务的行家,市场占有率还是蛮高的。

动态示意图:

Nyspider

各种爬虫---大众点评,安居客,58,人人贷,拍拍贷, IT桔子,拉勾网,豆瓣,搜房网,ASO100,气象数据,猫眼电影,链家,PM25.in...

spider

以hao123为入口页面,滚动爬取外链,收集网址,并记录网址上的内链和外链数目,记录title等信息。windows7 32位上测试,目前每24个小时,可收集数据为10万左右

CVPR2019

2019计算机视觉顶会CVPR全部论文PDF论文爬虫

bdwenku-spider

百度文库word文章爬取,学生党超实用!支持txt,word,pdf,ppt类型资源的下载

其它有趣的Python爬虫小项目:

LiveStream

爬取了西瓜直播(今日头条旗下APP)各类型游戏的主播直播数据107.5万条,并分析直播平台和游戏主播行业是否真如我们想象般的暴利。适合Python爬虫学习者、Python数据分析学习者、Pandas使用者、数据可视化学习者

Zhihu -Spider

知乎关系网爬虫

LaborDay

按全国各个城市抓取飞猪“景点门票”栏的景点门票销售数据,并且分析五一哪些景点会人挤人,哪些景点值得一去。同样适合Python爬虫学习者、Python数据分析学习者、Pandas使用者、数据可视化学习者学习。

KrisWu

随机抓取吴亦凡发表《大碗宽面》微博的微博转发数据10万条,并分析该条微博的真假转发比例,以及大家对于这首歌的情感倾向如何

ESL

爬取了外籍人员招聘网站JobLEADChina上的外籍英语老师招聘数据945条,万行教师人才网上的英语老师招聘数据5780条,以及微信群成员信息498条,分析外教教师的招聘状况。洋外教的工资学历情况一目了然。

Wechat_article_collector

一个微信公众号文章采集器,用于采集微信公众号文章并保存至word文档。

项目很简单,主要包括以下文件:

  • article_collector.py:主文件,用于爬取公众号文章以及把文章储存为word文档;
  • add_hyperlinks.py:用于在word文档中添加超链接
  • gzh.txt:待爬取的公众号列表
  • 比心.JPG:用来撒狗粮的,不用管

one_hour_spider

一小时入门Python3网络爬虫。

内容有包括:

网络小说下载(静态网站)-biqukan

优美壁纸下载(动态网站)-unsplash

爱奇艺VIP视频下载

PUBG-juediqiusheng-data_analysis

项目主要分析绝地求生72万场比赛的数据,并结合数据给出吃鸡攻略,用数据吃鸡!

主要的文件为:

  • 20G 绝地求生比赛数据集分析.ipynb:Jupyter Notebook格式,代码和说明都在这里
  • erangel.jpg:绝地海岛艾伦格地图
  • miramar.jpg:热情沙漠米拉玛地图

Weibo_Comment_Pics

这个项目主要是模拟登录微博手机网页端,爬取指定微博下面的评论数据,并且下载评论中的表情包图片

主要的文件为:

photo_crawler.py:代码(带说明和注释)

cookie.txt:爬取电脑端网页时的cookie,具有时效性,需要自行更新

XSStrike

XSStrike是一个Cross Site Scripting检测套件,配备四个手写解析器,一个智能有效载荷生成器,是一个强大的模糊引擎和一个非常快速的爬虫。

GitHub 上有哪些优秀的 Python 爬虫项目?的更多相关文章

  1. GitHub最著名的20个Python机器学习项目

    GitHub最著名的20个Python机器学习项目 我们分析了GitHub上的前20名Python机器学习项目,发现scikit-Learn,PyLearn2和NuPic是贡献最积极的项目.让我们一起 ...

  2. 程序员的快速开发框架:Github上 10 大优秀的开源后台控制面板

    程序员的快速开发框架:Github上 10 大优秀的开源后台控制面板 Web 开发中几乎的平台都需要一个后台管理,但是从零开发一套后台控制面板并不容易,幸运的是有很多开源免费的后台控制面板可以给开发者 ...

  3. 32个Python爬虫项目让你一次吃到撑

    整理了32个Python爬虫项目.整理的原因是,爬虫入门简单快速,也非常适合新入门的小伙伴培养信心.所有链接指向GitHub,祝大家玩的愉快~O(∩_∩)O WechatSogou [1]- 微信公众 ...

  4. GitHub上最受欢迎的iOS开源项目TOP20

    AFNetworking 在众多iOS开源项目中,AFNetworking可以称得上是最受开发者欢迎的库项目.AFNetworking是一个轻量级的iOS.Mac OS X网络通信类库,现在是GitH ...

  5. 强烈推荐 GitHub 上值得前端学习的开源实战项目

    强烈推荐 GitHub 上值得前端学习的开源实战项目. Vue.js vue-element-admin 是一个后台前端解决方案,它基于和 element-ui 实现 基于 iView 的 Vue 2 ...

  6. 40个GitHub上最受欢迎的iOS开源项目

    40个GitHub上最受欢迎的iOS开源项目(一) http://www.weste.net/2013/8-1/92975.html 40个GitHub上最受欢迎的iOS开源项目(二) http:// ...

  7. GitHub上最受欢迎的Android开源项目TOP20

    以下这些开源项目都是从GitHub上筛选的,我强烈推荐android程序源代码有时间的时候自己在上面淘淘,或许能发现自己须要的开源程序. 了解开源项目有两个优点: 1.借鉴代码,一般来说.火爆的开源项 ...

  8. GitHub上有很多不错的iOS开源项目

    GitHub上有很多不错的iOS开源项目,个人认为不错的,有这么几个:1. ReactiveCocoa:ReactiveCocoa/ReactiveCocoa · GitHub:GitHub自家的函数 ...

  9. 推荐大家在GitHub 上值得关注学习的 iOS 开源项目

    GitHub上有很多不错的iOS开源项目,和大家特别推荐以下几个项目: 1. ReactiveCocoa GitHub链接:ReactiveCocoa/ReactiveCocoa GitHub自家的函 ...

随机推荐

  1. sqli-labs(38)

    0X01 ?id=' and 1=1%23 正确 ?id=1' and 1=2%23 错误 存在注入 0x1 堆叠注入讲解 (1)前言 国内有的称为堆查询注入,也有称之为堆叠注入.个人认为称之为堆叠注 ...

  2. springboot 项目中在普通类中调用dao层的mapper 出现空指针异常

    项目中我遇到同样的问题 特记载一下 有两种方式 一. 该类使用@Component注解 添加一个本类类型的静态字段 创建一个初始化方法,贴上@PostConstruct 标签,用于注入bean 创建方 ...

  3. 套接字之msghdr结构

    用户端在使用sendmsg/recvmsg发送或者接收数据时,会使用msghdr来构造消息,其对应的内核结构为user_msghdr:其中msg_iov向量指向了多个数据区,msg_iovlen标识了 ...

  4. python利器之切片

     切片 切片的语法表达式为:[start_index : end_index : step],其中: start_index表示起始索引 end_index表示结束索引 step表示步长,步长不能为0 ...

  5. 浏览器端-W3School-HTML:HTML DOM Object 对象

    ylbtech-浏览器端-W3School-HTML:HTML DOM Object 对象 1.返回顶部 1. HTML DOM Object 对象 Object 对象 Object 对象代表 HTM ...

  6. javascript - 事件详解(阻止事件冒泡+阻止事件行为)

    一.事件流 1.事件流 描述的是在页面中接受事件的顺序 2.事件冒泡 由最具体的元素接收,然后逐级向上传播至最不具体的元素的节点 (最具体 –> 最不具体) 3.事件捕获 最不具体的节点先接收事 ...

  7. 创建的项目如果没有src/main/resources文件夹,如何解决?

    这是刚创建的一个maven项目,由此可以看见,项目并没有存放配置文件的src/main/resources文件夹? 解决方案: (1)选中项目,右键单击,如图所示选择:Build Path --> ...

  8. 阶段3 2.Spring_07.银行转账案例_1 今日课程内容介绍

    1.完善我们的account案例 2.分析案例中问题 3.回顾之前讲过的一个技术:动态代理 4.动态代理另一种实现方式 5.解决案例中的问题 6.AOP的概念 7.spring中的AOP相关术语 8. ...

  9. 52N皇后II

    题目:给定一个整数 n,返回 n 皇后不同的解决方案的数量. 来源:https://leetcode-cn.com/problems/n-queens-ii/ 法一: 自己的代码  时间超过百分之90 ...

  10. Linux下获取安装包

    https://blog.csdn.net/xiaofeng3011/article/details/82797614 # cat /etc/yum.conf [main]cachedir=/var/ ...