python爬虫入门(1)-开发环境配置

所谓的爬虫，就是通过模拟点击浏览器发送网络请求，接收站点请求响应，获取互联网信息的一组自动化程序。也就是,只要浏览器(客户端)能做的事情，爬虫都能够做。
现在的互联网大数据时代，给予我们的是生活的便利以及海量数据爆炸式的出现在网络中。除了网页，还有各种手机APP，例如微信、微博、抖音，一天产生高达亿计的状态更新信息，百度任意一个词条，也可以得到无数相关信息，但是我们得到了海量的信息，但是大多数都是无效的垃圾信息，在海量的信息中，要筛选来得到有用的信息，手动筛选不仅效率慢，还费时；但利用爬虫和数据库，不仅可以保存相关特定的数据，还可以通过特定的程序来筛选出有用的信息。
可以用来爬虫的语言有很多，常见的有PHP,JAVA,C#,C++,Python等，由于Python有足够相关的库，用python做爬虫相对比较简单，且功能比较齐全。
下面就先了解一下基于python爬虫基本配置：
1、由于一直是用基于anaconda平台的python，继续使用，具体安装可以参考python入门基础(1)—安装
2、为了方便大家安装，特意汇总了一下可能需要安装python相关库，直接在Anaconda prompt中粘贴以下代码，即可自动安装，直至安装完成。

pip3 install urllib3 -i https://mirrors.aliyun.com/pypi/simple/

pip3 install requests -i https://mirrors.aliyun.com/pypi/simple/

pip3 install selenium -i https://mirrors.aliyun.com/pypi/simple/

pip3 install chromedriver -i https://mirrors.aliyun.com/pypi/simple/

pip3 install phantomjs -i https://mirrors.aliyun.com/pypi/simple/

pip3 install lxml -i https://mirrors.aliyun.com/pypi/simple/

pip3 install beautifulsoup4 -i https://mirrors.aliyun.com/pypi/simple/

pip3 install pyquery -i https://mirrors.aliyun.com/pypi/simple/

pip3 install pymysql -i https://mirrors.aliyun.com/pypi/simple/

pip3 install pymongo -i https://mirrors.aliyun.com/pypi/simple/

pip3 install redis -i https://mirrors.aliyun.com/pypi/simple/

pip3 install flask -i https://mirrors.aliyun.com/pypi/simple/

pip3 install django -i https://mirrors.aliyun.com/pypi/simple/

pip3 install jupyter -i https://mirrors.aliyun.com/pypi/simple/

pip3 install splash -i https://mirrors.aliyun.com/pypi/simple/

pip3 install docker -i https://mirrors.aliyun.com/pypi/simple/

pip3 install scapy -i https://mirrors.aliyun.com/pypi/simple/

pip3 install spyder -i https://mirrors.aliyun.com/pypi/simple/

pip3 install matplotlib -i https://mirrors.aliyun.com/pypi/simple/

pip3 install pandas -i https://mirrors.aliyun.com/pypi/simple/

pip3 install scikit-learn -i https://mirrors.aliyun.com/pypi/simple/

pip3 install GeckoDriver -i https://mirrors.aliyun.com/pypi/simple/

pip3 install PhantomJS -i https://mirrors.aliyun.com/pypi/simple/

pip3 install aiohttp -i https://mirrors.aliyun.com/pypi/simple/

pip3 install tesserocr -i https://mirrors.aliyun.com/pypi/simple/

pip3 install RedisDump -i https://mirrors.aliyun.com/pypi/simple/

pip3 install Tornado -i https://mirrors.aliyun.com/pypi/simple/

pip3 install Charles -i https://mirrors.aliyun.com/pypi/simple/

pip3 install mitmproxy -i https://mirrors.aliyun.com/pypi/simple/

pip3 install mitmdump -i https://mirrors.aliyun.com/pypi/simple/

pip3 install Appium -i https://mirrors.aliyun.com/pypi/simple/

pip3 install pyspider -i https://mirrors.aliyun.com/pypi/simple/

pip3 install Scrapy-Splash -i https://mirrors.aliyun.com/pypi/simple/

pip3 install Scrapy-Redis -i https://mirrors.aliyun.com/pypi/simple/

pip3 install Docker -i https://mirrors.aliyun.com/pypi/simple/

pip3 install Scrapyd -i https://mirrors.aliyun.com/pypi/simple/

pip3 install Scrapyd-Client -i https://mirrors.aliyun.com/pypi/simple/

pip3 install Scrapyd API -i https://mirrors.aliyun.com/pypi/simple/

pip3 install Scrapydrt -i https://mirrors.aliyun.com/pypi/simple/

pip3 install Gerapy -i https://mirrors.aliyun.com/pypi/simple/

pip3 install pygame -i https://mirrors.aliyun.com/pypi/simple/

pip3 install nbconvert -i https://mirrors.aliyun.com/pypi/simple/

至于每个库是具体是做什么用的，大致可以分为以下几类：

1）请求库：requests 、Selenium、ChromeDriver、GeckoDriver、phantomJS、aiohttp，主要是用来实现http请求操作。

2）解析库：lxml、BeautifulSoup、pyquery、tesserocr，抓取网页代码后，需要从网页中提取有用信息，解析库就提供了非常强劲的解析方法，可以高效、便捷从网页代码中提取有用的信息。

3）数据库：Mysql、MongoDB、redis，数据库作为数据存储的重要部分，也是爬虫中必不可少的一部分，主要用来存储提取到的有用信息。具体安装，自行百度一下。

4）存储库：PyMySQL，PyMongo、redis-py、redisDump，你可以将这几个当成是python程序与数据库mysql/mongodb/redis等接口，数据库用来提供存储服务，保存数据，而存储库是用来在两者之间进行交互的。

5）web库：flask、tornado库，主要是用web库程序来搭建一些API接口，供我们的爬虫使用。

6）app库：Charles、mitmproxy、mitmdump、Appium，手机APP数据量也非常大，爬虫也可以抓取APP的数据，因此可以用一些抓包技术来抓取数据。

7）爬虫框架：pyspider、Scrapy、Scrapy-Splash、Scrapy-redis等，框架可以简化代码，架构清晰，只需要关心爬取逻辑。

8）部署相关库：Docker、Scrapyd、Scrapyd-Client、Scrapyd API 、Scrapydrt、Gerapy。

如果想要大规模抓取数据，就会用到分布式爬虫。对于分布式当使用分布式爬虫，需要多台主机，每台主机有多个爬虫任务，但源代码其实只有一份。
将一份代码同时部署到多台主机上，进行协同运行。Scrapy有一个扩展组件，叫作 Scrapyd，只需要安装该扩展组件，即可远程管理Scrapy 任务，
包括部署源码、启动任务、监听任务等。另外，还有 Scrapyd-Client 和 Scrapyd API来帮助我们更方便地完成部署和监听操作。
另外一种部署方式，那就是 Docker 集群部署。只需要将爬虫制作为 Docker 镜像，只要主机安装了Docker，就可以直接运行爬虫，而无需再去担心环境配置、版本问题。

后面我们再分别针对上述几个部分分别作详细介绍。

翻译

搜索

复制

python爬虫入门(1)-开发环境配置的更多相关文章

扩展Python模块系列(一)----开发环境配置
本系列将介绍如何用C/C++扩展Python模块,使用C语言编写Python模块,添加到Python中作为一个built-in模块.Python与C之间的交互目前有几种方案: 1. 原生的Python ...
Golang入门及开发环境配置
Go语言诞生背景计算机硬件更新频繁,主流编程语言无法发挥多核多CPU的性能软件系统复杂度不断变高,缺乏简洁高效的编程语言 C/C++运行速度快,但编译速度慢 Go语言特点静态类型开发语言静态: ...
Python在Windows下开发环境配置汇总
最近比较关注学习Python方面的资料和课程,由于Python本身基本都是在Linux下开发,本人windows用习惯了初用Linux各种别扭啊. 下面将我在配置Windows环境下的禁言写出来,与大 ...
Django的基本开发环境配置和MTV模型
一.MTV模型 Django的MTV分别代表: Model(模型):负责业务对象与数据库的对象(ORM) Template(模版):负责如何把页面展示给用户 View(视图):负责业务逻辑,并在适当的 ...
python爬虫入门-开发环境与小例子
python爬虫入门开发环境 ubuntu 16.04 sublime pycharm requests库 requests库安装: sudo pip install requests 第一个例子 ...
【OpenCV入门教程之一】安装OpenCV：OpenCV 3.0 +VS 2013 开发环境配置
图片太多,具体过程参照: [OpenCV入门教程之一] 安装OpenCV:OpenCV 3.0.OpenCV 2.4.8.OpenCV 2.4.9 +VS 开发环境配置说下我这边的设置: 选择deb ...
Kinect for Windows SDK开发入门(一)：开发环境配置
[译]Kinect for Windows SDK开发入门(一):开发环境配置前几天无意中看到微软发布了Kinect for windows sensor,进去看了一下Kinect应用的例子,发现K ...
【OpenCV入门教程之一】安装OpenCV：OpenCV 3.0、OpenCV 2.4.8、OpenCV 2.4.9 +VS 开发环境配置
本系列文章由@浅墨_毛星云出品,转载请注明出处. 文章链接:http://blog.csdn.net/poem_qianmo/article/details/19809337 作者:毛星云(浅墨 ...
Linux—CentOS7下python开发环境配置
CentOS7下python开发环境配置上一篇博客讲了如何在Centos7下安装python3(https://www.cnblogs.com/zivli/p/9937608.html),这一次配置 ...
python 开发环境配置
上篇文章配置了虚机基础环境,本篇文章介绍配置python开发环境配置YUM源使用国内yum源 mv /etc/yum.repos.d/CentOS-Base.repo /etc/yum.repos ...

随机推荐

大批量插入数据（sql insert）
1.批量录入(方法一:mybiats foreach标签) 所述的MySQL和Oracle的批量插入区别可以看出可能有兼容性问题(使用Oracle 的同学重点参考下) 而且jdbc链接Url要加上 a ...
Unity的IPreprocessBuild：深入解析与实用案例
Unity IPreprocessBuild Unity IPreprocessBuild是Unity引擎中的一个非常有用的功能,它可以让开发者在构建项目时自动执行一些操作.这个功能可以帮助开发者提高 ...
前端关于table的设置
表格超长度后加... table{ table-layout:fixed; } td{ overflow:hidden; text-overflow:ellipsis; white-space:now ...
AcWing 4486. 数字操作题解
题目描述给定一个整数 \(n\),你可以对该数进行任意次(可以是 \(0\) 次)变换操作. 每次操作为以下两种之一: 将整数 \(n\) 乘以任意一个正整数 \(x\). 将整数 \(n\) 替换 ...
Federated Learning002
联邦学习笔记--002 2022.11.26周六今天学习了联邦学习中又一篇很经典的论文--Federated Machine Learning: Concept and Applications(联 ...
【EF Core】主从实体关系与常见实体关系的区别
上次老周扯了有关主.从实体的话题,本篇咱们再挖一下,主.从实体之间建立的关系,跟咱们常用的一对一.一对多这些关系之间有什么不同. 先看看咱们从学习数据库开始就特熟悉的常用关系--多对多.一对一.一对多 ...
防缓存穿透利器-布隆滤器(BloomFilter)
布隆过滤器 1.布隆过滤器原理 1.1 什么是布隆过滤器 1.2 使用场景 1.3 原理 1.4 布隆过滤器的优缺点 2.实现方式 2.1 初始化skuId的布隆过滤器 2.1.1 RedisCons ...
Redis的设计与实现(2)-链表
链表在 Redis 中的应用非常广泛, 比如列表键的底层实现之一就是链表: 当一个列表键包含了数量比较多的元素, 又或者列表中包含的元素都是比较长的字符串时, Redis 就会使用链表作为列表键的底层 ...
quarkus实战之六：配置
欢迎访问我的GitHub 这里分类和汇总了欣宸的全部原创(含配套源码):https://github.com/zq2599/blog_demos 本篇概览本文是<quarkus实战>系列 ...
可实现自动驾驶的飞机大战（C++）
PS:觉得可以的uu帮忙点个star啦,最近在找工作,希望star多一点能写到简历上 B站演示视频: 基于C++实现的可自动驾驶的飞机大战_单机游戏热门视频 (bilibili.com) Github ...

python爬虫入门(1)-开发环境配置

python爬虫入门(1)-开发环境配置的更多相关文章

随机推荐

热门专题