scrapy爬虫笔记(一)------环境配置
前言:
本系列文章是对爬虫的简单介绍,以及教你如何用简单的方法爬取网站上的内容。
需要阅读者对html语言及python语言有基本的了解。
(本系列文章也是我在学习爬虫过程中的学习笔记,随着学习的深入会不断地更新)
爬虫简介:
网络爬虫是一种自动获取网页内容的程序,是搜索引擎的重要组成部分。
网络爬虫先获取某网站的源代码,通过源码解析(如<a><p>标签等)来获得想要的内容。
环境配置:
ubuntu系统(安装方法请自行百度。由于在ubuntu系统下对以下所需的软件安装及运行比windows中方便很多,故我们选用ubuntu系统)
爬虫可用的软件很多,我们选择在ubuntu系统下使用python进行网页爬取,并将爬取下的内容放入mysql数据库中。
所需软件:
python:ubuntu系统自带,无需安装
pip:python包管理工具(需要下载python内的库进行网页爬取,安装pip方便我们对python中库的下载)
scrapy:Python开发的一个快速,高层次的屏幕抓取和web抓取框架。即从web站点爬取信息,读入到本地。
BeautifulSoup:通过标签解析(如<a>,<p>,id,class等)从html或xml文件中提取数据的python库。
mysql:一种关联数据库管理系统,将数据保存在不同的表中,用来存储数据。
软件安装步骤:
使用Ctrl+Alt+T打开命令行
1.pip安装
sudo
apt-get install python-pip
2.scrapy安装
pip
install scrapy
3.beautifulsoup4安装
pip
install beautifulsoup4
4.安装与mysql相关的python库
(1)
pip
install mysql-connector-python
5.安装mysql
(1)
sudo
apt-get install mysql-server
(2)
sudo
apt-get install mysql-client
*注:1.用pip安装时如出现错误,可能是权限不够,最前面加上sudo命令即可。
2.如安装python相关模块中出现'error:command 'gcc' failed with exit status 1'的错误信息,可通过安装如下库解决:
sudo apt-get install python-dev
3.如安装mysql-connector-python时出现error:
Could not find any downloads that satisfy the requirement mysql-connector-python
Some externally hosted files were ignored
(use --allow-external mysql-connector-python to allow).
输入命令
pip install --allow-external mysql-connector-python mysql-connector-python
环境配置是个挺麻烦的工作,要有耐心哦~不同ubuntu系统版本可能会遇到各种奇葩问题,由于个人水平所限,请自行百度(-.-)
如果环境已经配置好了,那么下面我们可以开始爬取网页了^v^
scrapy爬虫笔记(一)------环境配置的更多相关文章
- Qt5学习笔记(1)-环境配置(win+64bit+VS2013)
Qt5学习笔记(1)-环境配置 工欲善其事必先-不装-所以装软件 久不露面,赶紧打下酱油. 下载 地址:http://download.qt.io/ 这个小网页就可以下载到跟Qt有关的几乎所有大部分东 ...
- Linux搭建Scrapy爬虫集成开发环境
安装Python 下载地址:http://www.python.org/, Python 有 Python 2 和 Python 3 两个版本, 语法有些区别,ubuntu上自带了python2.7. ...
- Scrapy爬虫笔记
Scrapy是一个优秀的Python爬虫框架,可以很方便的爬取web站点的信息供我们分析和挖掘,在这记录下最近使用的一些心得. 1.安装 通过pip或者easy_install安装: 1 sudo p ...
- Android自学笔记:环境配置
Info: 自学Android之旅第二篇,初步学习会有疏漏,以后我会不断修改补全,直到完美. 2014-10-09:初版 2014-11-12: 重新配置了一台电脑,更新在学习robotium过程中, ...
- 【lua学习笔记】——环境配置
1 开发平台 windows7 64位 2 下载链接 http://www.lua.org/download.html 3 安装完成-环境配置 4 运行 WIN+R 运行 cmd 运行lua,显示配 ...
- 学习笔记-ionic3 环境配置搭建到打包
折腾了两周总算理清楚了,参考的链接如下: https://blog.csdn.net/zeternityyt/article/details/79655150 环境配置 https://segmen ...
- windows7 64,32位下scrapy爬虫框架的环境搭建
适用于python 2.7 64位安装 一.操作系统:WIN7 64位 二.python版本:2.7 64位(scrapy目前不支持3.x) 不确定位数的,看图 三.安装相关软件:(可以从我的百度网盘 ...
- 2.1 Python3.5安装以及爬虫需要的环境配置
之所以选用Python,是因为对于网络爬虫来说,Python是最好上手的一种语言.本文讲述的安装配置都是基于Windows的环境. 另外我想说的是,文中用到的下载链接尽量官方网站上的下载链接,这是我比 ...
- Scrapy爬虫框架(1)--安装配置与常用命令
安装与配置 Scrapy有几个安装依赖,一般来说可以直接pip install scrapy,这个过程会自动下载安装其他几个依赖. 上述安装方法不成功,则需要手动安装依赖包 步骤 安装 lxmlpip ...
随机推荐
- 转】C#接口-显式接口和隐式接口的实现
[转]C#接口-显式接口和隐式接口的实现 C#中对于接口的实现方式有隐式接口和显式接口两种: 类和接口都能调用到,事实上这就是“隐式接口实现”. 那么“显示接口实现”是神马模样呢? interface ...
- Codeforces Round #262 (Div. 2) 1004
Codeforces Round #262 (Div. 2) 1004 D. Little Victor and Set time limit per test 1 second memory lim ...
- Spring中的JdbcTemplate使用
1.引出SpringJDBC的概念 在学习JDBC编程时我们会感觉到JDBC的操作是多么繁琐,那么当我们学习的Hibernate框架时,我们感觉到数据库的操作也变非常简单,提高了开发效率.但是当使用H ...
- idea之internal java compiler error
启动错误:Error:java: Compilation failed: internal java compiler error 解决:将圈选地方改为对应的jdk版本即可
- 孙鑫C++教程留下来的作业--如何让工具栏在原来隐藏的位置出现
--加油,不仅仅是口号! BEGIN---------------------------------- 将工具栏进行停靠.当隐藏后再次点击出现的时候它出现在工具栏顶部了,并没有停靠在原来的位置,如何 ...
- Maven assembly 打包
assembly .xml <assembly xmlns="http://maven.apache.org/plugins/maven-assembly-plugin/assembl ...
- POJ 1860(spfa)
http://poj.org/problem?id=1860 题意:汇率转换,与之前的2240有点类似,不同的是那个题它去换钱的时候,是不需要手续费的,这个题是需要手续费的,这是个很大的不同. 思路: ...
- iOS 多线程
一 多线程基础 1.进程:进程就是系统中正在运行的应用程序.每个进程是相互独立的且都运行在各自受保护的运行空间内. 比如同时打开迅雷.Xcode,系统就会分别启动2个进程. 2.线程:进程在执行任务是 ...
- MyBatis的初始化方式
1. 加载配置文件 public static void main(String[] args) throws IOException { //mybatis的配置文件 String resource ...
- .NET LINQ 筛选数据
筛选数据 筛选指将结果集限制为只包含那些满足指定条件的元素的操作. 它又称为选择. 方法 方法名 说明 C# 查询表达式语法 Visual Basic 查询表达式语法 更多信息 OfType ...