前言:

  本系列文章是对爬虫的简单介绍,以及教你如何用简单的方法爬取网站上的内容。

  需要阅读者对html语言及python语言有基本的了解。

  (本系列文章也是我在学习爬虫过程中的学习笔记,随着学习的深入会不断地更新)

爬虫简介:

  网络爬虫是一种自动获取网页内容的程序,是搜索引擎的重要组成部分。

  网络爬虫先获取某网站的源代码,通过源码解析(如<a><p>标签等)来获得想要的内容。

环境配置:

  ubuntu系统(安装方法请自行百度。由于在ubuntu系统下对以下所需的软件安装及运行比windows中方便很多,故我们选用ubuntu系统)

  爬虫可用的软件很多,我们选择在ubuntu系统下使用python进行网页爬取,并将爬取下的内容放入mysql数据库中。

所需软件:

  python:ubuntu系统自带,无需安装

  pip:python包管理工具(需要下载python内的库进行网页爬取,安装pip方便我们对python中库的下载)

  scrapy:Python开发的一个快速,高层次的屏幕抓取和web抓取框架。即从web站点爬取信息,读入到本地。

  BeautifulSoup:通过标签解析(如<a>,<p>,id,class等)从html或xml文件中提取数据的python库。

  mysql:一种关联数据库管理系统,将数据保存在不同的表中,用来存储数据。

软件安装步骤:

  使用Ctrl+Alt+T打开命令行

  1.pip安装
sudo
apt-get install python-pip

  2.scrapy安装
pip
install scrapy

  3.beautifulsoup4安装
pip
install beautifulsoup4

  4.安装与mysql相关的python库

  (1)
pip
install mysql-connector-python

  5.安装mysql

  (1)
sudo
apt-get install mysql-server

  (2)
sudo
apt-get install mysql-client

*注:1.用pip安装时如出现错误,可能是权限不够,最前面加上sudo命令即可。

   2.如安装python相关模块中出现'error:command 'gcc' failed with exit status 1'的错误信息,可通过安装如下库解决:

     sudo apt-get install python-dev

   3.如安装mysql-connector-python时出现error:

  Could not find any downloads that satisfy the requirement mysql-connector-python
  Some externally hosted files were ignored
   (use --allow-external mysql-connector-python to allow). 

   输入命令

     pip install --allow-external mysql-connector-python mysql-connector-python

  环境配置是个挺麻烦的工作,要有耐心哦~不同ubuntu系统版本可能会遇到各种奇葩问题,由于个人水平所限,请自行百度(-.-)

  如果环境已经配置好了,那么下面我们可以开始爬取网页了^v^

scrapy爬虫笔记(一)------环境配置的更多相关文章

  1. Qt5学习笔记(1)-环境配置(win+64bit+VS2013)

    Qt5学习笔记(1)-环境配置 工欲善其事必先-不装-所以装软件 久不露面,赶紧打下酱油. 下载 地址:http://download.qt.io/ 这个小网页就可以下载到跟Qt有关的几乎所有大部分东 ...

  2. Linux搭建Scrapy爬虫集成开发环境

    安装Python 下载地址:http://www.python.org/, Python 有 Python 2 和 Python 3 两个版本, 语法有些区别,ubuntu上自带了python2.7. ...

  3. Scrapy爬虫笔记

    Scrapy是一个优秀的Python爬虫框架,可以很方便的爬取web站点的信息供我们分析和挖掘,在这记录下最近使用的一些心得. 1.安装 通过pip或者easy_install安装: 1 sudo p ...

  4. Android自学笔记:环境配置

    Info: 自学Android之旅第二篇,初步学习会有疏漏,以后我会不断修改补全,直到完美. 2014-10-09:初版 2014-11-12: 重新配置了一台电脑,更新在学习robotium过程中, ...

  5. 【lua学习笔记】——环境配置

    1 开发平台 windows7 64位 2 下载链接 http://www.lua.org/download.html 3 安装完成-环境配置 4  运行 WIN+R 运行 cmd 运行lua,显示配 ...

  6. 学习笔记-ionic3 环境配置搭建到打包

    折腾了两周总算理清楚了,参考的链接如下: https://blog.csdn.net/zeternityyt/article/details/79655150  环境配置 https://segmen ...

  7. windows7 64,32位下scrapy爬虫框架的环境搭建

    适用于python 2.7 64位安装 一.操作系统:WIN7 64位 二.python版本:2.7 64位(scrapy目前不支持3.x) 不确定位数的,看图 三.安装相关软件:(可以从我的百度网盘 ...

  8. 2.1 Python3.5安装以及爬虫需要的环境配置

    之所以选用Python,是因为对于网络爬虫来说,Python是最好上手的一种语言.本文讲述的安装配置都是基于Windows的环境. 另外我想说的是,文中用到的下载链接尽量官方网站上的下载链接,这是我比 ...

  9. Scrapy爬虫框架(1)--安装配置与常用命令

    安装与配置 Scrapy有几个安装依赖,一般来说可以直接pip install scrapy,这个过程会自动下载安装其他几个依赖. 上述安装方法不成功,则需要手动安装依赖包 步骤 安装 lxmlpip ...

随机推荐

  1. css浏览器兼容问题

    https://www.douban.com/group/topic/4629864/

  2. 1·3 对 git 的认识

    我可以诚实的说:这是我第一次听见这个名词 GIT.老师您发的关于git链接我下载了,只是还没看完.所以以下只是片面的理解,在后期我会单独再发一次. 一·GIT的简单介绍 1·Git是一款免费.开源的分 ...

  3. js 制作MD5加密

    主要使用已经写好的JS插件,由于网上有很多,同时自己也可根据原理写出,但为了加快开发速度,我选择了能使用的,写得还不错的js http://pajhome.org.uk/crypt/md5/md5.h ...

  4. 2016年11月27日--面向对象:多态、类库、委托、is和as运算符、泛型集合

    1.虚方法 virtual 重写 override 父类中的方法,在子类中并不适用,那么子类需要自主更改继承的方法或者是属性,那父类中加了virtual关键字的方法才可以被子类重写,子类重写父类的方法 ...

  5. JavaScript方法

    1.hasOwnProperty:是用来判断一个对象是否有你给出名称的属性或对象.不过需要注意的是,此方法无法检查该对象的原型链中是否具有该属性,该属性必须是对象本身的一个成员.isPrototype ...

  6. Angular2 模板语法

    1. 说明 Angular2的模板用来显示组件外观,作为视图所用,用法和html语法基本一致,最简单的Angular2的模板就是一段html代码.Angular模板语法主要包括以下几个部分: l 直接 ...

  7. resin 安装配置

    resin (下载免费版 4) 前提:已经安装了Java运行环境,resin的安装需要jdk的支持   一.安装 1.cd /usr/local/src wget http://www.caucho. ...

  8. PHP 格中方法

    1.__tostring()能够直接输出对象 class Ren { public $name; function Run() { echo "跑"; } function __t ...

  9. 使用eclipse+fiddler+微信web开发者工具调试本地微信页面

    前面已经说了调试服务器上的微信页面,放链接:http://www.cnblogs.com/Gabriel-Wei/p/5977850.html 还有fiddler调试链接:http://www.cnb ...

  10. R平方

    参考其他网页 通常R2越大越好,但看到亦在后面标上P值,这两者之间有何联系? R2和p值没有必然联系.就像你做线性分析和(单因素或多因素)方差分析一样,若A和K线性相关,也有可能A对K么有显著性影响一 ...