爬虫基础

urllib,urllib2,re都是python自带的模块

urllib,urllib2区别是urllib2可以接受一个Request类的实例来设置url请求的headers,即可以模拟浏览器访问url

而urllib仅可以技术url,不可以伪装user-agent字符串等,urllib提供的urlencode方法用来get查询字符串的产生,所以要搭配使用,但urllib2使用的更广泛

re是正则表达式模块,用来分析网站信息

(.*?)是常用的匹配模式,匹配出了换行符以外的字符,是非贪婪模式,读取最少的匹配信息

在编译模式中是用re.S可以让(.*?)匹配任意字符,包括换行符。

一个简单的例子

  1. import urllib2,re
  2.  
  3. def getPage(url):
  4.  
  5.   try:
  6.  
  7.     request = urllib2.Request(url, headers=headers)
  8.  
  9.     response = urllib2.urlopen(request, data, timeout)
  10.  
  11.     page = response.read()
  12.  
  13.   except Exception, e:
  14.  
  15.     print e
  16.  
  17.   return page

headers,data,timeout可以根据需要来填写

下载图片urllib.urlretrieve(url, "name.jpg")

try:

except Exception, e:

  print e

捕获所有异常并打印异常信息

基础教程http://cuiqingcai.com/1052.html

由于re模块不美观,后面学习了BeautifulSoup的使用

安装BeautifulSoup

pip install BeautifulSoup4

相关用法https://cuiqingcai.com/1319.html

基本实例

  1. from bs4 import BeautifulSoup
  2.  
  3. def getMessage(page):
  4.  
  5.   soup = BeautifulSoup(page)
  6.  
  7.   parent = soup.find_all()
  8.  
  9.   if parent:
  10.  
  11.     for child in parent:
  12.  
  13.       do somthing
  14.  
  15.   else:
  16.  
  17.     print "parent not found"

逐层查找先find()在find_all()

由于urllib2只能操作静态网站,为了爬动态网站,可以使用selenium工具,selenium是可以用脚本打开浏览器进行爬虫的工具

由于selenium3会遇到各种问题,所以使用selenium2.53.6

安装selenium2.53.6

pip install selenium==2.53.6

selenium和firefox或chrome或IE等等浏览器混合使用

由于firefox版本不同会遇到不兼容问题,所以使用firefox46.0.1

基本实例

  1. from selenium import webdriver
  2.  
  3. browser = webdriver.Firefox()
  4.  
  5. browser.get("http://www.baidu.com")

打开网站后就可以用bs或者re来分析网站信息

在学习过程中发现了一个爬虫框架scrapy,感觉挺好用的

安装scrapy

安装scrapy有点麻烦需要安装各种库

下载教程http://blog.csdn.net/php_fly/article/details/19364913

其中的zope.interface可以通过pip install zope.interface来安装,其他的库可以直接从云盘下载exe文件安装

在python中import各种模块验证是否安装成功

最后一步pip install Scrapy

在命令行中输入scrapy验证是否安装成功

基础教程http://scrapy-chs.readthedocs.io/zh_CN/0.24/intro/tutorial.html

基本实例

  1. import scrapy
  2.  
  3. class DmozSpider(scrapy.Spider):
  4. name = "dmoz"
  5. allowed_domains = ["dmoz.org"]
  6. start_urls = [
  7. "http://www.dmoz.org/Computers/Programming/Languages/Python/Books/",
  8. "http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/"
  9. ]
  10.  
  11. def parse(self, response):
  12. filename = response.url.split("/")[-2]
  13. with open(filename, 'wb') as f:
  14. f.write(response.body)

dir(),查看当前对象的所有可用方法,type()查看当前对象的类型

sys.exit(),os.exit()用来退出进程,第一个常用

yield关键词,此关键词的作用是返回某个对象后继续执行。如果不用该关键字,则直接会在函数中返回。

python爬虫学习记录的更多相关文章

  1. Python爬虫学习记录【内附代码、详细步骤】

    引言: 昨天在网易云课堂自学了<Python网络爬虫实战>,视频链接 老师讲的很清晰,跟着实践一遍就能掌握爬虫基础了,强烈推荐! 另外,在网上看到一位学友整理的课程记录,非常详细,可以优先 ...

  2. python爬虫学习记录——各种软件/库的安装

    Ubuntu18.04安装python3-pip 1.apt-get update更新源 2,ubuntu18.04默认安装了python3,但是pip没有安装,安装命令:apt install py ...

  3. python爬虫学习(1) —— 从urllib说起

    0. 前言 如果你从来没有接触过爬虫,刚开始的时候可能会有些许吃力 因为我不会从头到尾把所有知识点都说一遍,很多文章主要是记录我自己写的一些爬虫 所以建议先学习一下cuiqingcai大神的 Pyth ...

  4. 《Python爬虫学习系列教程》学习笔记

    http://cuiqingcai.com/1052.html 大家好哈,我呢最近在学习Python爬虫,感觉非常有意思,真的让生活可以方便很多.学习过程中我把一些学习的笔记总结下来,还记录了一些自己 ...

  5. Python爬虫个人记录(三)爬取妹子图

    这此教程可能会比较简洁,具体细节可参考我的第一篇教程: Python爬虫个人记录(一)豆瓣250 Python爬虫个人记录(二)fishc爬虫 一.目的分析 获取煎蛋妹子图并下载 http://jan ...

  6. Python爬虫个人记录(二) 获取fishc 课件下载链接

    参考: Python爬虫个人记录(一)豆瓣250 (2017.9.6更新,通过cookie模拟登陆方法,已成功实现下载文件功能!!) 一.目的分析 获取http://bbs.fishc.com/for ...

  7. [转]《Python爬虫学习系列教程》

    <Python爬虫学习系列教程>学习笔记 http://cuiqingcai.com/1052.html 大家好哈,我呢最近在学习Python爬虫,感觉非常有意思,真的让生活可以方便很多. ...

  8. python爬虫学习 —— 总目录

    开篇 作为一个C党,接触python之后学习了爬虫. 和AC算法题的快感类似,从网络上爬取各种数据也很有意思. 准备写一系列文章,整理一下学习历程,也给后来者提供一点便利. 我是目录 听说你叫爬虫 - ...

  9. Python爬虫学习:三、爬虫的基本操作流程

    本文是博主原创随笔,转载时请注明出处Maple2cat|Python爬虫学习:三.爬虫的基本操作与流程 一般我们使用Python爬虫都是希望实现一套完整的功能,如下: 1.爬虫目标数据.信息: 2.将 ...

随机推荐

  1. qt 控件 背景色 透明 除去边框

    在调试ui的时候,需要将背景色变为透明,与母控件的颜色一致,并且除去边框. 参考链接: http://www.qtcentre.org/threads/12148-how-QTextEdit-tran ...

  2. http://blinkfox.com/shi-yong-spring-aoplai-tong-ji-fang-fa-de-zhi-xing-shi-jian/

    http://blinkfox.com/shi-yong-spring-aoplai-tong-ji-fang-fa-de-zhi-xing-shi-jian/ spring-aop.xml @Com ...

  3. http://www.cnblogs.com/zhaoyang/archive/2012/01/07/2315436.html

    http://www.cnblogs.com/zhaoyang/archive/2012/01/07/2315436.html

  4. CentOS 6.8内核版本升级(升级至3.10)(转)

    1.查看当前版本 [root@www.linuxidc.com docker]# cat /etc/issue CentOS release 6.8 (Final) Kernel \r on an \ ...

  5. 第十三篇 Integration Services:SSIS变量

    本篇文章是Integration Services系列的第十三篇,详细内容请参考原文. 简介在前一篇我们结合了之前所学的冒泡.日志记录.父子模式创建一个自定义的SSIS包日志记录模式.在这一篇,我们将 ...

  6. dojo使用笔记: 自定义ConfirmDialog

    前言: dojo1.10已经有了原生的ConfirmDialog 做gui应用开发,肯定要用到"确认"对话框, 无论是winForm, swing,还是web,也不管理你用什么技术 ...

  7. jquery .on的使用

    1.7版本以上,开始使用.on绑定时间 给jquery动态产生的元素绑定事件不能使用普通的$("#fff").click(function(){alert("ok&quo ...

  8. javaee中的中文乱码处理

    浏览器正常显示 response.setContentType("text/html;charset='utf-8'") response.setCharacterEncoding ...

  9. ThinkPHP分页链接支持数组参数的办法

    这几天在用ThinkPHP做系统,搜索页有个数组参数提交 <input class="params_t" name="t[]" type="ch ...

  10. MVC3中 ViewBag、ViewData和TempData的使用和区别

    在MVC3开始,视图数据可以通过ViewBag属性访问,在MVC2中则是使用ViewData.MVC3中保留了ViewData的使用.ViewBag 是动态类型(dynamic),ViewData 是 ...