《scraping with python》

　　记得刚开始学习python时就觉得爬虫特别神奇，特别叼，但是网上的中文资料大都局限于爬取静态的页面，涉及到JavaScript的以及验证码的就很少了，【当时还并不习惯直接找外文资料】就这样止步于设计其相关的爬虫了，前两周图灵社区书籍推荐邮件来了本《python网络数据采集》，英文名《web scraping with python》，觉得有意思就下了本英文版的PDF看完了，发现其不仅讲的很系统而且也完美的解决了当时我存在的问题，而我就在想，如果当时就能够读取到这本书那是不是就很屌呢，是不是就能够少走很多弯路呢？我第一次认为是这样的，还略有点抱怨搜了那么多python爬虫的资料居然没有人推荐这么好的东东，真是不好，而后我又想其实总的来说，这本书的牛逼之处在于把方方面面需要用到的知识都告诉你了，作者用多年的经验举重若轻地全面的透露了所需，所以你就觉得满足了，但是面对新技术的出现，并不能够只依靠别的大神来告诉你方方面所需要的东西，如何能够自己成为那种起头的研究透的人才是最重要的，想到此又怪自己当初为何就没能自己去搞定这些呢，而不应该是埋怨别人没有告诉你？最后昨晚在看一本书时看到的一些东西觉得很有道理：新手往往面对二阶不胜任的情况（second-order incompetence）：不知道自己不知道多少，所以首先需要发挥R&D精神:Rip off and Duplicate 【偷师学艺】，而后需记住，无论是对你自己或对他人，一种规格并非处处适用，正如你从模型中看到的，你的需求取决于你所处的技能水平，随着时间推移，你的个人学习和成长所需要的东西会改变。这么看来也就释然了。

我将《scraping with python》中每一章节最有用的东西的提取了出来并做了一些补充，github地址

各章内容提要：

第一章：最简单的用urllib.request中的urlopen配合BeautifulSoup提取某页面的HTML

第二章：如何用BeautifulSoup定位到想要的内容，如何配合正着表达式使用，如何获取标签中的属性

第三章：实际演示了通过一个页面中的link连续爬取，涉及到了防止爬取重复等问题

第四章：使用网站既有的API来获取数据

第五章：保存数据的问题，保存URL还是下载下来？保存到Mysql，Email等等

第六章：如果不是要爬取HTML而是读取服务器的如TXT，PDF文件应该如何弄

第七章：数据清理（如替换连续空格，替换连续空行，去掉非英文内容），以及第三方工具介绍

第八章：关于自然语言处理中的n-gram ananysis

第九章：提交表单，使用COOKIE，使用SEESION

第十章：使用selenium以及PhantomJS搞定Javascript

第十一章：验证码的识别

第十二章：防止被服务器认定为机器人的措施小结

《scraping with python》的更多相关文章

《Writing Idiomatic Python》前两部分的中文翻译
汇总了一下这本小书前两部分的内容: 翻译<Writing Idiomatic Python>(一):if语句.for循环翻译<Writing Idiomatic Python> ...
翻译《Writing Idiomatic Python》（五）：类、上下文管理器、生成器
原书参考:http://www.jeffknupp.com/blog/2012/10/04/writing-idiomatic-python/ 上一篇:翻译<Writing Idiomatic ...
翻译《Writing Idiomatic Python》（四）：字典、集合、元组
原书参考:http://www.jeffknupp.com/blog/2012/10/04/writing-idiomatic-python/ 上一篇:翻译<Writing Idiomatic ...
翻译《Writing Idiomatic Python》（三）：变量、字符串、列表
原书参考:http://www.jeffknupp.com/blog/2012/10/04/writing-idiomatic-python/ 上一篇:翻译<Writing Idiomatic ...
翻译《Writing Idiomatic Python》（一）：if语句、for循环
开篇废话这是在美国Amazon上评价很不错的一本书,其实严格来说这可能不算书,而是一本小册子.就像书名一样,里面的内容主要是用一些例子讲述地道的Python的代码是怎样写的.书中把很多例子用不良风格 ...
翻译《Writing Idiomatic Python》（二）：函数、异常
原书参考:http://www.jeffknupp.com/blog/2012/10/04/writing-idiomatic-python/ 上一篇:翻译<Writing Idiomatic ...
关于《Head First Python》一书中print_lol()函数的思考
关于<Head First Python>一书中print_lol()函数的思考在<Head First Python>第一章中,讲述到Python处理复杂数据(以电影数据列 ...
为什么《Dive into Python》不值得推荐
2010 年 5 月 5 日更新:我翻译了一篇<<Dive Into Python>非死不可>作为对本文观点的进一步支持和对评论的回复,请见:http://blog.csdn. ...
《流畅的Python》一副扑克牌中的难点
1.现在在看<流畅的Python>这本书,看了三页就发现,这本书果然不是让新手来入门的,一些很常见的知识点能被这个作者玩出花来, 唉,我就在想,下面要分析的这些的代码,就算我费劲巴拉的看懂 ...

随机推荐

Egret 纹理、计时器
1. 九宫切典型例子就是圆角矩形的拉伸问题. 先去P一张绿色的圆角矩形. private createGameScene():void { var box:egret.Bitmap = new eg ...
ubuntu下使用C语言开发一个cgi程序
主要步骤是: 1. 开发一个C程序(在标准输出中输出HTML字符串) 2. 复制到apache2的cgi-bin目录去 3. 在httpd.conf中开启cgi功能(我似乎没用到,也可以使用cgi) ...
转:关于数据库压缩技术的Survey
原文来自于:http://outofmemory.cn/mysql/database-compression-tech 昨天给团队内的小伙伴做了一个关于数据库压缩技术的Survey,现将其中可以公开的 ...
转:Java程序员最常用的8个Java日志框架
作为一名Java程序员,我们开发了很多Java应用程序,包括桌面应用.WEB应用以及移动应用.然而日志系统是一个成熟Java应用所必不可少的,在开发和调试阶段,日志可以帮助我们更好更快地定位bug:在 ...
git 基本命令（常用）
http://www.zhixing123.cn/ubuntu/37865.html 参考的这个网址他这里有个错误:id_rsa.pub 应该复制这个而不是id_rsa 1341 git in ...
SharePoint ListTemplateType enumeration
from microsoft http://msdn.microsoft.com/en-us/library/office/microsoft.sharepoint.client.listtempla ...
SharePoint 软件边界及限制
摘自technet http://technet.microsoft.com/zh-cn/library/cc262787.aspx
Maven实战五
转载:http://www.iteye.com/topic/1123232 我们项目中用到的jar包可以通过依赖的方式引入,构建项目的时候从Maven仓库下载即可. 1. 依赖配置依赖可以声明 ...
Linux下Socket编程的端口问题( Bind error: Address already in use )
Linux下Socket编程的端口问题( Bind error: Address already in use ) 在进行linux网络编程时,每次修改了源代码并再次编译运行时,常遇到下面的地使用错误 ...
Oracle存储过程 --3
Oracle存储过程包含三部分:过程声明,执行过程部分,存储过程异常. Oracle存储过程可以有无参数存储过程和带参数存储过程. 一.无参程序过程语法 1 create or replace pro ...

《scraping with python》

《scraping with python》的更多相关文章

随机推荐

热门专题