老猿从事IT开发快三十年了,接触互联网也很久了,但自己没有做过web前端开发,只知道与前端开发相关的一些基本概念,如B/S架构、html标签、js脚本、css样式、xml解析、cookies、http协议等,但并不熟悉这些概念的真正内容,可以说在web前端开发方面还是一个真正的小白。这导致老猿很有兴趣的投入爬虫学习后,发现网上别人的经验并不能完全适合自己的情况。

基于这种情况,老猿恶补了一些相关的知识,主要是http协议、cookies、html标记等相关的内容,可是看了之后,概念和知识都有了,但怎么用起来却还是不得要领。

老猿学爬虫最开始的动机是想解决在本机已经登录访问网站的情况下,怎么通过Python复用这个登录的信息去访问该网站。为什么非要复用这个信息呢?主要是现在很多网站都是通过第三方账号如微信授权登录,而老猿暂时没有去研究第三方账号授权登录的过程,就想直接使用已登录信息从而免去登录相关的开发。

为此老猿查了很多资料,网上提供的案例要么就是直接通过账号登录获取cookie信息保存、要么就是不登录直接爬取信息,与老猿的想法存在一些差距。为此不得基于学习的知识去进行各种尝试,最终终于弄明白怎么去使用这些知识。一旦明白了之后,就发现这个其实挺容易的,就象往外看隔了一张白纸,白纸没捅破前怎么也看不见,一旦知道白纸要捅破之后这个事情就非常容易了。

老猿不禁在想,网上那么多文章,怎么就找不到这方面介绍的文章。想来要么是大佬们觉得这个知识太白痴,懒得去说,要么就是前人们没想用老猿这种偷懒的方式去访问网站,直接模拟网站登录解决问题了,当然还有一个可能就是搜索引擎没有搜索到,老猿有一篇文章《Python正则表达式re.search(r’*{3,8}’,‘’)和re.search(’*{3,8}’,'’)的匹配结果为什么相同?》可能特殊符号太多通过标题或标题的部分内容去百度搜索却怎么也搜索不到该博文的内容。

零零散散、啰啰嗦嗦说了这么多,其实想说明的是要学爬虫还是需要一些前端开发的基础知识,以支持按自己一些独特的想法来爬取内容,基本没有可以完全复制的成功经验供你直接使用。但学爬虫对前端开发的了解不会要求很深,知道一些基本知识就可以了,老猿本章要介绍的内容是对前端开发小白们提供一个完整的爬虫学习之路,使得小白知道该按怎样的路线去实现自己定制的爬虫之路,而不是一个单纯的已有案例的实现。

本章准备介绍老猿推荐的网页爬虫的学习过程,最后以两种不同方式实现CSDN博文进行点赞的案例。

本章内容如下:

第14.1节 通过Python爬取网页的学习步骤

第14.2节 HTML知识简介

第14.3节 使用google浏览器获取网站访问的http信息

第14.4节 使用IE浏览器获取网站访问的http信息

第14.5节 利用浏览器获取的http信息构造Python网页访问的http请求头

第14.6节 Python模拟浏览器访问网页的实现代码

第14.7节 Python模拟浏览器访问实现http报文体压缩传输

第14.8节 Python中使用BeautifulSoup加载HTML报文

第14.9节 Python中使用urllib.request+BeautifulSoup获取url访问的基本信息

第14.10节 Python中使用BeautifulSoup解析http报文:html标签相关属性的访问

第14.11节 Python中使用BeautifulSoup解析http报文:使用查找方法快速定位内容

第14.12节 Python中使用BeautifulSoup解析http报文:使用select方法快速定位内容

第14.13节 BeautifulSoup的其他功能导览

第14.14节 爬虫实战准备:csdn博文点赞过程http请求和响应信息分析

第14.15节 爬虫实战1:使用Python和selenium实现csdn博文点赞

第14.16节 爬虫实战2:赠人玫瑰,手留余香! request+BeautifulSoup实现csdn博文自动点赞

第14.17节 爬虫实战3: request+BeautifulSoup实现自动获取本机上网公网地址

第14.18节 爬虫实战4: request+BeautifulSoup+os实现利用公众服务Wi-Fi作为公网IP动态地址池

第14章 web前端开发小白学爬虫结束语

老猿Python,跟老猿学Python!

博客地址:https://blog.csdn.net/LaoYuanPython


老猿Python博客文章目录:https://blog.csdn.net/LaoYuanPython/article/details/98245036

请大家多多支持,点赞、评论和加关注!谢谢!

第十四章 web前端开发小白学爬虫的更多相关文章

  1. 第14章 web前端开发小白学爬虫结束语

    老猿学爬虫应该是2019年7月初开始的,到现在2个多月了,有段时间了,这部分一直是老猿期待能给大家带来收获的,因为老猿爬虫实战应用的场景与网上老猿已知的场景基本都不一样,是从复用网站登录会话信息来开发 ...

  2. 十款让 Web 前端开发人员更轻松的实用工具

    这篇文章介绍十款让 Web 前端开发人员生活更轻松的实用工具.每个 Web 开发人员都有自己的工具箱,这样工作中碰到的每个问题都有一个好的解决方案供选择. 对于每一项工作,开发人员需要特定的辅助工具, ...

  3. 【转】十款让 Web 前端开发人员更轻松的实用工具

    这篇文章介绍十款让 Web 前端开发人员生活更轻松的实用工具.每个 Web 开发人员都有自己的工具箱,这样工作中碰到的每个问题都有一个好的解决方案供选择. 对于每一项工作,开发人员需要特定的辅助工具, ...

  4. 2019最新WEB前端开发小白必看的学习路线(附学习视频教程)

    2019最新WEB前端开发小白必看的学习路线(附学习视频教程).web前端自学之路:史上最全web学习路线,HTML5是万维网的核心语言,标准通用标记语言下的一个应用超文本标记语言(HTML)的第五次 ...

  5. 第十四章 Odoo 12开发之部署和维护生产实例

    本文中将学习将 Odoo 服务器作为生产环境的基本准备.安装和维护服务器是一个复杂的话题,应该由专业人员完成.本文中所学习的不足以保证普通用户创建应对包含敏感数据和服务的健壮.安全环境. 本文旨在介绍 ...

  6. 第十四章 SSL——《跟我学Shiro》

    目录贴:跟我学Shiro目录贴 对于SSL的支持,Shiro只是判断当前url是否需要SSL登录,如果需要自动重定向到https进行访问. 首先生成数字证书,生成证书到D:\localhost.key ...

  7. Web 前端开发人员和设计师必读文章推荐【系列二十八】

    <Web 前端开发精华文章推荐>2014年第7期(总第28期)和大家见面了.梦想天空博客关注 前端开发 技术,分享各类能够提升网站用户体验的优秀 jQuery 插件,展示前沿的 HTML5 ...

  8. Web 前端开发人员和设计师必读精华文章【系列二十六】

    <Web 前端开发精华文章推荐>2014年第5期(总第26期)和大家见面了.梦想天空博客关注 前端开发 技术,分享各类能够提升网站用户体验的优秀 jQuery 插件,展示前沿的 HTML5 ...

  9. Web 前端开发精华文章推荐(HTML5、CSS3、jQuery)【系列二十二】

    <Web 前端开发精华文章推荐>2014年第一期(总第二十二期)和大家见面了.梦想天空博客关注 前端开发 技术,分享各类能够提升网站用户体验的优秀 jQuery 插件,展示前沿的 HTML ...

随机推荐

  1. Python专题之详解enumerate和zip

    enumerate 第一个是枚举函数. 在我们的日常编程过程中,我们经常遇到一个问题. 在C语言和一些古老的语言中没有迭代器的概念,所以当我们想要遍历数组或容器时,我们只能使用下标.使用迭代器,我们的 ...

  2. SQL:获取每个key下最新创建的记录

    今天遇到了一个好玩的问题 问题: 有一个含有key和createdTime字段的表,表里存在很多不同的key值,每个key值下有很多记录. 我想要查出每个key下面cratedTime最大的记录,即每 ...

  3. IP 层收发报文简要剖析2--ip报文的输入ip_local_deliver

    ip报文根据路由结果:如果发往本地则调用ip_local_deliver处理报文:如果是转发出去,则调用ip_forward 处理报文. 一.ip报文转发到本地: /* * Deliver IP Pa ...

  4. MySQL死锁问题(转)

    线上某服务时不时报出如下异常(大约一天二十多次):"Deadlock found when trying to get lock;". Oh, My God! 是死锁问题.尽管报错 ...

  5. UNP——第二章,TCP握手与挥手分析

    1.握手 说明: 下面涉及 FIN,SYN,ACK之类数据时,都是由TCP服务收发, 涉及 accept, listen 之类api,都是 应用进程 完成. 都统一使用 客户端,服务端描述,请自行分辨 ...

  6. Freebsd10.2安装包升级pkg引起环境破坏的解决

    前言 freebsd10.2环境在安装一个新软件包的时候提示升级pkg到1.10.1,然后点击了升级,然后整个pkg环境就无法使用了 记录 升级完了软件包以后第一个错误提示 FreeBSD: /usr ...

  7. Elementary OS 使用fcitx安装搜狗词库、搜狗输入法(Linux通用)

    刚开始接触Linux的小伙伴可能比较懵逼,我要使用ibus输入法还是fcitx(小企鹅)输入法,其实这两种都不能说是输入法,Linux中输入法的使用是依赖于输入法框架的,其中搜狗输入法和百度输入法都是 ...

  8. Blazor入手教程(一)前言

    Blazor入手教程(一)前言 结论 最近在学习blazor.得出了这么一个结论: Blazor是一门很值得学习的技术,未来.net下将会有相当多的 web应用使用blazor开发.十分看好这一技术, ...

  9. sqlilab less1-less10

    less-1 参数被单引号包裹,加单引号,闭合后绕过 less-2 参数没有被包裹,直接带入查询,不需要闭合 less-3 参数被 ('$id') 包裹,需要将他闭合 less-4 参数被小括号和双引 ...

  10. 深度分析:java设计模式中的原型模式,看完就没有说不懂的

    前言 原型模式(Prototype模式)是指:用原型实例指定创建对象的种类,并且通过拷贝这些原型,创建新的对象 原型模式是一种创建型设计模式,允许一个对象再创建另外一个可定制的对象,无需知道如何创建的 ...