"java从心"正式更名"KEN DO EVERTHING"。Ken(Can) Do Everything,无所不能

Believe youseft then you can do everthing !

我也是刚踏入python的大门,所以只能给点小建议,而不是指导(暂时只接触了python爬虫)

入门3部曲

1.语法学习,推荐可以看菜鸟教程上的python3语法

https://www.runoob.com/python3/python3-tutorial.html

有其他语言基础的人,其实可以随便过一遍,因为python语法很简单,不看语法也能直接看懂,实在不懂的时候再返回去查,效果可能会更好

2.视频学习,推荐廖老师python爬虫实战课程。

公众号后台发送【python爬虫】获取

千万别只看,看完相关视频得自己动手实战才会有收获!

3.实战项目,找几个自己想爬取的网站,试着用自己学到的东西,开始瞎搞吧!

当时实战遇到都是动态js生成的页面,没法直接从response获取数据,所以使用了selenium框架。

说几点需要注意的地方

1.别将selenium集成到scrapy上使用(可能是拙见,如有错误务必纠正我)

因为Scrapy中Spirder的parse方法是单线程的,response交由parse处理时是队列串行的,使用selenium就不能同时打开多个浏览器爬取了,selenium本来就够慢了,所以别将selenium集成到scrapy。可以单独使用selenium然后开启多线程去爬取,会快很多。

(后面我才发现,原来scrapy也有爬取动态网页的库scrapy-splash!)。不过由于selenium出现的比较早,使用scrapy-splash的人会比selenium的少)

2.不要用time.sleep去等待页面加载

因为你根本不知道它真实加载时间是多久,设置多了就浪费时间,少了可能网页还没加载不出来。

对于selenium框架,推荐使用

WebDriverWait(driver, 10).until(特定元素),设置一个时间,等待出现某个特定元素,未出现则会抛出超时异常。然后可以加上重试操作,重试一定次数后放弃这次爬取,最简单的方式就是使用循环。

3.反爬

发现爬取程序出了问题,无法爬取数据,可以考虑下,是不是网站使用了一些反爬策略,这时就需要使用对应的反反爬方法去应对了

主要反爬策略有下面几种:

①判断User-Agent,是否为浏览器;

②判断短时间内同一个IP访问次数;

③用户登录后才能访问资源;

④短时间用户使用不同IP访问资源,异常登录;

⑤验证码,滑动点击验证;

⑥数据加解密处理;

对于不同反爬策略,可以使用不同应对方式:

①User-Agent:发起请求时候添加头信息,伪装浏览器;

②短时间内访问次数限制:可以使用代理或者延时爬取;

③登录后访问:模拟登录保存cookie,请求时添加cookie信息;

④异常登录:准备大量账号,绑定不同代理进行爬取;

⑤验证码:使用对应python库进行处理,github上面可以找到;

⑥数据加解密处理:使用对应算法进行破解,或者使用selenium进行抓取;

4.代码中需考虑所爬取网站的稳定性

网站可能会出现以下几种情况

1.所爬取网站性能很差,页面有时响应很慢

2.有时网站直接崩掉

3.处于维护状态

代码中必须考虑这些情况的出现,写对应的异常与处理逻辑,否则爬虫程序会崩掉或卡住

5.爬虫程序不是永久可用的

不管是分析页面还是解析response的爬取,都是别人东西,万一网站有所改动,你的程序就不可用了。 如果你接了爬虫项目,这一点必须提前告知客户

好叻,我就懂这么一点,都告诉你了。

去开启你的python之旅吧


文章首发于公众号【KEN DO EVERTHING】
本公众号专注于java相关技术,但不限于java、mysql、python、面试技巧、生活感悟等。分享优质博文,技术干货,学习资源等优质内容。
欢迎关注,一起学习,共成长!

Python入门小建议的更多相关文章

  1. 简述Python入门小知识

    如今的Python开发工程师很受企业和朋友们的青睐,现在学习Python开发的小伙伴也很多,本篇文章就和大家探讨一下Python入门小知识都有哪些. 扣丁学堂简述Python入门小知识Python培训 ...

  2. Python入门小练习

    Python入门小练习 001 备份文件 Python入门小练习 002 批量下载网页链接中的图片 Python入门小练习 003 利用cookielib模拟登录获取账户信息

  3. 40个Python入门小程序

    有不少同学学完Python后仍然很难将其灵活运用.我整理 37 个Python入门的小程序.在实践中应用Python会有事半功倍的效果. 分享 Github 项目,里面收集了 Python 学习资料 ...

  4. Python 入门小实例笔记

    实例1:打印用户输入的姓名与手机号码知识点:编码,获取输入,变量,标准输出 #encoding=utf-8 import time #1.提示用户输入信息 name = input ("请输 ...

  5. Python入门小练习-001-备份文件

    练习适用于LINUX,类Unix系统,一步一个脚印提高Python . 001. 类Unix系统中用zip命令将文件压缩备份至 /temporary/ 目录下: import os import ti ...

  6. Python入门小练习 002 批量下载网页链接中的图片

    我们常常需要下载网页上很多喜欢的图片,但是面对几十甚至上百张的图片,一个一个去另存为肯定是个很差的体验. 我们可以用urllib包获取html的源码,再以正则表达式把匹配的图片链接放入一个list中, ...

  7. Python入门小练习 003 利用cookielib模拟登录获取账户信息

    为了方便, 使用chinaunix的账户获取账户主题. 有些网站可能需要验证码,  找一些不用验证码的网站 下面 ****** 很多个星号的均为私密信息, 所以用星号代替 #!/usr/bin/pyt ...

  8. Python 入门之代码块、小数据池 与 深浅拷贝

    Python 入门之代码块.小数据池 与 深浅拷贝 1.代码块 (1)一个py文件,一个函数,一个模块,终端中的每一行都是代码块 (代码块是防止我们频繁的开空间降低效率设计的,当我们定一个变量需要开辟 ...

  9. 12岁的少年教你用Python做小游戏

    首页 资讯 文章 频道 资源 小组 相亲 登录 注册       首页 最新文章 经典回顾 开发 设计 IT技术 职场 业界 极客 创业 访谈 在国外 - 导航条 - 首页 最新文章 经典回顾 开发 ...

随机推荐

  1. 2018百度之星资格赛A B F

    A.调查问卷 度度熊为了完成毕业论文,需要收集一些数据来支撑他的论据,于是设计了一份包含 mm 个问题的调查问卷,每个问题只有 'A' 和 'B' 两种选项. 将问卷散发出去之后,度度熊收到了 nn  ...

  2. SpringBoot的四种定时任务

    定时任务实现的几种方式: Timer:这是java自带的java.util.Timer类,这个类允许你调度一个java.util.TimerTask任务. 使用这种方式可以让你的程序按照某一个频度执行 ...

  3. 洪强宁:宜信PaaS平台基于Calico的容器网络实践

    洪强宁:宜信PaaS平台基于Calico的容器网络实践   本文内容来自由七牛云主办的ECUG Con,独家授权InfoQ整理完成 容器云面临的网络挑战 在传统的IDC的架构里面网络是很重要的事情,在 ...

  4. k8s的持久化存储

    本例使用nfs 创建pv [root@k8s-master data]# vi pv.yaml apiVersion: v1kind: PersistentVolumemetadata: name: ...

  5. DEVOPS技术实践_08:声明式管道语法

    简介 前面简单的做了管道的实验,看了一下的它的效果 声明式管道是Groovy语法中的一个更简单和结构化的语法.下面主要学习明式管道语法. 一 声明式管道的基本结构 以上节的代码为例 node { de ...

  6. javascript DOM 编程艺术 札记1

    一个重要观点 DOM 是指 文档对象模型,它对应浏览器实际认知的东西.html 文本本身和 html 加载到浏览器中显示的东西并不是完全一致的,后者就是 DOM 节点树,它是浏览器实际认知的东西.一个 ...

  7. 初始Redis与简单使用

    初始Redis: redis是一个key-value存储系统.和Memcached类似,它支持存储的value类型相对更多,包括string(字符串).list(链表).set(集合).zset(so ...

  8. 【转载】CSS flex属性深入理解

    文章转载自 张鑫旭-鑫空间-鑫生活 http://www.zhangxinxu.com/ 原文链接:https://www.zhangxinxu.com/wordpress/2019/12/css-f ...

  9. 【题解】有标号的DAG计数4

    [HZOI 2015] 有标号的DAG计数 IV 我们已经知道了\(f_i\)表示不一定需要联通的\(i\)节点的dag方案,考虑合并 参考[题解]P4841 城市规划(指数型母函数+多项式Ln),然 ...

  10. Windows远程桌面管理--功能强大的远程批量管理工具【转】

    曾经,我想着要是有一款绿色小巧,功能实用的远程桌面管理工具,其界面简洁,操作便捷,能够同时远程操作多台服务器,并且多台服务器间可以自由切换,适用于网站管理人员使用的工具该有多好,苍天不负有心人,终于出 ...