前言

原创文章，转载引用务必注明链接。水平有限，如有疏漏，欢迎指正。

之前看阮一峰的博客文章，介绍到路飞学城爬虫课程限免，看了眼内容还不错，就兴冲冲报了名，99块钱满足以下条件会返还并送书送视频。

缴纳99元保证金即可参与，只要完成3次作业和参与直播，提交学习笔记，就可以退还保证金，还可获得《Python全栈开发实战》及内部教材书籍，视频课程、定制文化衫等作为奖励。另外，还会有1对1的导师逐行批改你的代码、讲师3次直播答疑，还有班主任组队小伙伴共同学习。

好像打了一次广告，麻烦luffy的工作人员看到给我打个赏。网站做的还可以，7月3号正式开课，现在先看的录播，讲的内容还行，但是看视频嘛，有时候会有闲扯。

本文环境：Windows_7_64 bit, Visual Studio Code + Code Runner(Ctrl + Alt + N), Python 3.6,

1、章节一初始爬虫笔记

r.encoding = r.apparent_encoding 设置编码为网页指定的编码，防止乱码（主要utf-8、gbk等)

    >>> import requests

  >>> r = requests.get('http://baidu.com')

  >>> r.apparent_encoding

  'ascii'

  >>> r = requests.get('http://www.baidu.com')

  >>> r.apparent_encoding

  'utf-8'

from xx import xxx 与import xx的区别

>>> from requests_html import HTMLSession

>>> session = HTMLSession()

# 或者

>>> from requests_html import HTML as XXX

>>> doc = """<a href='https://httpbin.org'>"""

>>> html = HTML(html=doc)

直接使用模块内的功能(?)，否则就是requests_html.HTML()

BeautifulSoup(r.txet, 'html.parser') # lxml快但不内置, 需要手动pip安装

出现None时回看数据，必要时跳过

for li in li_list:

  h3 = li.find(name='h3')

  if not h3:

    continue

   print(ht.text)

BeautifulSoup find()查找第一个获取包含所有内容的div，返回对象；然后再次find_all()查找每个内容的最小个体，返回列表
借助chrome的调试控制台，主要是network、element等，选择element，往上找到带id的。
r.find()和r.find_all()都返回列表，前者只有一个元素

以上为爬取汽车之家，以下为登录抽屉点赞：

bugmenot.com查看共享账号
首先随便输入信息，在f12中Network中看到Login过程
F12选择左上角关闭DeviceBar可以扩大显示空间
直接看json()显示为none，重新看text发现启用反爬虫，设置User-Agent OK。一般需要的就是Hots防盗链，User-Agent防爬虫，先啥都不加
获取cookies：r.cookies.get_dict()
对于https，fiddler需要安装证书解密，直观。F12也很强大，就是乱
有些网站是初次未登录时获取cookies，登陆后对该cookies授权
对于form传递，有csrf或者token的，先访问页面获取token，然后带着token传递账密
s.attrs显示属性，返回字典。s.get('value')取某个属性的值
☆使用selector时有时候是全局，比如找在info里面用复制的selector找不到，res里可以找到。此外，登录前登陆后复制的selector可能不同，主要是前体
登录github时，获取页面text报错：

UnicodeEncodeError: 'gbk' codec can't encode character '\u21b5' in position 10332: illegal multibyte sequence

考虑非法字符串无法转换，对string重编码：r.text.decode('utf-8')
要会web才学好爬虫
network -xhr请求-ajax请求
Preserve log，Disable cache
重定向保存，update cookie, allow_rediect = False

重定向 302 Location响应头：r3.headers['Location']
初起学习尽量不要用session,先手动模拟，搞透调通再用自动化完成

2、爬虫作业登录github获取个人信息

课上讲了一部分，登录方式如下，这里我们用session自动管理cookies：

# -*- coding: utf-8 -*-

import requests

from bs4 import BeautifulSoup

# from lxml import etree

from requests_html import HTML

# session = HTMLSession()

r = requests.session()

username = 'username'

passwd = 'passwd'

s1 = BeautifulSoup(r.get('https://github.com/login').text, 'html.parser')

# print(s1)

token = s1.find(name='input', attrs={'name': 'authenticity_token'}).get('value')

# print(token)

FormData = {

    'commit': 'Sign in',

    'utf8': '✓',

    'authenticity_token': token,

    'login': username,

    'password': passwd

}

r.post('https://github.com/session', data=FormData)

此时已经登录github。访问个人主页获取信息：

res = BeautifulSoup(r.get('https://github.com/' + username).text, 'html.parser')

info = res.select('#js-pjax-container > div > div.h-card.col-3.float-left.pr-3')[0]

avatar_src = info.find('img').get('src')

name = info.find(name='span', attrs={'itemprop': 'name'}).text

additionalName = info.find('span', attrs={'itemprop': 'additionalName'}).text

print('name is {0}, additionalName is {1}, avatar is {2}'.format(name, additionalName, avatar_src))

直接是值的话就是.text，否则就是get('value')获取。我们使用vsc配合code runner可以看到运行时间，还有其他功能，非常好用。获取大头像地址去掉?s=64

输出字符乱码的解决

关于输出字符编码乱码，发现用VSC有，IDLE没有，和IDE有关系。建议看以下文章：

以上是基础，参考

在visual studio code 中配置python以及解决中文乱码问题，添加以下代码（Windows/Linux测试通过）：

# -*-coding:utf-8 -*-

import io

import sys

#改变标准输出的默认编码

sys.stdout=io.TextIOWrapper(sys.stdout.buffer,encoding='utf8')

采用修改环境变量的方法可以一劳永逸，PYTHONIOENCODING=UTF8,Windows可以借助Rapidee，linux则export PYTHONIOENCODING=UTF8即可临时实现，具体可以修改.bashrc文件。

参考链接

路飞学城Python爬虫课第一章笔记的更多相关文章

路飞学城-Python爬虫集训-第一章
自学Python的时候看了不少老男孩的视频,一直欠老男孩一个会员,现在99元爬虫集训果断参与. 非常喜欢Alex和武Sir的课,技术能力超强,当然讲着讲着就开起车来也说明他俩开车的技术也超级强! 以上 ...
路飞学城-Python爬虫集训-第二章
本次爬虫集训的第二次作业是web微信. 先贴一下任务: 作业中使用到了Flask. Flask是一个使用 Python 编写的轻量级 Web 应用框架.其 WSGI 工具箱采用 Werkzeug ,模 ...
路飞学城—Python爬虫实战密训班第三章
路飞学城—Python爬虫实战密训班第三章一.scrapy-redis插件实现简单分布式爬虫 scrapy-redis插件用于将scrapy和redis结合实现简单分布式爬虫: - 定义调度器 - ...
路飞学城—Python爬虫实战密训班第二章
路飞学城—Python爬虫实战密训班第二章一.Selenium基础 Selenium是一个第三方模块,可以完全模拟用户在浏览器上操作(相当于在浏览器上点点点). 1.安装 - pip instal ...
路飞学城-Python爬虫集训-第三章
这个爬虫集训课第三章的作业讲得是Scrapy 课程主要是使用Scrapy + Redis实现分布式爬虫惯例贴一下作业: Python爬虫可以使用Requests库来进行简单爬虫的编写,但是Reque ...
路飞学城-Python开发-第三章
# 数据结构: # goods = [ # {"name": "电脑", "price": 1999}, # {"name&quo ...
路飞学城-Python开发-第一章
# 基础需求: # 让用户输入用户名密码 # 认证成功后显示欢迎信息 # 输错三次后退出程序 username = 'pandaboy' password = ' def Login(username ...
路飞学城-Python开发集训-第1章
学习体会: 在参加这次集训之前我自己学过一段时间的Python,看过老男孩的免费视频,自我感觉还行,老师写的代码基本上都能看懂,但是实际呢?....今天是集训第一次交作业的时间,突然发现看似简单升级需 ...
路飞学城-Python开发集训-第3章
学习心得: 通过这一章的作业,使我对正则表达式的使用直接提升了一个level,虽然作业完成的不怎么样,重复代码有点多,但是收获还是非常大的,有点找到写代码的感觉了,遗憾的是,这次作业交过,这次集训就结 ...

随机推荐

maven学习（三）——修改maven本地默认仓库
修改从Maven中心仓库下载到本地的jar包的默认存储位置从Maven中心仓库下载到本地的jar包的默认存放在”${user.home}/.m2/repository”中,${user.home}表 ...
Ubuntu安装nginx(复制)
gcc.g++依赖库 apt-get install build-essential apt-get install libtool 安装 pcre依赖库(http://www.pcre.org/) ...
Mysql InnoDB事务
http://www.cnblogs.com/benshan/archive/2013/01/19/2867244.html 事务的四个特性 1.原子性(atomicity)原子性是指整个数据库事务是 ...
【bzoj4059】[Cerc2012]Non-boring sequences 分治
题目描述我们害怕把这道题题面搞得太无聊了,所以我们决定让这题超短.一个序列被称为是不无聊的,仅当它的每个连续子序列存在一个独一无二的数字,即每个子序列里至少存在一个数字只出现一次.给定一个整数序列, ...
BZOJ1801 [Ahoi2009]chess 中国象棋【dp】
题目在N行M列的棋盘上,放若干个炮可以是0个,使得没有任何一个炮可以攻击另一个炮. 请问有多少种放置方法,中国像棋中炮的行走方式大家应该很清楚吧. 输入格式一行包含两个整数N,M,中间用空格分开. ...
docker (centOS 7) 使用笔记6 - skydns
skydns被用于kubenets作为DNS服务.本次测试是单独使用skydns作为DNS服务器,且作为loadbalance使用. 前提:需要先安装配置etcd服务 (在前面的文章里,已经安装部署了 ...
nodeJS学习（6）--- Sublime Text3 配置Node.js 开发环境
参考:http://www.bubuko.com/infodetail-798008.html http://www.cnblogs.com/bluesky4485/p/3928364.html 1. ...
【报错】IntelliJ IDEA中绿色注释扫描飘红报错解决
几天开机,突然发现自己昨天的项目可以运行,今天就因为绿色注释飘红而不能运行,很是尴尬: 解决办法如下: 1.在IDEA中的setting中搜索:"javadoc" 2.把Javad ...
.NET结束外部进程 C#结束外部进程
原文发布时间为:2011-02-15 -- 来源于本人的百度文章 [由搬家工具导入] using System;namespace ConsoleApplication2{ class Prog ...
网页制作教程:td也可以溢出隐藏显示【转】
原文发布时间为:2010-02-05 -- 来源于本人的百度文章 [由搬家工具导入] <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Stri ...

路飞学城Python爬虫课第一章笔记

前言

1、章节一 初始爬虫笔记