Python爬虫系统化学习(1)

前言：爬虫的学习对生活中很多事情都很有帮助，比如买房的时候爬取房价,爬取影评之类的，学习爬虫也是在提升对Python的掌握，所以我准备用2-3周的晚上时间，提升自己对Python爬虫的掌握。

Python爬取目标的三个流程：

1.获取页面：

基础技术:request,urllib,selenium

进阶技术:多线程多进程抓取，登陆抓取,突破IP封禁，使用服务器抓取

2.解析页面：

基础技术:re正则表达式,BeatuifulSoup和lxml

进阶技术:解决中文乱码方法

3.存储页面：

基础技术：存入txt文件和存入csv文件

进阶技术：存入MySQL数据库和MongDB数据库

首先根据书籍,我写了如下的代码：

#!/usr/bin/python

# coding=utf-8

from bs4 import BeautifulSoup

import requests

link ="http://www.santostang.com/"

r=requests.get(link)

soup=BeautifulSoup(r.text,"html.parser")

title=soup.find("h1",class_="post-title").a.text.strip()

with open('title_text.txt',"a+") as f:

    f.write(title)

代码目的为：获取URL的前端源码中h1标签中以post-title为class的a标签的文本，并且去除两端的空格，比如获取到:

<h1 class="post-title"><a> 这是被爬取的内容</a></h1>

实现过程报错：

UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-2: ordinal not in range(128)

经过查询,报错原因是Unicode编码与ASCII编码的不兼容，Python脚本文件是由utf-8编码的。,在源代码头部添加修改编码格式的代码

import sys

reload(sys)

sys.setdefaultencoding('u')

爬取成功

实验二:访问B站50个网页，测试访问状态

#!/usr/bin/python

#coding:utf-8

import requests

import re

import sys

reload(sys)

sys.setdefaultencoding('utf-8')

from bs4 import BeautifulSoup

head={"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:85.0) Gecko/20100101 Firefox/85.0","Host":"www.bilibili.com"}

link="https://www.bilibili.com/v/technology/career/spm_id_from=333.5.b_7375626e6176.6#/all/default/0/"

def GetName(url,i):

    url=url+str(i)+'/'

        tr=requests.get(url,headers=head)

        print(url,':',str(tr.status_code))

for i in range(51):

    GetName(link,i)

反思不足：其实已经可以爬取得到网页源码了，但是不会解析,正则匹配的数量过多导致失败，导致只能进行到这一步。

收获：

①：print('haha', end=""),不换行打印

②：sys 重新修改python编码

③：heads字典加载放到requests请求里

④：URL加载与组合

⑤：追写文件的方法,前单引号，后双引号：

with open(‘a.txt’,"a+") as f:

    f.write(text)

Python爬虫系统学习(1)的更多相关文章

Python爬虫系统化学习(2)
Python爬虫系统学习(2) 动态网页爬取当网页使用Javascript时候,很多内容不会出现在HTML源代码中,所以爬取静态页面的技术可能无法使用.因此我们需要用动态网页抓取的两种技术:通过浏览 ...
Python爬虫系统化学习(4)
Python爬虫系统化学习(4) 在之前的学习过程中,我们学习了如何爬取页面,对页面进行解析并且提取我们需要的数据. 在通过解析得到我们想要的数据后,最重要的步骤就是保存数据. 一般的数据存储方式有两 ...
Python爬虫系统化学习(5)
Python爬虫系统化学习(5) 多线程爬虫,在之前的网络编程中,我学习过多线程socket进行单服务器对多客户端的连接,通过使用多线程编程,可以大大提升爬虫的效率. Python多线程爬虫主要由三部 ...
一个Python爬虫工程师学习养成记
大数据的时代,网络爬虫已经成为了获取数据的一个重要手段. 但要学习好爬虫并没有那么简单.首先知识点和方向实在是太多了,它关系到了计算机网络.编程基础.前端开发.后端开发.App 开发与逆向.网络安全. ...
python爬虫专栏学习
知乎的一个讲python的专栏,其中爬虫的几篇文章,偏入门解释,快速看了一遍. 入门爬虫基本原理:用最简单的代码抓取最基础的网页,展现爬虫的最基本思想,让读者知道爬虫其实是一件非常简单的事情. 爬虫 ...
Python爬虫的学习经历
在准备学习人工智能之前呢,我看了一下大体的学习纲领.发现排在前面的是PYTHON的基础知识和爬虫相关的知识,再者就是相关的数学算法与金融分析.不过想来也是,如果想进行大量的数据运算与分析,宏大的基础数 ...
python爬虫scrapy学习之篇二
继上篇<python之urllib2简单解析HTML页面>之后学习使用Python比较有名的爬虫scrapy.网上搜到两篇相应的文档,一篇是较早版本的中文文档Scrapy 0.24 文档, ...
python3网络爬虫系统学习：第一讲基本库urllib
在python3中爬虫常用基本库为urllib以及requests 本文主要描述urllib的相关内容 urllib包含四个模块:requests——模拟发送请求 error——异常处理模块 pars ...
python3网络爬虫系统学习：第二讲基本库requests（一）
之前,我们学习了基本库urllib的相关用法,但是在网页验证.Cookies处理等方面是比较繁琐的,需要用到Handler并且还需自己构建Opener.requests库的出现很好的解决了这个问题,下 ...

随机推荐

Dotnet的局部函数和委托的对比
上一篇说了一下委托,这篇来说说局部函数和委托的对比. 把委托和局部函数放成前后篇,是因为这两个内容很像,用起来容易混. 需要了解委托相关内容,可以看这一篇 [传送门] 使用委托表达式(Lamb ...
每个开发人员都应该知道的WebSockets知识
转载请注明出处:葡萄城官网,葡萄城为开发者提供专业的开发工具.解决方案和服务,赋能开发者. 原文出处:https://blog.bitsrc.io/deep-dive-into-websockets- ...
Pytest（4）失败重跑插件pytest-rerunfailures
安装: pip3 install pytest-rerunfailures 重新运行所有失败用例要重新运行所有测试失败的用例,请使用--reruns命令行选项,并指定要运行测试的最大次数: $ py ...
A - 最长回文（马拉车算法//manacher）
给出一个只由小写英文字符a,b,c...y,z组成的字符串S,求S中最长回文串的长度.回文就是正反读都是一样的字符串,如aba, abba等 Input输入有多组case,不超过120组,每组输入为一 ...
最短路径问题---Floyed（弗洛伊德算法），dijkstra算法，SPFA算法
在NOIP比赛中,如果出图论题最短路径应该是个常考点. 求解最短路径常用的算法有:Floyed算法(O(n^3)的暴力算法,在比赛中大概能过三十分) dijkstra算法 (堆优化之后是O(MlogE ...
洛谷 P4017 最大食物链计数 (拓扑排序,思维)
题意:有$n$个点,连$m$条边,求最多有多少条食物链(从头走到为有多少条路径). 题解:之前抽了点时间把拓扑排序补完了,这题其实就是一道拓扑排序的裸题.关于拓扑排序: 1.首先,我们用\ ...
SQL 计算表A字段在表B字段中出现的次数
SELECT A.Id,A.Name,COUNT(B.LiveID) AS count from SetLiveHistory B RIGHT JOIN Live A ON B.LiveId=A.Id ...
Java15变量竟然没什么区别，八大基本数据类型你知道吗？
变量是什么? 变量是用来为不同数据类型在内存中分配的空间用来储存该数据. 不同于python这样的弱类型语言,变量声明不需要定义数据类型,就和写数学方程式一般,谁等于谁即可.而Java这个发展了多个版 ...
woj1012 Thingk and Count DP好题
title: woj1012 Thingk and Count DP好题 date: 2020-03-12 categories: acm tags: [acm,dp,woj] 难题,dp好题,几何题 ...
LeetCode 856. Score of Parentheses 括号的分数
其实是这道题的变式(某港带同学的C/C++作业) 增加一点难度,输入的S不一定为平衡的,需要自己判断是否平衡,若不平衡输出为0. 题目描述 Given a parentheses string s, ...

Python爬虫系统学习(1)

Python爬虫系统化学习(1)

Python爬取目标的三个流程：

Python爬虫系统学习(1)的更多相关文章

随机推荐

热门专题