Python爬虫初学者学习笔记(带注释)
一,安装编程工具并进入编程界面
首先去https://www.continuum.io/downloads/网站下载Anaconda工具并安装;打开cmd,输入jupyter notebook并回车(win7),他会自动帮你打开编辑界面(基于浏览器的);点击new按钮新建一个Python3的编辑框,他会弹出一个新窗口,好了现在可以敲代码了。
二,爬取整个页面
- import requests #导入requests模块
- res = requests.get('http://study.163.com/') #调用模块中的get方法,以网易云课堂为例
- print(res.text) #打印整个页面内容
三,爬取指定标签的文本
- from bs4 import BeautifulSoup #导入BeautifulSoup模块
- html_sample = '<!DOCTYPE html><html><head><meta charset="utf-8">\
- <title>文档标题</title></head><body><a id="a1" class="c" href="#">测试数据1</a>\
- <a id="a2" class="c" href="##">测试数据2</a>\
- </body></html>' #html_sample变量模拟你读取的整个页面内容,“\”符号在编辑框换行时链接字符串
- soup = BeautifulSoup(html_sample,'html.parser') #爬取页面的所有文本
- a=soup.select('a') #筛选出所有的a标签和对应内容,返回的是个数组
- b=soup.select('#a1') #筛选id为a1的标签和对应内容
- c=soup.select('.c') #筛选class为c的标签和对应内容,返回的是个数组
- print(a) #打印a标签文本,带标签
- print(a[0]) #打印第一条a标签文本,带标签
- print(a[0].text) #打印第一条a标签文本,不带标签
- for aa in a:
- print(aa.text) #逐条打印a中的文本,不带标签
- print(aa['href']) #逐条打印a中的链接
四,常见的一些代码
a=soup.select('a')
l=len(a) #数组a的长度
aa=a[0].contents #第一个a标签的内容
aa.strip() #去掉收尾空格
type(a) #a的数据类型
dt =datetime.strptime(timestr,'%Y年%m月%d日%H:%M') #字符串转时间
dt.strftime('%Y-%m-%d') #时间转字符串
soup.select('#div p')[:-1] #选取id为div标签下除了最后一项P元素的所有P元素
article = [] #定义一个list
article.append(a[0].text) #给list追加元素
'@'.join(article) #将article中元素用‘@’符号隔开并转换为字符串
[p.text.strip() for p in soup.select('#artibody p')] #返回一个list,内容为p.text
newsurl.split('/') #字符串分割
newsurl.rstrip('.html') #去掉字符串末尾指定字符
newsurl.lstrip('aaa') #去掉字符串首指定字符
re.search('aaa(.+).html') #截取字符串,需引入re
jd = json.loads(comments.text.strip('var data=')) #读取json,需要引入json
commentURL .format('gda') #将commentURL中的‘{}’替换为'gda'
def getNewsDetial(newsurl) #定义一个函数,参数为newsurl
建议先到网络上找一些视频教程学习一些python语言基础,治标不治本没用的。。。
Python爬虫初学者学习笔记(带注释)的更多相关文章
- Requests:Python HTTP Module学习笔记(一)(转)
Requests:Python HTTP Module学习笔记(一) 在学习用python写爬虫的时候用到了Requests这个Http网络库,这个库简单好用并且功能强大,完全可以代替python的标 ...
- Python Built-in Function 学习笔记
Python Built-in Function 学习笔记 1. 匿名函数 1.1 什么是匿名函数 python允许使用lambda来创建一个匿名函数,匿名是因为他不需要以标准的方式来声明,比如def ...
- scrapy爬虫框架学习笔记(一)
scrapy爬虫框架学习笔记(一) 1.安装scrapy pip install scrapy 2.新建工程: (1)打开命令行模式 (2)进入要新建工程的目录 (3)运行命令: scrapy sta ...
- Python爬虫系统化学习(2)
Python爬虫系统学习(2) 动态网页爬取 当网页使用Javascript时候,很多内容不会出现在HTML源代码中,所以爬取静态页面的技术可能无法使用.因此我们需要用动态网页抓取的两种技术:通过浏览 ...
- Python爬虫系统学习(1)
Python爬虫系统化学习(1) 前言:爬虫的学习对生活中很多事情都很有帮助,比如买房的时候爬取房价,爬取影评之类的,学习爬虫也是在提升对Python的掌握,所以我准备用2-3周的晚上时间,提升自己对 ...
- Python爬虫系统化学习(4)
Python爬虫系统化学习(4) 在之前的学习过程中,我们学习了如何爬取页面,对页面进行解析并且提取我们需要的数据. 在通过解析得到我们想要的数据后,最重要的步骤就是保存数据. 一般的数据存储方式有两 ...
- Python爬虫系统化学习(5)
Python爬虫系统化学习(5) 多线程爬虫,在之前的网络编程中,我学习过多线程socket进行单服务器对多客户端的连接,通过使用多线程编程,可以大大提升爬虫的效率. Python多线程爬虫主要由三部 ...
- 一个Python爬虫工程师学习养成记
大数据的时代,网络爬虫已经成为了获取数据的一个重要手段. 但要学习好爬虫并没有那么简单.首先知识点和方向实在是太多了,它关系到了计算机网络.编程基础.前端开发.后端开发.App 开发与逆向.网络安全. ...
- Python快速入门学习笔记(二)
注:本学习笔记参考了廖雪峰老师的Python学习教程,教程地址为:http://www.liaoxuefeng.com/wiki/001374738125095c955c1e6d8bb49318210 ...
随机推荐
- LeetCode 148 排序链表
题目: 在 O(n log n) 时间复杂度和常数级空间复杂度下,对链表进行排序. 示例 1: 输入: 4->2->1->3 输出: 1->2->3->4 示例 2 ...
- c++ 指针与const的三种组合
三种形式 const int a=1; int b=2: 1 const int * ptr1=&a; 2 int * const ptr2 = b; 3 const int * const ...
- PAT A1046 Shortest Distance
PAT A1046 Shortest Distance 标签(空格分隔): PAT TIPS: 最后一个数据点可能会超时 #include <cstdio> #include <al ...
- JS的作用域链与原型链
来一波,好记性不如烂笔头. 这两条链子可是很重要的. 作用域链 当执行一段JS代码(全局代码或函数)时,JS引擎会创建为其创建一个作用域又称为执行上下文(Execution Context),在页面加 ...
- 菜鸟python之路-第五章(记录读书点滴)
数字 1.数字类型 python支持多种数字类型:整型.长整型.布尔型.双精度浮点型.十进制浮点型和复数 . 创建数值对象并赋值 aint=1 along=-999999999999999L aflo ...
- unity3d 数据加/解密
[/font]using System.Collections; using System.Text; using System.Security.Cryptography; using System ...
- Java语法基础学习DayTwenty(反射机制续)
一.Java动态代理 1.代理设计模式的原理 使用一个代理将对象包装起来, 然后用该代理对象取代原始对象. 任何对原始对象的调用都要通过代理. 代理对象决定是否以及何时将方法调用转到原始对象上. 2. ...
- 上传文件的三种方式xhr,ajax和iframe及上传预览
<!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8&quo ...
- 学号 20175223 《Java程序设计》第9周学习总结
目录 教材学习内容总结 教材学习中的问题和解决过程 1. 输出文件时过多输出. 代码调试中的问题和解决过程 1. 问题:费马素性检验程序. [代码托管] 学习进度条 参考资料 目录 教材学习内容总结 ...
- 洛谷P1966 【火柴排队】
题解 P1966 [火柴排队] 说明: 在数学中有个公式: (a1-b1)^2+(a2-b2)^2<(a2-b1)^2+(a1-b2)^2 (你可以自己试着证一下) 两列火柴对应的两根火柴在各列 ...