今天通过Python网络爬虫视频复习了一下以前初学的网络爬虫,了解了网络爬虫的相关规范。

案例:京东的Robots协议

https://www.jd.com/robots.txt

说明可以爬虫的范围

#注释. *代表所有 /代表根目录

robots协议

http://www.baidu.com/robots.txt 百度

http://news.sina.com.cn/robots.txt 新浪新闻

http://www.qq.com/robots.txt 腾讯

http://news.qq.com/robots.txt 腾讯新闻

如果一个网站不设置robots协议说明所有内容都可以爬取

网络爬虫:自动或人工识别robots.txt,再进行内容爬取

约束性:robots协议建议但非约束性,不遵守可能存在法律风险

爬取网页的通用代码框架

#爬取网页的通用代码框架
import requests
def getHTMLText(url):
try:
r=requests.get(url,timeout=30)
r.raise_for_status()
r.encoding=r.apparent_encoding
return r.text
except:
return "产生异常" if __name__=="__main__":
url="http://www.baidu.com"
print(getHTMLText(url))

京东商品页面的爬取,这段代码可以简单爬取京东一个商品页面未经过处理的信息。

#京东商品页面爬取
import requests
r=requests.get('https://item.jd.com/100000287117.html')
try:
print(r.status_code)
print(r.encoding)
print(r.text[:1000])
except:
print("爬取失败!")

亚马逊商品页面的爬取,与京东类似,但增加了对headers的限制。

#亚马逊商品页面爬取
import requests
url='https://www.amazon.cn/dp/B01LX4GONW/ref=Oct_DLandingS_rdp_4e4570f3'
try:
kv = {'user-agent': 'Mozilla/5.0'}
r = requests.get(url, headers=kv)
print(r.request.headers) #查看当前访问的headers
print(r.status_code) #查看是否错误
print(r.encoding) #查看可能编码
r.encoding=r.apparent_encoding #将编码转换为所提取内容分析过的编码
print(r.text) #提取字符
except:
print("爬取失败")

百度360搜索关键词,需要安全验证。

import requests
kv={'wd':'Python'}
try:
r=requests.get("http://www.baidu.com/s",params=kv)
print(r.status_code) #查看是出错
print(r.encoding)
r.encoding=r.apparent_encoding
print(r.request.url) #查看完整ur
print(len(r.text)) #查看查询结果条目数
print(r.text)
except:
print("爬取错误!")

爬取图片:

import requests
import os
url="http://image.ngchina.com.cn/2020/0203/20200203014405762.jpg"
root="D://pics//"
path=root+url.split('/')[-1]
try:
if not os.path.exists(root):
os.mkdir(root)
if not os.path.exists(path):
r = requests.get(url)
print(r.status_code) # 检测错误
with open(path,'wb') as f:
f.write(r.content)
f.close()
print("图片保存成功")
else:
print("图片已存在!")
except:
print("爬取出错!")

ip地址归属地的自助查询

import requests
url="http://m.ip138.com/ip.asp?ip="
try:
r = requests.get(url + '202.204.80.112')
print(r.status_code)
print(r.text[-500:])
except:
print("爬取失败!")

BeautifulSoup类的基本元素

Tag 标签,最基本的信息组织单元,分别是<>和</>标明开头和结尾

Name 标签的名字,<p>...</p>的名字是‘p’格式<tag>.name

Attributes 标签的属性,字典形式组织,格式<tag>.attrs

NavigableString 标签内非属性字符串,<>,...</>中字符串 格式<tag>.string

Comment 标签内字符串的注释部分,一种特殊的Comment类型

import requests
from bs4 import BeautifulSoup
r=requests.get("http://python123.io/ws/demo.html")
#print(r.text)
demo=r.text
soup=BeautifulSoup(demo,"html.parser") #解析为Beautifulsoup可以理解的汤
print(soup.title) #打印title
#print(soup.prettify()) #标签的内容
tag=soup.a #返回第一个标签内容
print(tag)
print(type(tag)) #标签的名字
print(soup.a.name)#a标签的名字
print(soup.a.parent.name)#a标签父亲的名字
print(soup.a.parent.parent.name) #a标签的父亲的父亲的名字
print(type(soup.a.name)) #标签的属性
print(tag.attrs) #a标签的属性
print(tag.attrs['class'])#a标签class属性
print(tag.attrs['href'])#a标签href属性的值
print(type(tag.attrs)) #标签内部内容
print(soup.a.string)
print(soup.p.string)
print(type(soup.p.string))
import requests
path="D:/abc.jpg"
url="http://image.ngchina.com.cn/2020/0203/20200203014405762.jpg"
try:
r=requests.get(url)
print(r.status_code)#检测错误
with open(path,'wb') as f:
f.write(r.content)
except:
print("爬取出错!")

------------恢复内容结束------------

假期学习【六】Python网络爬虫2020.2.4的更多相关文章

  1. 学习分享--python网络爬虫(一)关于如何更新python pip以及如何安装python requests库

    一.python pip的更新(我的是window10 界面可能不太一样)    1.找到电脑左下角开始按钮,并点击: 2.输入cmd 3.打开以后,先查看自己的pip版本  输入:pip -V 敲回 ...

  2. 一篇文章带你用Python网络爬虫实现网易云音乐歌词抓取

    前几天小编给大家分享了数据可视化分析,在文尾提及了网易云音乐歌词爬取,今天小编给大家分享网易云音乐歌词爬取方法. 本文的总体思路如下: 找到正确的URL,获取源码: 利用bs4解析源码,获取歌曲名和歌 ...

  3. 一篇文章教会你利用Python网络爬虫获取电影天堂视频下载链接

    [一.项目背景] 相信大家都有一种头疼的体验,要下载电影特别费劲,对吧?要一部一部的下载,而且不能直观的知道最近电影更新的状态. 今天小编以电影天堂为例,带大家更直观的去看自己喜欢的电影,并且下载下来 ...

  4. 手把手教你用Python网络爬虫获取网易云音乐歌曲

    前天给大家分享了用Python网络爬虫爬取了网易云歌词,在文尾说要爬取网易云歌曲,今天小编带大家一起来利用Python爬取网易云音乐,分分钟将网站上的音乐down到本地. 跟着小编运行过代码的筒子们将 ...

  5. 利用Python网络爬虫采集天气网的实时信息—BeautifulSoup选择器

    相信小伙伴们都知道今冬以来范围最广.持续时间最长.影响最重的一场低温雨雪冰冻天气过程正在进行中.预计,今天安徽.江苏.浙江.湖北.湖南等地有暴雪,局地大暴雪,新增积雪深度4-8厘米,局地可达10-20 ...

  6. python网络爬虫学习笔记

    python网络爬虫学习笔记 By 钟桓 9月 4 2014 更新日期:9月 4 2014 文章文件夹 1. 介绍: 2. 从简单语句中開始: 3. 传送数据给server 4. HTTP头-描写叙述 ...

  7. 第3次作业-MOOC学习笔记:Python网络爬虫与信息提取

    1.注册中国大学MOOC 2.选择北京理工大学嵩天老师的<Python网络爬虫与信息提取>MOOC课程 3.学习完成第0周至第4周的课程内容,并完成各周作业 4.提供图片或网站显示的学习进 ...

  8. 第三次作业-MOOC学习笔记:Python网络爬虫与信息提取

    1.注册中国大学MOOC 2.选择北京理工大学嵩天老师的<Python网络爬虫与信息提取>MOOC课程 3.学习完成第0周至第4周的课程内容,并完成各周作业 第一周 Requests库的爬 ...

  9. Python网络爬虫学习总结

    1.检查robots.txt 让爬虫了解爬取该网站时存在哪些限制. 最小化爬虫被封禁的可能,而且还能发现和网站结构相关的线索. 2.检查网站地图(robots.txt文件中发现的Sitemap文件) ...

随机推荐

  1. JAVA系统架构高并发解决方案 分布式缓存 分布式事务解决方案

    JAVA系统架构高并发解决方案 分布式缓存 分布式事务解决方案

  2. author模块

    一.auth模块简介 1.什么是auth模块,auth模块主要是解决什么问题 还是那句话,‘没有无缘无故的爱,也没有无缘无故的恨   凡是必有因’, 像我们开发一个网站,不可避免的设计网络用户系统,比 ...

  3. Mac保留Python2安装Python3(Anaconda3)

    作为开发人员,通常是离不开Python环境的(即便你是Java-er.Js-er.Php-er .etc.). 为何要保留Python2 Mac大多自带了python 2的环境,但是Python2在2 ...

  4. 【daily】sql分组,每组取N条

    数据准备 -- mysql语法 DROP TABLE IF EXISTS `test_group_type`; CREATE TABLE `test_group_type` ( `id` int(11 ...

  5. cmake 指定编译特定可执行文件

    最近进行编译项目,但是项目中有很多可执行文件:每次编译起来比较费时,下面一组代码可以指定特定的编译目标进行编译,而不用编译所有目标: #!/bin/bash # 通过传递第一个参数,表示要编译的目标: ...

  6. jQuery XSS漏洞

    漏洞成因: jQuery中过滤用户输入数据所使用的正则表达式存在缺陷,可能导致location.hash跨站脚本攻击. 演示程序: <!DOCTYPE html> <html lan ...

  7. IIS在已有站点上->添加应用程序命令

    已有站点:HTTP80 %systemroot%\system32\inetsrv\APPCMD ADD APP /SITE.NAME:"HTTP80" /path:/Redire ...

  8. PTA 符号配对 —— C++

    请编写程序检查C语言源程序中下列符号是否配对:/*与 */.(与 ).[与].{与}. 输入格式: 输入为一个C语言源程序.当读到某一行中只有一个句点.和一个回车的时候,标志着输入结束.程序中需要检查 ...

  9. 今日份Java

    package util; import java.sql.*; public class DBUtil { static String url = "jdbc:mysql://localh ...

  10. python 访问sql server数据库

    访问数据库 cnxn = pyodbc.connect("Driver={SQL Server};Server=localhost;Database=用户名;uid=sa;pwd=密码&qu ...