菜鸟学IT之python网页爬取初体验

作业来源：https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/2881

1. 简单说明爬虫原理

爬虫简单来说就是通过程序模拟浏览器放松请求站点的行为，把站点返回的HTML代码/JSON数据/二进制数据（图片、视频）爬到本地，通过一些算法进而提取自己需要的数据，存放起来使用。

2. 理解爬虫开发过程

1).简要说明浏览器工作原理；

2).使用 requests 库抓取网站数据；

requests.get(url) 获取校园新闻首页html代码

import requests

url = 'http://news.gzcc.cn/html/2019/xiaoyuanxinwen_0320/11029.html'

res = requests.get(url)

type(res)

res.encoding ='utf-8'

soupn = BeautifulSoup(res.text,'html.parser')  # html 规格打印

print(soupn)

截图：

3).了解网页

写一个简单的html文件，包含多个标签，类，id

html_sample = ' \

<html> \

<body> \

<h1 id="title">Hello</h1> \

<a href="#" class="link"> This is link1</a>\

<a href="# link2" class="link" qao=123> This is link2</a>\

</body> \

</html> '

# 各种查询方式

a = soupn.select('a') # 使用标签节点a查询

ids = soupn.select('#id') # 使用id号查询

classs = soupn.select('.class') # 使用class类查询

print(a,ids,classs)

4).使用 Beautiful Soup 解析网页；

通过BeautifulSoup(html_sample,'html.parser')把上述html文件解析成DOM Tree

select（选择器）定位数据

找出含有特定标签的html元素

找出含有特定类名的html元素

找出含有特定id名的html元素

idchaxun = soupn.select('#content')[0].text

biaoqianchaxun = soupn.select('img')[0]['src']

leichaxun = soupn.select('.show-info')[0].text

print(idchaxun,biaoqianchaxun,leichaxun)

截图：

3.提取一篇校园新闻的标题、发布时间、发布单位、作者、点击次数、内容等信息

如url = 'http://news.gzcc.cn/html/2019/xiaoyuanxinwen_0320/11029.html'

要求发布时间为datetime类型，点击次数为数值型，其它是字符串类型。

下载：requests、BeautifulSoup4库

获取网页游览次数请求的url:

clickUrl='http://oa.gzcc.cn/api.php?op=count&id=11029&modelid=80'

b = requests.get(clickUrl).text

b2 = requests.get(clickUrl).text.split('.html')[-1]

print(b2)

完整代码：

from datetime import datetime

import requests

from bs4 import BeautifulSoup

url = 'http://news.gzcc.cn/html/2019/xiaoyuanxinwen_0320/11029.html'

res = requests.get(url)

type(res)

res.encoding = 'utf-8'

soupn = BeautifulSoup(res.text,'html.parser')  # html 规格打印

q = soupn.title.text  # 标题

soupn1 = soupn.select('.show-info')[0].text  # 作者与发布时间等信息

# 时间转化为datetime类型

time1 = soupn.select('.show-info')[0].text.split()[0].split(':')[1]

time2 = soupn.select('.show-info')[0].text.split()[1]

Time = time1 + ' ' + time2

Time1 = datetime.strptime(Time, '%Y-%m-%d %H:%M:%S')

Time2 = datetime.strftime(Time1, '%Y{y}-%m{m}-%d{d} %H{H}%M{M}%S{S}').format(y='年', m='月', d='日', H='时', M='分', S='秒')

Zuozhe = soupn.select('.show-info')[0].text.split()[2]  # 作者

shenhe = soupn.select('.show-info')[0].text.split()[3]  # 审核

laiyuan = soupn.select('.show-info')[0].text.split()[4]   # 来源

# 游览次数

clickUrl='http://oa.gzcc.cn/api.php?op=count&id=11029&modelid=80'

b = requests.get(clickUrl).text.split('.html')[-1]  # 获取总游览次数

sel = "();''"

for i in sel:

    b = b.replace(i, '')

zhengwen = soupn.select('.show-content')[0].text

print("\n"+"标题："+q+"\n"+"发布时间："+Time2+"\n"+

      Zuozhe+"\n"+shenhe+"\n"+laiyuan+"\n"+

      "游览次数："+b+"\n"+"正文："+zhengwen)

效果截图：

菜鸟学IT之python网页爬取初体验的更多相关文章

菜鸟学IT之python网页爬取多页爬取
作业来源:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/3002 0.从新闻url获取点击次数,并整理成函数 newsUrl news ...
菜鸟学IT之豆瓣爬取初体验
作业来源:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/3159 可以用pandas读出之前保存的数据: newsdf = pd.re ...
python 网页爬取数据生成文字云图
1. 需要的三个包: from wordcloud import WordCloud #词云库 import matplotlib.pyplot as plt #数学绘图库 import jieba; ...
python之爬取网页数据总结（一）
今天尝试使用python,爬取网页数据.因为python是新安装好的,所以要正常运行爬取数据的代码需要提前安装插件.分别为requests Beautifulsoup4 lxml 三个插件 ...
python连续爬取多个网页的图片分别保存到不同的文件夹
python连续爬取多个网页的图片分别保存到不同的文件夹作者:vpoet mail:vpoet_sir@163.com #coding:utf-8 import urllib import ur ...
Python和BeautifulSoup进行网页爬取
在大数据.人工智能时代,我们通常需要从网站中收集我们所需的数据,网络信息的爬取技术已经成为多个行业所需的技能之一.而Python则是目前数据科学项目中最常用的编程语言之一.使用Python与Beaut ...
大神：python怎么爬取js的页面
大神:python怎么爬取js的页面可以试试抓包看看它请求了哪些东西, 很多时候可以绕过网页直接请求后面的API 实在不行就上 selenium (selenium大法好) selenium和pha ...
python定时器爬取豆瓣音乐Top榜歌名
python定时器爬取豆瓣音乐Top榜歌名作者:vpoet mail:vpoet_sir@163.com 注:这些小demo都是前段时间为了学python写的,现在贴出来纯粹是为了和大家分享一下 # ...
python大规模爬取京东
python大规模爬取京东主要工具 scrapy BeautifulSoup requests 分析步骤打开京东首页,输入裤子将会看到页面跳转到了这里,这就是我们要分析的起点我们可以看到这个页面 ...

随机推荐

C++11 (多线程)并发编程总结
| 线程 std::thread 创建std::thread,一般会绑定一个底层的线程.若该thread还绑定好函数对象,则即刻将该函数运行于thread的底层线程. 线程相关的很多默认是move语义 ...
SpringBoot技术栈搭建个人博客【前台开发/项目总结】
前言:写前台真的是我不擅长的东西...所以学习和写了很久很久...前台页面大概开发了两天半就开发好了,采用的静态的html和bootstrap来写,写后台的时候纠结住了...怎么说呢,写页面真的是头疼 ...
4.4管道和中间件介绍「深入浅出ASP.NET Core系列」
希望给你3-5分钟的碎片化学习,可能是坐地铁.等公交,积少成多,水滴石穿,谢谢关注. 管道流我们知道一个管道可以有一个或多个中间件,而中间件的职责是根据HttpContext处理HTTP请求,然后往 ...
keil进阶教程
前言 keil只懂得创建软件工程是远远不够的,如果要想顺心使用,应该要懂得部分配置,这样使用心情顺畅,码代码也会越发高效. 设置字号字体编辑点击编辑菜单,会出现很多子目录,找到配置,点击进入设置页面 ...
vue实例的生命周期函数
Vue的生命周期函数通常分为以下三类: ①实例创建时的生命周期函数:②实例执行时的生命周期的函数:③实例销毁时的生命周期的函数. 代码与注释详解: <!DOCTYPE html> < ...
asp.net easyui 动态绑定下拉框
前台: <title>标题</title> <link href="EasyUi_v1.3.4/easyui/themes/default/easyui.css ...
OO第二次博客作业——电梯调度
OO第二次博客作业——电梯调度前言最近三周,OO课程进入多线程学习阶段,主要通过三次电梯调度作业来学习.从单部电梯的傻瓜式调度到有性能要求的调度到多部电梯的调度,难度逐渐提升,对同学们的要求逐渐变 ...
PHP接口APP接口
使用PHP来生成APP接口数据是非常简单的,如果你还不了解PHP没有关系,只需要看过PHP的基本语法,再看本示例就可以了. APP接口一般都是json格式(当然也有少数xml格式)遵循restful规 ...
java反序列化漏洞实战
准备: 域名一个,用于增加NS解析,判断是否存在反序列化漏洞. 公网IP服务器一台,用于搭建DNS代理,抓包判断. dnschef,DNS代理 ysoserial.jar生成payload. 简单的p ...
20190421-那些年使用过的CSS预处理器（CSS Preprocessor）
写在前面的乱七八糟的前言: emmm,不得不说,早上七点是个好时间,公园里跳广场舞的大妈,街边卖菜刀看报的大爷,又不得不说,广州图书馆是个好地方,该有的安静,该有的人气,听着楼下小孩子的声音,看着周围 ...

菜鸟学IT之python网页爬取初体验

菜鸟学IT之python网页爬取初体验的更多相关文章

随机推荐

热门专题