菜鸟学IT之python网页爬取初体验

作业来源：https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/2881

1. 简单说明爬虫原理

爬虫简单来说就是通过程序模拟浏览器放松请求站点的行为，把站点返回的HTML代码/JSON数据/二进制数据（图片、视频）爬到本地，通过一些算法进而提取自己需要的数据，存放起来使用。

2. 理解爬虫开发过程

1).简要说明浏览器工作原理；

2).使用 requests 库抓取网站数据；

requests.get(url) 获取校园新闻首页html代码

import requests

url = 'http://news.gzcc.cn/html/2019/xiaoyuanxinwen_0320/11029.html'

res = requests.get(url)

type(res)

res.encoding ='utf-8'

soupn = BeautifulSoup(res.text,'html.parser')  # html 规格打印

print(soupn)

截图：

3).了解网页

写一个简单的html文件，包含多个标签，类，id

html_sample = ' \

<html> \

<body> \

<h1 id="title">Hello</h1> \

<a href="#" class="link"> This is link1</a>\

<a href="# link2" class="link" qao=123> This is link2</a>\

</body> \

</html> '

# 各种查询方式

a = soupn.select('a') # 使用标签节点a查询

ids = soupn.select('#id') # 使用id号查询

classs = soupn.select('.class') # 使用class类查询

print(a,ids,classs)

4).使用 Beautiful Soup 解析网页；

通过BeautifulSoup(html_sample,'html.parser')把上述html文件解析成DOM Tree

select（选择器）定位数据

找出含有特定标签的html元素

找出含有特定类名的html元素

找出含有特定id名的html元素

idchaxun = soupn.select('#content')[0].text

biaoqianchaxun = soupn.select('img')[0]['src']

leichaxun = soupn.select('.show-info')[0].text

print(idchaxun,biaoqianchaxun,leichaxun)

截图：

3.提取一篇校园新闻的标题、发布时间、发布单位、作者、点击次数、内容等信息

如url = 'http://news.gzcc.cn/html/2019/xiaoyuanxinwen_0320/11029.html'

要求发布时间为datetime类型，点击次数为数值型，其它是字符串类型。

下载：requests、BeautifulSoup4库

获取网页游览次数请求的url:

clickUrl='http://oa.gzcc.cn/api.php?op=count&id=11029&modelid=80'

b = requests.get(clickUrl).text

b2 = requests.get(clickUrl).text.split('.html')[-1]

print(b2)

完整代码：

from datetime import datetime

import requests

from bs4 import BeautifulSoup

url = 'http://news.gzcc.cn/html/2019/xiaoyuanxinwen_0320/11029.html'

res = requests.get(url)

type(res)

res.encoding = 'utf-8'

soupn = BeautifulSoup(res.text,'html.parser')  # html 规格打印

q = soupn.title.text  # 标题

soupn1 = soupn.select('.show-info')[0].text  # 作者与发布时间等信息

# 时间转化为datetime类型

time1 = soupn.select('.show-info')[0].text.split()[0].split(':')[1]

time2 = soupn.select('.show-info')[0].text.split()[1]

Time = time1 + ' ' + time2

Time1 = datetime.strptime(Time, '%Y-%m-%d %H:%M:%S')

Time2 = datetime.strftime(Time1, '%Y{y}-%m{m}-%d{d} %H{H}%M{M}%S{S}').format(y='年', m='月', d='日', H='时', M='分', S='秒')

Zuozhe = soupn.select('.show-info')[0].text.split()[2]  # 作者

shenhe = soupn.select('.show-info')[0].text.split()[3]  # 审核

laiyuan = soupn.select('.show-info')[0].text.split()[4]   # 来源

# 游览次数

clickUrl='http://oa.gzcc.cn/api.php?op=count&id=11029&modelid=80'

b = requests.get(clickUrl).text.split('.html')[-1]  # 获取总游览次数

sel = "();''"

for i in sel:

    b = b.replace(i, '')

zhengwen = soupn.select('.show-content')[0].text

print("\n"+"标题："+q+"\n"+"发布时间："+Time2+"\n"+

      Zuozhe+"\n"+shenhe+"\n"+laiyuan+"\n"+

      "游览次数："+b+"\n"+"正文："+zhengwen)

效果截图：

菜鸟学IT之python网页爬取初体验的更多相关文章

菜鸟学IT之python网页爬取多页爬取
作业来源:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/3002 0.从新闻url获取点击次数,并整理成函数 newsUrl news ...
菜鸟学IT之豆瓣爬取初体验
作业来源:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/3159 可以用pandas读出之前保存的数据: newsdf = pd.re ...
python 网页爬取数据生成文字云图
1. 需要的三个包: from wordcloud import WordCloud #词云库 import matplotlib.pyplot as plt #数学绘图库 import jieba; ...
python之爬取网页数据总结（一）
今天尝试使用python,爬取网页数据.因为python是新安装好的,所以要正常运行爬取数据的代码需要提前安装插件.分别为requests Beautifulsoup4 lxml 三个插件 ...
python连续爬取多个网页的图片分别保存到不同的文件夹
python连续爬取多个网页的图片分别保存到不同的文件夹作者:vpoet mail:vpoet_sir@163.com #coding:utf-8 import urllib import ur ...
Python和BeautifulSoup进行网页爬取
在大数据.人工智能时代,我们通常需要从网站中收集我们所需的数据,网络信息的爬取技术已经成为多个行业所需的技能之一.而Python则是目前数据科学项目中最常用的编程语言之一.使用Python与Beaut ...
大神：python怎么爬取js的页面
大神:python怎么爬取js的页面可以试试抓包看看它请求了哪些东西, 很多时候可以绕过网页直接请求后面的API 实在不行就上 selenium (selenium大法好) selenium和pha ...
python定时器爬取豆瓣音乐Top榜歌名
python定时器爬取豆瓣音乐Top榜歌名作者:vpoet mail:vpoet_sir@163.com 注:这些小demo都是前段时间为了学python写的,现在贴出来纯粹是为了和大家分享一下 # ...
python大规模爬取京东
python大规模爬取京东主要工具 scrapy BeautifulSoup requests 分析步骤打开京东首页,输入裤子将会看到页面跳转到了这里,这就是我们要分析的起点我们可以看到这个页面 ...

随机推荐

python爬虫数据解析之xpath
xpath是一门在xml文档中查找信息的语言.xpath可以用来在xml文档中对元素和属性进行遍历. 在xpath中,有7中类型的节点,元素,属性,文本,命名空间,处理指令,注释及根节点. 节点首先 ...
从一道面试题探究 Integer 的实现
记得有次面试,面试官问我: 如何写一个方法交换两个 Integer 类型的值? 当时心里一惊,这是把我当小白了呀!交换两个数的值还不容易么,最简单的直接搞一个中间变量,然后就可以交换了… … 面试官随 ...
由ODI初始化资料档案库（RUC）引起修改ORACLE字符集（ZHS16GBK-AL32UTF8）
如果要部署代理,需要在RUC中进行资料档案库的初始化,这样可以免去配置代理的繁琐.在RUC连接数据库时会有先决条件检查,如果出现下图的警告,就需要在ORACLE中修改字符集. 具体操作如下: 登录SQ ...
python接口自动化（四）--接口测试工具介绍（详解）
简介 “工欲善其事必先利其器”,通过前边几篇文章的介绍,大家大致对接口有了进一步的认识.那么接下来让我们看看接口测试的工具有哪些. 目前,市场上有很多支持接口测试的工具.利用工具进行接口测试,能够提供 ...
.NET Core微服务之基于Ocelot实现API网关服务
Tip: 此篇已加入.NET Core微服务基础系列文章索引一.啥是API网关? API 网关一般放到微服务的最前端,并且要让API 网关变成由应用所发起的每个请求的入口.这样就可以明显的简化客户端 ...
Python爬虫入门教程 44-100 Charles的安装与使用-手机APP爬虫部分
1. 第二款抓包工具Charles安装与使用 Charles和Fiddler一样,也是一款抓包工具,比Fiddler界面更加清晰,支持多平台 1.1 官方网址 https://www.charlesp ...
【Android Studio安装部署系列】十四、Android studio移除工程和删除项目
版权声明:本文为HaiyuKing原创文章,转载请注明出处! 概述 Android Studio删除工程.项目的操作步骤. 移除工程主要用于从最近打开的项目列表中移除.硬盘中还是存在这个项目的. F ...
Asp.Net Core 轻松学-从安装环境开始
Asp.Net Core 介绍 Asp.Net Core是微软新一代的跨平台开发框架,基于 C# 语言进行开发,该框架的推出,意味着微软从系统层面正式进击 Linux 服务器平台:从更新速度开 ...
聊聊数据库~4.SQL优化篇
1.5.查询的艺术上期回顾:https://www.cnblogs.com/dotnetcrazy/p/10399838.html 本节脚本:https://github.com/lotapp/Ba ...
jenkins实现以gitlab为代码仓库的构建
简介前一篇随笔是安装jenkins的过程,比较简单,这一次说一下用jenkins配置以gitlab为代码管理仓库的maven项目的完整个构建过程,以及我碰到的一些问题.由于是maven项目,所以我们 ...

菜鸟学IT之python网页爬取初体验

菜鸟学IT之python网页爬取初体验的更多相关文章

随机推荐

热门专题