python爬取指定新闻

作业的要求来自于：https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/2894

给定一篇新闻的链接newsUrl，获取该新闻的全部信息

　　标题、作者、发布单位、审核、来源

　　发布时间:转换成datetime类型

　　点击：

newsUrl
newsId(使用正则表达式re)
clickUrl(str.format(newsId))
requests.get(clickUrl)
newClick(用字符串处理，或正则表达式)
int()

整个过程包装成一个简单清晰的函数。

#coding = utf-8;

import re;

import requests;

from datetime import datetime;

from bs4 import BeautifulSoup;

class News(object):

    '''

        广商校园新闻

    '''

    def __init__(self, url):

        self.url = url;             #新闻网页地址

        self._dom_tree = self._tranfrom_dom_tree(url);

        self._show_infos = self._dom_tree.select(".show-info")[0].text.split();

        self._update_time = self._show_infos[0][5:] + " " + self._show_infos[1];     # 最后更新时间

    def _tranfrom_dom_tree(self,url):

        '''

            将获取的html文本转化为dom树

        '''

        response = requests.get(url);

        response.encoding = "utf-8";

        return BeautifulSoup(response.text, "html.parser");

    # 新闻标题

    @property

    def title(self):

        return self._dom_tree.select(".show-title")[0].text;

    # 新闻作者

    @property

    def auothor(self):

        return self._show_infos[2][3:];

    # 新闻审核

    @property

    def auditor(self):

        return self._show_infos[3][3:];

    # 新闻发布单位

    @property

    def origin(self):

        self._show_infos[4][3:];

    # 新闻最后更新时间

    @property

    def update_time(self):

        return self._update_time;

    @update_time.setter

    def update_time(self, time):

        self._update_time = time;

    # 点击次数

    @property

    def times(self):

        clickUrl = 'http://oa.gzcc.cn/api.php?op=count&id={}&modelid=80'.format(self.news_id);

        res = requests.get(clickUrl)

        click = re.findall('(\d+)', res.text)[-1]

        return click

    # 新闻标识

    @property

    def news_id(self):

        time = datetime.strptime(self._update_time, '%Y-%m-%d %H:%M:%S');

        time = time.strftime("%m%d");

        re.match('http://news.gzcc.cn/html/2019/.*/(\d+).html', self.url).group(1)

if __name__ == "__main__":

    html_url = "http://news.gzcc.cn/html/2019/xiaoyuanxinwen_0322/11047.html";

    news = News(html_url);

python爬取指定新闻的更多相关文章

如何利用python爬取网易新闻
前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者: LSGOGroup PS:如有需要Python学习资料的小伙伴可以 ...
python 爬取36K新闻
代码如下: from urllib import request url = 'http://36kr.com/api/info-flow/newsflash_columns/newsflashes? ...
Python爬取指定重量的快递价格
目录一.获取查询接口二.获取相关数据三.编写爬虫脚本四.查看查询效果背景:现在这个时代,快递横飞.我们想寄一个快递,给出的选择也是多种多样的(根据快递的大小.送达的时间.寄送的距离及价格.公 ...
Python爬虫实战教程：爬取网易新闻
前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者: Amauri PS:如有需要Python学习资料的小伙伴可以加点击 ...
Python爬虫实战教程：爬取网易新闻；爬虫精选高手技巧
前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. stars声明很多小伙伴学习Python过程中会遇到各种烦恼问题解决不了.为 ...
Python爬取腾讯新闻首页所有新闻及评论
前言这篇博客写的是实现的一个爬取腾讯新闻首页所有的新闻及其所有评论的爬虫.选用Python的Scrapy框架.这篇文章主要讨论使用Chrome浏览器的开发者工具获取新闻及评论的来源地址. Chrom ...
python爬虫，爬取一系列新闻
这个作业的要求来自于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/2941. 由于存在多次请求,所以稍微将请求封装如下 def tr ...
Python爬取豆瓣指定书籍的短评
Python爬取豆瓣指定书籍的短评 #!/usr/bin/python # coding=utf-8 import re import sys import time import random im ...
Python 爬取所有51VOA网站的Learn a words文本及mp3音频
Python 爬取所有51VOA网站的Learn a words文本及mp3音频 #!/usr/bin/env python # -*- coding: utf-8 -*- #Python 爬取所有5 ...

随机推荐

webpack之带有可自动打开浏览器及热重载的基本配置
什么是Webpack WebPack可以看做是模块打包机:它做的事情是,分析你的项目结构,找到JavaScript模块以及其它的一些浏览器不能直接运行的拓展语言(Scss,TypeScript等),并 ...
百度分享到修改url
<!DOCTYPE html> <html> <head> <meta charset="UTF-8"> <title> ...
PermissionDispatcher 运行时权限框架
第一步在app的build.gradle文件中添加: dependencies { // PermissionDispatcher 框架的使用 implementation 'com.github.h ...
使用php的curl爬去青果教务系统课表(转)
1. 分析首先我们要了解 Http Cookie 的作用(可参考HTTP cookies 详解),简单来说就是维持一个会话,这样我们就能在登陆一个网页后,就能进入这个网页需要登陆的界面. 现在我们需 ...
WPF DataGrid分页功能实现代码
在Silverlight中DataGrid分页可以结合DataPager控件很容易实现,但是在WPF中没有类似的,需要手动实现这样一个控件: 1.创建一个UserControl,DP.xaml,代码如 ...
smarty 循环一维关联数组
<?php $oStatusList = array('1'=>'待投放','2'=>'正在运行','3'=>'暂停','4'=>'已完成','5'=>'已删除') ...
nodejs 使用superagent+cheerio+eventproxy爬取豆瓣帖子
//cnpm install superagent cheerio eventproxy fs pathvar superagent = require('superagent'); var chee ...
Ubuntu上hi3531交叉编译环境arm-hisiv100nptl-linux搭建过程
安装SDK 1.Hi3531 SDK包位置在"Hi3531_V100R001***/01.software/board"目录下,您可以看到一个 Hi3531_SDK_Vx.x.x ...
MYSQL转换编码的解决方法
MYSQL转换编码的解决方法一.在utf8的mysql下得到中文‘游客’的gbk下的16进制编码 mysql> SELECT hex(CONVERT( '游客' USING gbk )); ...
burp抓取ios设备https数据包
参考了网上其他相关教程,自己动手试了一次,有效的方法可确定为: 1.让PC机和移动端处于同一局域网, 2.burp设定监听所有接口,并监听一个端口 3.手机端设置代理,方式为手动,ip地址填PC在局域 ...

python爬取指定新闻

python爬取指定新闻的更多相关文章

随机推荐

热门专题