python之爬取练习

练习要求爬取http://yuedu.anyv.net/网址的最大页码数和文章标题和链接

网址页面截图：

代码截图：

完整代码：

根据网页显示页码的方式，爬取的所有页码中倒数第二个页码是最大页码。

import urllib.request

from bs4 import BeautifulSoup

import time

import requests

import re

import itertools

import io

import sys

sys.stdout=io.TextIOWrapper(sys.stdout.buffer,encoding='gb18030')

class DrawStu():

    def __init__(self):

        self.baseurl='http://yuedu.anyv.net/';

        pass;

    #实现爬取api

    def common_draw(self,url):

        response=urllib.request.urlopen(url);#注意 写在内部以后 变成了形参

        html=response.read();#进行乱码处理

        code_of_html=html.decode('gbk');#进行解码

        doc=BeautifulSoup(html);

        return doc;

    #爬取总页数

    def get_page_size(self):

        _doc=self.common_draw(self.baseurl);

        pagecxt=_doc.find('div',{'id':'content-pagenation'}).findAll('a');#获取当前a个数

        size=len(pagecxt);

        maxsize=pagecxt[size-].text;#获取倒数第二个进行获取里面值就是最大值

        maxsize=int(maxsize)

        return maxsize;

    #爬取文章标题和链接

    def get_title(self):

        r=requests.get("http://yuedu.anyv.net/")

        r.encoding=r.apparent_encoding

        result=r.text

        bs=BeautifulSoup(result,'html.parser')

        pagecxt=bs.find('div',{'class':'content'}).findAll('div',{'class':'image group'});

        for x in pagecxt:

            pageinfo=x.find('div',{'class':'grid news_desc'});

            title=pageinfo.find('h3').find('a').text;

            print("文章标题:")

            print(title)

            link=pageinfo.find('h3').find('a').get('href');

            print("文章链接:")

            print(link)

D=DrawStu();

if __name__ == '__main__':

    size=D.get_page_size();

    print("总页数:")

    print(size)

    title=D.get_title();

    print(title)

运行结果截图：

python之爬取练习的更多相关文章

大神：python怎么爬取js的页面
大神:python怎么爬取js的页面可以试试抓包看看它请求了哪些东西, 很多时候可以绕过网页直接请求后面的API 实在不行就上 selenium (selenium大法好) selenium和pha ...
python连续爬取多个网页的图片分别保存到不同的文件夹
python连续爬取多个网页的图片分别保存到不同的文件夹作者:vpoet mail:vpoet_sir@163.com #coding:utf-8 import urllib import ur ...
python定时器爬取豆瓣音乐Top榜歌名
python定时器爬取豆瓣音乐Top榜歌名作者:vpoet mail:vpoet_sir@163.com 注:这些小demo都是前段时间为了学python写的,现在贴出来纯粹是为了和大家分享一下 # ...
python大规模爬取京东
python大规模爬取京东主要工具 scrapy BeautifulSoup requests 分析步骤打开京东首页,输入裤子将会看到页面跳转到了这里,这就是我们要分析的起点我们可以看到这个页面 ...
Python爬虫 - 爬取百度html代码前200行
Python爬虫 - 爬取百度html代码前200行 - 改进版, 增加了对字符串的.strip()处理源代码如下: # 改进版, 增加了 .strip()方法的使用 # coding=utf-8 ...
Python+Selenium爬取动态加载页面（2）
注: 上一篇<Python+Selenium爬取动态加载页面(1)>讲了基本地如何获取动态页面的数据,这里再讲一个稍微复杂一点的数据获取全国水雨情网.数据的获取过程跟人手动获取过程类似,所 ...
Python+Selenium爬取动态加载页面（1）
注: 最近有一小任务,需要收集水质和水雨信息,找了两个网站:国家地表水水质自动监测实时数据发布系统和全国水雨情网.由于这两个网站的数据都是动态加载出来的,所以我用了Selenium来完成我的数据获取. ...
python 3 爬取百度图片
python 3 爬取百度图片学习了:https://blog.csdn.net/X_JS612/article/details/78149627
用Python爬虫爬取广州大学教务系统的成绩（内网访问）
用Python爬虫爬取广州大学教务系统的成绩(内网访问) 在进行爬取前,首先要了解: 1.什么是CSS选择器? 每一条css样式定义由两部分组成,形式如下: [code] 选择器{样式} [/code ...
使用Python爬虫爬取网络美女图片
代码地址如下:http://www.demodashi.com/demo/13500.html 准备工作安装python3.6 略安装requests库(用于请求静态页面) pip install ...

随机推荐

Spring Boot 的静态资源处理
做web开发的时候,我们往往会有很多静态资源,如html.图片.css等.那如何向前端返回静态资源呢?以前做过web开发的同学应该知道,我们以前创建的web工程下面会有一个webapp的目录,我们只要 ...
使用 Flutter 开发 Mac 桌面应用
Flutter 可以开发 Mac,Linux,Windows 桌面,但是对于平台目前只能打对于的包,以及调试本平台的包. 切换到 master 分支首先必须切换到 master 分支.我之前在 de ...
ORA-17627: ORA-12577：关于文件存储满的问题
问题描述:搭建DG的时候,要rman从orcl恢复到orclstd数据库来,dup复制了半天,结果最后报错:ORA-17627: ORA-12577: Message 12577 not found; ...
pwn-200
题目连接 https://adworld.xctf.org.cn/media/task/attachments/49bd95c78386423997fa044a9e750015 借鉴 https:// ...
Django中获取参数(路径，查询，请求头，请求体)
一.通常HTTP协议向服务器传参有几种途径 : 提取URL的特定部分,如/weather/shanghai/2018,可以在服务器端的路由中用正则表达式截取: 查询字符串(query string), ...
Codeforces Round #604(Div. 2,
// https://codeforces.com/contest/1265/problem/D /* 感觉像是遍历的思维构造题有思路就很好做的可以把该题想象成过山车或者山峰...... */ # ...
JSON对象转JAVA对象--com.alibaba.fastjson.JSONObject
打印结果:
多个线程运行MR程序时hadoop出现的问题
夜间多个任务同时并行,总有几个随机性有任务失败,查看日志: cat -n ads_channel.log |grep "Caused by" Caused by: java.uti ...
PHP收集一些常用函数与好用的自定义函数
.自定义打印函数P //自定义打印function pp($data,$exit=0){// 定义样式 $str='<pre style="display: block;padding ...
Spring 框架基础(01)：核心组件总结，基础环境搭建
本文源码:GitHub·点这里 || GitEE·点这里一.Spring框架 1.框架简介 Spring是一个开源框架,框架的主要优势之一就是其分层架构,分层架构允许使用者选择使用哪一个组件,同时为 ...

python之爬取练习

python之爬取练习的更多相关文章

随机推荐

热门专题