【Day5】项目实战.CSDN热门文章爬取

import urllib.request as ur

import lxml.etree as le

import user_agent

keyword = input('请输入关键词:')

pn_start = int(input('起始页:'))

pn_end = int(input('终止页:'))

def getRequest(url):

    return ur.Request(

        url=url,

        headers={

            'User-Agent':user_agent.get_user_agent_pc(),

        }

    )

def getProxyOpener():

    proxy_address = ur.urlopen('http://api.ip.data5u.com/dynamic/get.html?order=d314e5e5e19b0dfd19762f98308114ba&sep=4').read().decode('utf-8').strip()

    proxy_handler = ur.ProxyHandler(

        {

            'http':proxy_address

        }

    )

    return ur.build_opener(proxy_handler)

for pn in range(pn_start,pn_end+1):

    request = getRequest(

        'https://so.csdn.net/so/search/s.do?p=%s&q=%s&t=blog&domain=&o=&s=&u=&l=&f=&rbg=0' % (pn,keyword)

    )

    try:

        response = getProxyOpener().open(request).read()

        href_s = le.HTML(response).xpath('//span[@class="down fr"]/../span[@class="link"]/a/@href')

        for href in href_s:

            try:

                response_blog = getProxyOpener().open(

                    getRequest(href)

                ).read()

                title = le.HTML(response_blog).xpath('//h1[@class="title-article"]/text()')[0]

                print(title)

                with open('blog/%s.html' % title,'wb') as f:

                    f.write(response_blog)

            except Exception as e:

                print(e)

    except:pass

【Day5】项目实战.CSDN热门文章爬取的更多相关文章

scrapy 项目实战（一）----爬取雅昌艺术网数据
第一步:创建scrapy项目: scrapy startproject Demo 第二步:创建一个爬虫 scrapy genspider demo http://auction.artron.net/ ...
Python实现抓取CSDN热门文章列表
1.使用工具: Python3.5 BeautifulSoup 2.抓取网站: csdn热门文章列表 http://blog.csdn.net/hot.html 3.分析网站代码: 4.实现代码: _ ...
破解微信防盗链&微信公众号文章爬取方案
破解微信图文防盗链:https://www.cnblogs.com/xsxshmily/p/8000043.html 图片解除防盗链:https://blog.csdn.net/show_ljw/ar ...
Python知乎热门话题爬取
本例子是参考崔老师的Python3网络爬虫开发实战写的看网页界面: 热门话题都在 explore-feed feed-item的div里面源码如下: import requests from py ...
爬虫实战(二) 用Python爬取网易云歌单
最近,博主喜欢上了听歌,但是又苦于找不到好音乐,于是就打算到网易云的歌单中逛逛本着 "用技术改变生活" 的想法,于是便想着写一个爬虫爬取网易云的歌单,并按播放量自动进行排序这篇 ...
开源项目-网上公开http代理爬取、简单分类
爬取网上公开免费代理(http/socks),解析入库,可满足需要切换IP的场景(爬虫.投票等)需求. 项目地址: https://github.com/Jwnie/proxyservice 1.采用 ...
利用爬虫将Yuan先生的博客文章爬取下来
由于一次巧遇,我阅读了Yuan先生的一篇博客文章,感觉从Yuan先生得博客学到很多东西,很喜欢他得文章.于是我就关注了他,并且想阅读更多出自他手笔得博客文章,无奈,可能Yuan先生不想公开自己得博客吧 ...
第十六节：Scrapy爬虫框架之项目创建spider文件数据爬取
Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架. 其可以应用在数据挖掘,信息处理或存储历史数据等一系列的程序中.其最初是为了页面抓取所设计的, 也可以应用在获取API所返回的数据或 ...
爬虫实战(三) 用Python爬取拉勾网
目录 0.前言 1.初始化 2.爬取数据 3.保存数据 4.数据可视化 5.大功告成 0.前言最近,博主面临着选方向的困难(唉,选择困难症患者 >﹏<),所以希望了解一下目前不同岗位的就 ...

随机推荐

学习 TTreeView [2] - Items.Item[i]、Items[i]、.Text、SetFocus(设置焦点)、Select(选择)
本例效果图: 源码: unit Unit1; interface uses Windows, Messages, SysUtils, Variants, Classes, Graphics, Co ...
数据结构与算法 Javascript描述
数据结构与算法系列主要记录<数据结构与算法 Javascript描述>学习心得
Swift学习（三）
3.函数: 在Swift中函数的定义基本与OC一样. 主要区别为: 通过func关键词定义函数返回值在->关键词后标注各举一个类方法与实例方法例子. 1 2 + (UIColor*)blac ...
Scapy 从入门到放弃
0x00 前言最近闲的没事,抽空了解下地表最强的嗅探和收发包的工具:scapy.scapy是一个python模块,使用简单,并且能灵活地构造各种数据包,是进行网络安全审计的好帮手. 0x01 安装 ...
2019－10－24 李宗盛 spss作业
3.1数据排序. 在统计分析时最初的变量. 可能不符合统计分析的要求,需要用户对目标数据进行整理,来符合分析方法个案排序.数据——个案排序.排序依据,排序顺序,变量排序数据——变量排序变量视图 ...
C++编译器、链接器工作原理
1 几个基本概念编译:编译器对源文件的编译过程,就是将源文件中的文本形式代码翻译为机器语言形式的目标文件的过程,此过程中会有一系列语法检查.指令优化等,生成目标(OBJ)文件. 编译单元:每一个CP ...
ufile开公钥私钥
https://docs.ucloud.cn/storage_cdn/ufile/guide/token登陆UCloud官方控制台,进入UFile—令牌管理
第一周--------Java的特性和优势
--------我认可的1.跨平台性: Java 的int 永远是32位,不像C++可能是16.,32 可能是根据编译器厂商规定的变化.这样的话,程序的移植就会变得困难2.安全性 Java ...
SpringBoot（二）启动原理
SpringBoot自动配置模块该配置模块的主要使用到了SpringFactoriesLoader,即Spring工厂加载器,该对象提供了loadFactoryNames方法,入参为factoryC ...
什么是HybridDB for MySQL (原PetaData)
云数据库HybridDB for MySQL (原名PetaData)是同时支持海量数据在线事务(OLTP)和在线分析(OLAP)的HTAP(Hybrid Transaction/Analytical ...

【Day5】项目实战.CSDN热门文章爬取

【Day5】项目实战.CSDN热门文章爬取的更多相关文章

随机推荐

热门专题