python 爬虫爬取序列博客文章列表

python中写个爬虫真是太简单了



import urllib.request

from pyquery import PyQuery as PQ

# 根据URL获取内容并解码为UTF-8

def getHtml(url):

    page = urllib.request.urlopen(url)

    html = page.read()

    html = html.decode('UTF-8')

    return html

# 解析返回的html

def getArtical(html, results):

    doc = PQ(html)

    # data = doc('.searchAtcList .searchAtc_top a')

    data = doc('.atc_title a')

    for x in data.items():

        title = x.text()

        href = x.attr('href')

        if title.find('教你炒股票') >= 0:

            # 标题被截断的需要根据URL获取完整的标题

            if title.find('…') >= 0:

                title = getArticalDetail(x.attr('href'))

            r = '[' + title + '](' + href + ')'

            index = title[5 : title.index('：')]

            results.append((int(index),r))

# 获取文章标题

def getArticalDetail(url):

    html = getHtml(url)

    doc = PQ(html)

    data = doc('.articalTitle h2')

    title = data.text()

    return title

blog3 = 'http://blog.sina.com.cn/s/articlelist_1215172700_0_'

# http://blog.sina.com.cn/s/articlelist_1215172700_0_1.html

# http://blog.sina.com.cn/s/articlelist_1215172700_0_15.html

# blog = 'http://control.blog.sina.com.cn/search/search.php?uid=1215172700&keyword=%E8%82%A1%E7%A5%A8&page='

# blog2 = 'http://control.blog.sina.com.cn/search/search.php?uid=1215172700&keyword=%E8%82%A1%E7%A5%A8&page='

results = []

# 总共有23页

for i in range(1, 24):

    url = blog3 + str(i) + '.html'

    print(url)

    html = getHtml(url)

    getArtical(html, results)

# 排序后输出

results.sort()

for x in results:

    print(x[1])

python 爬虫爬取序列博客文章列表的更多相关文章

Python爬虫:爬取自己博客的主页的标题，链接，和发布时间
代码 # -*- coding: utf-8 -*- """ ------------------------------------------------- File ...
Python爬虫简单实现CSDN博客文章标题列表
Python爬虫简单实现CSDN博客文章标题列表操作步骤: 分析接口,怎么获取数据? 模拟接口,尝试提取数据封装接口函数,实现函数调用. 1.分析接口打开Chrome浏览器,开启开发者工具(F1 ...
windows下使用python的scrapy爬虫框架，爬取个人博客文章内容信息
scrapy作为流行的python爬虫框架,简单易用,这里简单介绍如何使用该爬虫框架爬取个人博客信息.关于python的安装和scrapy的安装配置请读者自行查阅相关资料,或者也可以关注我后续的内容. ...
Python爬取CSDN博客文章
0 url :http://blog.csdn.net/youyou1543724847/article/details/52818339Redis一点基础的东西目录 1.基础底层数据结构 2.win ...
JAVA爬虫挖取CSDN博客文章
开门见山,看看这个教程的主要任务,就去csdn博客,挖取技术文章,我以<第一行代码–安卓>的作者为例,将他在csdn发表的额博客信息都挖取出来.因为郭神是我在大学期间比较崇拜的对象之一.他 ...
Java爬取网络博客文章
前言近期本人在某云上购买了个人域名,本想着以后购买与服务器搭建自己的个人网站,由于需要筹备的太多,暂时先搁置了,想着先借用GitHub Pages搭建一个静态的站,搭建的过程其实也曲折,主要是域名地 ...
Python爬虫抓取csdn博客
昨天晚上为了下载保存某位csdn大牛的所有博文,写了一个爬虫来自己主动抓取文章并保存到txt文本,当然也能够保存到html网页中. 这样就能够不用Ctrl+C 和Ctrl+V了,很方便.抓取别的站点 ...
Python爬虫爬取一篇韩寒新浪博客
网上看到大神对Python爬虫爬到非常多实用的信息,认为非常厉害.突然对想学Python爬虫,尽管自己没学过Python.但在网上找了一些资料看了一下,看到爬取韩寒新浪博客的视频.共三集,第一节讲爬取 ...
python爬虫爬取内容中，-xa0，-u3000的含义
python爬虫爬取内容中,-xa0,-u3000的含义 - CSDN博客 https://blog.csdn.net/aiwuzhi12/article/details/54866310

随机推荐

WordPress主题开发：WP_Query基本用法
为什么要学WP_Query? wordpress默认会根据网址调用数据,不能满足我们所有建站要求,而WP_Query可以用于查询任何你想要的内容,相当于自定义数据调用. 便于记忆,在讲用法之前我们回顾 ...
JavaScript中 location.host 与 location.hostname 的区别
JavaScript 中,大多数情况下,我们不会发现 location.host 与 location.hostname 的区别,因为大多数情况下,我们的网页用的是 80 端口. 他们的区别: loc ...
Java多线程中join方法的理解
thread.Join把指定的线程加入到当前线程,可以将两个交替执行的线程合并为顺序执行的线程.比如在线程B中调用了线程A的Join()方法,直到线程A执行完毕后,才会继续执行线程B. t.join( ...
详细解读LruCache类
LruCache是android提供的一个缓存工具类,其算法是最近最少使用算法.它把最近使用的对象用“强引用”存储在LinkedHashMap中,并且把最近最少使用的对象在缓存值达到预设定值之前就从内 ...
《图解CSS3：核心技术与案例实战》
<图解CSS3:核心技术与案例实战> 基本信息作者: 大漠丛书名: Web开发技术丛书出版社:机械工业出版社 ISBN:9787111469209 上架时间:2014-7-2 出版日 ...
Plupload设置自定义参数
在HTML 5比较流行的当下,Plupload是文件上传的不二之选,特别是Adobe宣布2020年将停止对Flash的更新支持.本文记录一下如何在上传文件的时候,传递自定义参数. 了解到两种方式,一种 ...
访问修饰符（C# 编程指南）
所有类型和类型成员都具有可访问性级别,该级别可以控制是否可以从你的程序集或其他程序集中的其他代码中使用它们. 可以使用以下访问修饰符在进行声明时指定类型或成员的可访问性: public同一程序集中的任 ...
Photoshop 使用阈值调整色阶
1. 阈值原理阈值的定义其实就是“临界点”,即过了这个临界点是一种情况(比如黑色),没有超过这个临界点是另外一种情况(比如白色),所以图像上只有黑.白两种情况出现.临界点的值由你定义: 阈值实际应用 ...
remote: GitLab: You are not allowed to push code to protected branches on this project.
"C:\Program Files\Git\bin\git.exe" push --recurse-submodules=check --progress "origin ...
ENC28J60学习笔记——第1部分
1前言嵌入式以太网开发,可以分为两个部分,一个是以太网收发芯片的使用,一个是嵌入式以太网协议栈的实现.以太网收发芯片的使用要比串口收发芯片的使用复杂的多,市面上流通比较广泛的以太网收发芯片种类还不少 ...

python 爬虫 爬取序列博客文章列表

python 爬虫 爬取序列博客文章列表的更多相关文章

随机推荐

热门专题

python 爬虫爬取序列博客文章列表

python 爬虫爬取序列博客文章列表的更多相关文章