Python爬虫:爬取自己博客的主页的标题，链接，和发布时间

##代码

# -*- coding: utf-8 -*-

"""

-------------------------------------------------

   File Name：     getCnblogs

   Description :

   Author :       神秘藏宝室

   date：          2017-09-21

-------------------------------------------------

   Change Activity:

                   2017-09-21:

-------------------------------------------------

"""

import requests

from bs4 import BeautifulSoup

res = requests.get('http://www.cnblogs.com/Mysterious/')

res.encoding = ('utf-8')

soup = BeautifulSoup(res.text,'html.parser')

def getBlogWriteTime(url):

    res = requests.get(url)

    res.encoding = ('utf-8')

    soup = BeautifulSoup(res.text,'html.parser')

    return soup.select('#post-date')[0].text

#获取标题和链接

num = 1

for pt in soup.select('.postTitle2'):

    print num,'\t',pt.text,'\t',pt['href'],'\t',getBlogWriteTime(pt['href'])

    num = num + 1

##结果

1 	Python爬虫：获取新浪网新闻 	http://www.cnblogs.com/Mysterious/p/7538833.html 	2017-09-18 00:10

2 	运行jupyter notebook 出错 Error executing Jupyter command 'notebook' 	http://www.cnblogs.com/Mysterious/p/7538169.html 	2017-09-17 22:10

3 	安装和使用jupyter 	http://www.cnblogs.com/Mysterious/p/7533607.html 	2017-09-17 00:25

4 	windows下python调用c文件流程 	http://www.cnblogs.com/Mysterious/p/7529228.html 	2017-09-16 00:01

5 	python Unable to find vcvarsall.bat 错误 	http://www.cnblogs.com/Mysterious/p/7529142.html 	2017-09-15 23:30

6 	阿里云公网IP不能使用 	http://www.cnblogs.com/Mysterious/p/7523618.html 	2017-09-14 22:36

7 	Python2 socket TCPServer 多线程并发 超时关闭 	http://www.cnblogs.com/Mysterious/p/7523559.html 	2017-09-14 22:27

8 	Python2 socket 多线程并发 ThreadingTCPServer Demo 	http://www.cnblogs.com/Mysterious/p/7507314.html 	2017-09-11 21:50

9 	Python2 socket 多线程并发 TCPServer Demo 	http://www.cnblogs.com/Mysterious/p/7507221.html 	2017-09-11 21:28

10 	Python socket TCPServer Demo 	http://www.cnblogs.com/Mysterious/p/7507042.html 	2017-09-11 20:59

Python爬虫:爬取自己博客的主页的标题，链接，和发布时间的更多相关文章

python 爬虫爬取序列博客文章列表
python中写个爬虫真是太简单了 import urllib.request from pyquery import PyQuery as PQ # 根据URL获取内容并解码为UTF-8 def g ...
Python爬虫抓取csdn博客
昨天晚上为了下载保存某位csdn大牛的所有博文,写了一个爬虫来自己主动抓取文章并保存到txt文本,当然也能够保存到html网页中. 这样就能够不用Ctrl+C 和Ctrl+V了,很方便.抓取别的站点 ...
windows下使用python的scrapy爬虫框架，爬取个人博客文章内容信息
scrapy作为流行的python爬虫框架,简单易用,这里简单介绍如何使用该爬虫框架爬取个人博客信息.关于python的安装和scrapy的安装配置请读者自行查阅相关资料,或者也可以关注我后续的内容. ...
Python爬虫爬取一篇韩寒新浪博客
网上看到大神对Python爬虫爬到非常多实用的信息,认为非常厉害.突然对想学Python爬虫,尽管自己没学过Python.但在网上找了一些资料看了一下,看到爬取韩寒新浪博客的视频.共三集,第一节讲爬取 ...
python爬虫爬取内容中，-xa0，-u3000的含义
python爬虫爬取内容中,-xa0,-u3000的含义 - CSDN博客 https://blog.csdn.net/aiwuzhi12/article/details/54866310
python爬虫—爬取英文名以及正则表达式的介绍
python爬虫—爬取英文名以及正则表达式的介绍爬取英文名: 一. 爬虫模块详细设计 (1)整体思路对于本次爬取英文名数据的爬虫实现,我的思路是先将A-Z所有英文名的连接爬取出来,保存在一个cs ...
Python爬虫简单实现CSDN博客文章标题列表
Python爬虫简单实现CSDN博客文章标题列表操作步骤: 分析接口,怎么获取数据? 模拟接口,尝试提取数据封装接口函数,实现函数调用. 1.分析接口打开Chrome浏览器,开启开发者工具(F1 ...
用Python爬虫爬取广州大学教务系统的成绩（内网访问）
用Python爬虫爬取广州大学教务系统的成绩(内网访问) 在进行爬取前,首先要了解: 1.什么是CSS选择器? 每一条css样式定义由两部分组成,形式如下: [code] 选择器{样式} [/code ...
Python爬虫 - 爬取百度html代码前200行
Python爬虫 - 爬取百度html代码前200行 - 改进版, 增加了对字符串的.strip()处理源代码如下: # 改进版, 增加了 .strip()方法的使用 # coding=utf-8 ...

随机推荐

分享我们必须知道的高速GTX技术
eSATA接口只有几根线为什么那么快?连上网线显示的1Gbps是不是很令人兴奋!没错他们都用了高速GTX技术,GTX全称为Gigabit Transceiver,是为了满足现代数字处理技术和计算技术庞 ...
基于Python3 + OpenCV3.3.1的远程监控程序
基于Python3 + OpenCV3.3.1的远程监控程序一.环境配置 OpenCV是一个基于(开源)发行的跨平台计算机视觉库,利用OpenCV能够实现视频图像的捕获. 关于python3中Ope ...
github使用和推送到服务器端。。。
Alan Alan -- :: 第二节:创建一个仓库(Create A Repo Repositories) 直接在自己的登录后进入 github.com 首页就可以看到, 下面一栏有四步.用来创建 ...
【Mac + Appium学习(一)】之安装Appium环境前提准备
环境: Appium version :1.9.1 Appium-desktop:1.7.1 Xcode:10.0 IOS:iPhone5S(10.3.3) Android:6.0.1 Mac:10. ...
通过Get方式传递数据
1:因为get传参数有个特点就是不能超过256字节.如果数据大的话会溢出. 解决办法: $data=json_encode($data_array); 然后在拼接超链接: <a href=&qu ...
UFLDL深度学习笔记（一）反向传播与稀疏自编码
UFLDL深度学习笔记 (一)基本知识与稀疏自编码前言近来正在系统研究一下深度学习,作为新入门者,为了更好地理解.交流,准备把学习过程总结记录下来.最开始的规划是先学习理论推导:然后学习一两种开源 ...
Servlet 发送电子邮件
使用 Servlet 发送一封电子邮件是很简单的,但首先您必须在您的计算机上安装 JavaMail API 和 Java Activation Framework)JAF). 您可以从 Java 网站 ...
Struts2开发者模式
在Struts2开发中,这应该是第一个学习配置的值.为了启用 Struts 2 的开发模式,可以通过自动配置显著增加Struts2的开发速度和属性文件加载,以及额外的日志和调试功能. 注:自动重新加载 ...
python多线程爬虫：亚马逊价格
import re import requests import threading import time from time import ctime,sleep from queue impor ...
如何通过PHP判断年份是否是闰年----两种方法
1.定义:闰年是对4取余为0,对100取余不等于0,对400取余等于0的年是闰年. 2.代码: 第一种方法:直接函数判断 $day = date('Y'); if ($day%4==0&&am ...

Python爬虫:爬取自己博客的主页的标题，链接，和发布时间

Python爬虫:爬取自己博客的主页的标题，链接，和发布时间的更多相关文章

随机推荐

热门专题