Python实现简单的爬虫获取某刀网的更新数据

昨天晚上无聊时，想着练习一下Python所以写了一个小爬虫获取小刀娱乐网里的更新数据

#!/usr/bin/python
# coding: utf-8
import urllib.request
import re
#定义一个获取网页源码的子程序
head = "www.xiaodao.la"
def get():
data = urllib.request.urlopen('http://www.xiaodao.la').read()
#解码并去除无用文字
str = data.decode("gbk").replace(r"font-weight:bold;","").replace(r" ","").replace(" ","").replace(" ","").replace("\r\n","").replace("#FF0000","#000000").strip()
return str[str.find("好卡售"):str.find("20160303184868786878.gif")]#返回指定内容
#获取一次网页源码并赋值给str
str = get();
#print(str)
#定义正则表达式
#reg = r'href="(.*?)"style="color:#000000;"title="(.*?)"target="_blank">'
reg = r'href="(.*?)"style="color:#000000;"title="(.*?)"target="_blank">(.*?)</a></div></td><tdwidth=12.5%align=rightnowrap=nowrapstyle="color:#F00;">(.*?)</td>'
tmp = re.compile(reg);#创建正则表达式
list = re.findall(tmp,str);#正则表达式匹配
list = tuple(list)#转换类型
print("一共匹配到%d个"%(len(list)))#输出匹配数量
#print(list)
for i in range(len(list)):
print("当前第%d个:"%(i+1))
print("标题:%s\n地址:%s更新时间:%s\n"%(list[i][1],head + list[i][0],list[i][3]))

Python实现简单的爬虫获取某刀网的更新数据的更多相关文章

Python 利用Python编写简单网络爬虫实例3
利用Python编写简单网络爬虫实例3 by:授客 QQ:1033553122 实验环境 python版本:3.3.5(2.7下报错实验目的获取目标网站“http://bbs.51testing. ...
Python 利用Python编写简单网络爬虫实例2
利用Python编写简单网络爬虫实例2 by:授客 QQ:1033553122 实验环境 python版本:3.3.5(2.7下报错实验目的获取目标网站“http://www.51testing. ...
Java学习-058-Jsoup爬虫获取中国所有的三级行政区划数据（三），处理二级编码缺失
通过查看数据可知,直辖市或者某些三级行政区域没有对应的二级区域,为方便后续的地址使用,可自定义缺失的二级地址. 如下示例自定义的二级行政区域的名称为一级区域的名称,对应的源码如下所示: 将此段源码添加 ...
[Python学习] 简单网络爬虫抓取博客文章及思想介绍
前面一直强调Python运用到网络爬虫方面很有效,这篇文章也是结合学习的Python视频知识及我研究生数据挖掘方向的知识.从而简介下Python是怎样爬去网络数据的,文章知识很easy ...
万答#2，一样的Python代码，为什么可以删表，却不能更新数据
欢迎来到 GreatSQL社区分享的MySQL技术文章,如有疑问或想学习的内容,可以在下方评论区留言,看到后会进行解答问题运行下面的这段Python代码,却总是无法更新数据: import pym ...
使用Python编写简单网络爬虫抓取视频下载资源
我第一次接触爬虫这东西是在今年的5月份,当时写了一个博客搜索引擎.所用到的爬虫也挺智能的,起码比电影来了这个站用到的爬虫水平高多了! 回到用Python写爬虫的话题. Python一直是我主要使用的脚 ...
广州商学院Python正方教务系统爬虫(获取个人信息成绩课表修改密码)
使用python的requests库简单爬取,使用xpath解析内容可以获取个人信息.个人照片.成绩单和课表 github地址:https://github.com/PythonerKK/GZCC- ...
使用python实现简单的爬虫
python爬虫的简单实现开发环境的配置 python环境的安装编辑器的安装爬虫的实现包的安装简单爬虫的初步实现将数据写入到数据库-简单的数据清洗-数据库的连接-数据写入到数据库开发环境 ...
用Python写简单的爬虫
准备: 1.扒网页,根据URL来获取网页信息 import urllib.parse import urllib.request response = urllib.request.urlopen(& ...

随机推荐

某模拟题（USACO部分题+noip2005部分题）
题目描述农场上有N(1 <= N <= 50,000)堆草,放在不同的地点上.FJ有一辆拖拉机,也在农场上.拖拉机和草堆都表示为二维平面上的整数坐标,坐标值在1..1000的范围内.拖拉 ...
李白打酒|2014年蓝桥杯B组题解析第三题-fishers
李白打酒话说大诗人李白,一生好饮.幸好他从不开车. 一天,他提着酒壶,从家里出来,酒壶中有酒2斗.他边走边唱: 无事街上走,提壶去打酒. 逢店加一倍,遇花喝一斗. 这一路上,他一共遇到店5次,遇到花 ...
HDU3652 B-number（数位DP）题解
思路: 这里的状态分为3种,无13和末尾的1,无13且末尾为1,有13,然后DFS 等我搞清楚数位DP就来更新Orz 代码: #include<iostream> #include< ...
Ubuntu 16.04设置IP、网关、DNS
说明:在网上给的教程上面通常会有这样的一个误导思路,按照配置文件设置后会不生效的问题,甚至没有一点效果,经过排查发现Linux下设置IP这个话题的入口线索应该分为两种:1为Server版,2为Desk ...
【附7】turbine
一.作用聚集同一个微服务的相同的commandKey.Threadpool.commandGroupKey数据进行聚合二.配置 1.集群(cluster)(turbine聚集数据的粒度) turb ...
论文笔记——PRUNING FILTERS FOR EFFICIENT CONVNETS
论文地址:https://arxiv.org/abs/1608.08710 主要思想这篇文章主要讲了对filters的裁剪,裁剪方法是计算L1范数,然后裁剪掉较少的,多少取决于加速比. 实现效果 V ...
MongoDB（课时17 更新函数）
3.4.3 数据更新操作 MongoDB数据存的是副本数据, 最终的数据还要保存在传统的数据库里,所以如果关系型数据库里数据变了,最好的方法是删除里面的MongoDB数据重新插入. 在MongoDB里 ...
Android之动态改变控件大小
利用getLayoutParams()方法和setLayoutParams()方法.三步曲:1.首先利用getLayoutParams()方法,获取控件的LayoutParams.eg:LayoutP ...
【Jmeter】Jmeter 5.0新特性
前言 Jmeter 5.0这次的核心改进是在许多地方改进了对 Rest 的支持,此外还有调试功能.录制功能的增强.报告的改进等. 我也是因为迁移到了Mac,准备在Mac上安装Jmeter的时候发现它已 ...
Python 爬虫-Scrapy爬虫框架
2017-07-29 17:50:29 Scrapy是一个快速功能强大的网络爬虫框架. Scrapy不是一个函数功能库,而是一个爬虫框架.爬虫框架是实现爬虫功能的一个软件结构和功能组件集合.爬虫框架是 ...

Python实现简单的爬虫获取某刀网的更新数据

Python实现简单的爬虫获取某刀网的更新数据的更多相关文章

随机推荐

热门专题