python3自己主动爬笑话

学校的server能够上外网了，所以打算写一个自己主动爬取笑话并发到bbs的东西，从网上搜了一个笑话站点，感觉大部分还不太冷。html结构例如以下：

watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvbGl0dGxldGh1bmRlcg==/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/SouthEast" alt="">

能够看到，笑话的链接列表都在<div class="list_title">里面，用正則表達式能够把近期的几个笑话地址找出来，再进到一个笑话页面看下：

watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvbGl0dGxldGh1bmRlcg==/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/SouthEast" alt="">

每一个笑话页面里面是有多个小笑话组成的。所有在<span id="text110">标签下，每一个小笑话又单独一个<p>包裹，这样很easy就能够把每一个单独笑话放到一个list中。因为我爬笑话的目的是每天白天一个小时发一个笑话。所以爬取20个是足够的了，每一个页面平均有5个小笑话，爬4个页面就OK啦。

这里有几个细节。这个笑话网有的链接是有中文的，比方：

<a href="/jokehtml/冷笑话/2014051200030765.htm" target="_blank">读书破万卷,搞笑如有神</a>

直接urllib.request.urlopen函数不能解析中文的URL。必需要urllib.parse先转码一下才干正确解析。另一个细节是每段的小笑话之间是有换行的，用正則表達式的“.”是不能匹配换行符的，需要改成“[\w\W]”才干匹配。好了，以下是代码：

import urllib.request

import urllib.parse

import re

rule_joke=re.compile('<span id=\"text110\">([\w\W]*?)</span>')

rule_url=re.compile('<a href=\"(.*?)\"target=\"_blank\" >')

mainUrl='http://www.jokeji.cn'

url='http://www.jokeji.cn/list.htm'

req=urllib.request.urlopen(url)

html=req.read().decode('gbk')

urls=rule_url.findall(html)

f=open('joke.txt','w')

for i in range(4):

	url2=urllib.parse.quote(urls[i])

	joke_url=mainUrl+url2

	req2=urllib.request.urlopen(joke_url)

	html2=req2.read().decode('gbk')

	joke=rule_joke.findall(html2)

	jokes=joke[0].split('<P>')

	for i in jokes:

		i=i.replace('</P>','')

		i=i.replace('<BR>','')

		i=i[2:]

		f.write(i)

f.close()

看下爬取的结果：

这样，每行是一个单独的笑话。方便其它程序使用。

转载请注明：转自http://blog.csdn.net/littlethunder/article/details/25693641

python3自己主动爬笑话的更多相关文章

Scrapy研究探索（六）——自己主动爬取网页之II（CrawlSpider）
原创,转载注明:http://blog.csdn.net/u012150179/article/details/34913315 一.目的. 在教程(二)(http://blog.csdn.net/u ...
python3使用requests爬取新浪热门微博
微博登录的实现代码来源:https://gist.github.com/mrluanma/3621775 相关环境使用的python3.4,发现配置好环境后可以直接使用pip easy_instal ...
python3.4+pyspider爬58同城（二）
之前使用python3.4+selenium实现了爬58同城的详细信息,这次用pyspider实现,网上搜了下,目前比较流行的爬虫框架就是pyspider和scrapy,但是scrapy不支持pyth ...
Python3.6+Scrapy爬取知名技术文章网站
爬取分析伯乐在线已经提供了所有文章的接口,还有下一页的接口,所有我们可以直接爬取一页,再翻页爬. 环境搭建 Windows下安装Python: http://www.cnblogs.com/0bug ...
python3+selenium3+requests爬取我的博客粉丝的名称
爬取目标 1.本次代码是在python3上运行通过的 selenium3 +firefox59.0.1(最新) BeautifulSoup requests 2.爬取目标网站,我的博客:https:/ ...
python3 爬虫之爬取安居客二手房资讯(第一版)
#!/usr/bin/env python3 # -*- coding: utf-8 -*- # Author;Tsukasa import requests from bs4 import Beau ...
【Python3爬虫】爬取美女图新姿势--Redis分布式爬虫初体验
一.写在前面之前写的爬虫都是单机爬虫,还没有尝试过分布式爬虫,这次就是一个分布式爬虫的初体验.所谓分布式爬虫,就是要用多台电脑同时爬取数据,相比于单机爬虫,分布式爬虫的爬取速度更快,也能更好地应对I ...
python3.4+selenium爬58同城（一）
爬取http://bj.58.com/pbdn/0/pn2/中除转转.推广商品以外的产品信息,因为转转和推广的详情信息不规范,需要另外写一个方法存放,后期补上,详情页如下这周学习了爬虫,但是遇到一些 ...
Python3.5：爬取网站上电影数据
首先我们导入几个pyhton3的库: from urllib import requestimport urllibfrom html.parser import HTMLParser 在Python ...

随机推荐

抽象语法树简介(ZZ)
转载自: http://www.cnblogs.com/cxihu/p/5836744.html (一)简介抽象语法树(abstract syntax code,AST)是源代码的抽象语法结构的树状 ...
python的property的用法
假设定义了一个类:C,该类必须继承自object类,有一私有变量_xclass C: def __init__(self): self.__x=None 1.现在介绍第一种使用属性的方法: 在该类中定 ...
如何用sqlplus执行sql脚本，且让出错后及时退出sqlplus
按sqlplus常规作法,是要登陆,输入用户名和密码才能操作的. 并且,如果不作特别设置,SQL脚本里的部门语句有问题后,它还是会坚持执行完成其余的SQL的. 为了安全和自动化,得改进一下了. sql ...
mySQL的存储过程详解
mysql存储过程详解 1. 存储过程简介我们常用的操作数据库语言SQL语句在执行的时候需要要先编译,然后执行,而存储过程(Stored Procedure)是一组为了完成特定功能的S ...
[thinkphp] ajaxReturn案例
javascript: <script> $('.ajax-post').click(function(){ var action_url=$('form').attr('action') ...
[centos] 需要 libmpc.so.2 提供下载
http://pan.baidu.com/s/1kTmmthH yum update 的时候需要libmpc.so.2, 于是下载了一个 rpm -ivh filename.rpm 安装上就好了
链式前向星写法下的DFS和BFS
Input 5 7 1 2 2 3 3 4 1 3 4 1 1 5 4 5 output 1 5 3 4 2 #include<bits/stdc++.h> using namespace ...
20、Flask实战第20天：Flask上下文
Local线程隔离对象我们知道通过request可以获取表单中的数据.如果是多个用户同时在用网站,而全局request就只有一个,那么Flask是如何分辨哪用户对应哪个请求呢? 这种情况下,就会用到 ...
SQL*Loader-605: Non-data dependent ORACLE error occurred — load discontinued
It seems the tablespace is full.
Bootstrap-datetimepicker日期插件简单使用
写在前面: 日期组件有很多,这里简单的记录下bootstrap的一个日期插件datetimepicker,使用方法比较简单,基本上看一些就会了,但是还是记录下. 这个就不过多的说了,简单粗暴上代码 & ...

python3自己主动爬笑话

python3自己主动爬笑话的更多相关文章

随机推荐

热门专题