自动爬取ZiMuZu的内容发布到Wordpress

先说一下大致的步骤. 首先需要模拟浏览器登录网站才能看到相应电影信息, 然后通过正则表达式从网页源代码中筛选出所需要的电影, 最后通过python-wordpress-xmlrpc将信息逐条发布到Wordpress. 以下是代码:

# coding: utf-8

import re

import requests

import datetime

import sys

from wordpress_xmlrpc import Client, WordPressPost

from wordpress_xmlrpc.methods import posts

# python默认ascii编码, 此处强制它为utf-8编码以实现中文输出

reload(sys)

sys.setdefaultencoding('utf8')

# 变量声明

today = str(datetime.date.today())[5:]

yesterday = str(datetime.date.today() + datetime.timedelta(days=-1))[5:]

login_url = "http://www.zimuzu.tv/User/Login/ajaxLogin"

today_url = "http://www.zimuzu.tv/today"

head = {

    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.110 Safari/537.36"

}

payload = {

    "account": "your_id",

    "password": "your_pwd",

    "remember": 0,

    "url_back": "http://www.zimuzu.tv/"

}

# 登录网页,获取网页源代码

s = requests.session()

login_result = s.post(login_url, headers=head, data=payload)

r = s.get(today_url, headers=head)

# 正则表达式

regexp = r'''<tr\s.*?day="''' + yesterday + r'''".*?>\s+

<td\s.*?</td>\s+

<td\s.*?</td>\s+

<td><a\shref=".*?"\starget="_blank">(.*?)</a></td>\s+

<td\sclass="dr_ico">.*?(?:<a\shref="(magnet.*?)"[^>]+>(磁)</a>|<a\shref="(ed2k.*?)"[^>]+>(驴)</a>)?(?:<a\shref="(ed2k.*?)"[^>]+>(驴)</a>|<a\shref="(magnet.*?)"[^>]+>(磁)</a>).*?</td>\s+

<td>(.*?)</td>\s+

<td\s.*?</td>\s+

</tr>

'''

# 将元祖转化为列表, 为了替换"磁", "驴"

pattern = re.compile(regexp, re.M | re.X)

result = re.findall(pattern, r.content)  # result = [().()...]

new_result = []

for item in result:

    new_result.append(list(item))  # new_result = [[],[]...]

# 发布博客

client = Client('https://mvstarblog.wordpress.com/xmlrpc.php', 'your_id', 'your_pwd')

post = WordPressPost()

replacement = {'磁': '磁力下载链接: ', '驴': '电驴下载链接: '}

for item in new_result:

    tr = [replacement[x] if x in replacement else x for x in item]

    post.title = tr[0]

    post.content = tr[6] + '\n' + tr[5] + '\n\n' + tr[2] + '\n' + tr[1]

    post.id = client.call(posts.NewPost(post))

    post.post_status = 'publish'

    client.call(posts.EditPost(post.id, post))

    print tr[0] + ' has been published'

2016-4-18更新正则表达式:

今天发现第一版的正则表达式对于下列文本会出现匹配结果的序列问题:

<tr class="list " channel="tv" area="美国" day="04-17" format="720P">

                <td class="d1">美剧</td>

                <td class="d2">720P</td>

                <td><a href="/resource/28688" target="_blank">Banshee.S04E03.720p.HDTV.x264-KILLERS.mkv</a></td>

                <td class="dr_ico"><a href="ed2k://|file|Banshee.S04E03.720p.HDTV.x264-KILLERS.mkv|1737182740|CF3E15B3C2D53BCA2ECA0AE1C8287091|h=2JMYLXADG7T2QP4W5ELF7Z3M75IMPC3D|/" target="_blank" class="l">驴</a><a oncontextmenu="ThunderNetwork_SetHref(this)" onclick="return OnDownloadClick_Simple(this,2,4);" href="thunder://QUFlZDJrOi8vfGZpbGV8QmFuc2hlZS5TMDRFMDMuNzIwcC5IRFRWLngyNjQtS0lMTEVSUy5ta3Z8MTczNzE4Mjc0MHxDRjNFMTVCM0MyRDUzQkNBMkVDQTBBRTFDODI4NzA5MXxoPTJKTVlMWEFERzdUMlFQNFc1RUxGN1ozTTc1SU1QQzNEfC9aWg==" thunderrestitle="Banshee.S04E03.720p.HDTV.x264-KILLERS.mkv" thundertype="" thunderpid="37361" thunderhref="thunder://QUFlZDJrOi8vfGZpbGV8QmFuc2hlZS5TMDRFMDMuNzIwcC5IRFRWLngyNjQtS0lMTEVSUy5ta3Z8MTczNzE4Mjc0MHxDRjNFMTVCM0MyRDUzQkNBMkVDQTBBRTFDODI4NzA5MXxoPTJKTVlMWEFERzdUMlFQNFc1RUxGN1ozTTc1SU1QQzNEfC9aWg==" class="x">迅</a><a class="m" xmhref="ed2k://|file|Banshee.S04E03.720p.HDTV.x264-KILLERS.mkv|1737182740|CF3E15B3C2D53BCA2ECA0AE1C8287091|h=2JMYLXADG7T2QP4W5ELF7Z3M75IMPC3D|/" rel="xiaomi" target="_blank">&nbsp;小米路由</a><a class="d" target="_blank" rel="yun">云播</a><a class="d" target="_blank" rel="xuan">旋播</a></td>

                <td>1.62GB</td>

                <td class="d6">22:14</td>

            </tr>

结果如下:

1.	[210-251]	`Banshee.S04E03.720p.HDTV.x264-KILLERS.mkv`

4.	[305-440]	`ed2k://|file|Banshee.S04E03.720p.HDTV.x264-KILLERS.mkv|1737182740|CF3E15B3C2D53BCA2ECA0AE1C8287091|h=2JMYLXADG7T2QP4W5ELF7Z3M75IMPC3D|/`

5.	[468-469]	`驴`

10.	[1418-1424]	`1.62GB`

11.	[1461-1466]	`22:14`

这里的序列为1 4 5 10 11, 但我希望的序列应该是1 6 7 10 11, 所以我将代码改成如下:

<略>

regexp = r'''<tr\s.*?day="''' + yesterday + r'''".*?>\s+

<td\s.*?</td>\s+

<td\s.*?</td>\s+

<td><a\shref=".*?"\starget="_blank">(.*?)</a></td>\s+

<td\sclass="dr_ico">.*?(?:<a\shref="(magnet.*?)"[^>]+>(磁)</a>)?(?:<a\shref="(ed2k.*?)"[^>]+>(驴)</a>)?.*?</td>\s+

<td>(.*?)</td>\s+

<td\s.*?</td>\s+

</tr>

'''

<略>

post.content = tr[4] + '\n' + tr[3] + '\n\n' + tr[2] + '\n' + tr[1]

<略>

2016-4-26更新正则表达式匹配中文字符:

对于那些"生肉", 我就不抓了, 于是稍稍修改代码, 只抓取标题中有中文的剧集:

<略>

regexp = ur'''<tr\s.*?day="''' + yesterday + ur'''".*?>\s+

<td\s.*?</td>\s+

<td\s.*?</td>\s+

<td><a\shref=".*?"\starget="_blank">(.*?[\u4e00-\u9fa5]+.*?)</a></td>\s+

<td\sclass="dr_ico">.*?(?:<a\shref="(magnet.*?)"[^>]+>(磁)</a>|<a\shref="(ed2k.*?)"[^>]+>(驴)</a>)?(?:<a\shref="(ed2k.*?)"[^>]+>(驴)</a>|<a\shref="(magnet.*?)"[^>]+>(磁)</a>).*?</td>\s+

<td>(.*?)</td>\s+

<td\s.*?</td>\s+

</tr>

'''

<略>

result = re.findall(pattern, unicode(r.content))

<略>
replacement = {u'磁': u'磁力下载链接: ', u'驴': u'电驴下载链接: '}
<略>

2016-4-26更新源代码:

# coding: utf-8

import re

import requests

import datetime

import sys

from wordpress_xmlrpc import Client, WordPressPost

from wordpress_xmlrpc.methods import posts

# python默认ascii编码, 此处强制它为utf-8编码以实现中文输出

reload(sys)

sys.setdefaultencoding('utf8')

# 变量声明

today = str(datetime.date.today())[5:]

yesterday = str(datetime.date.today() + datetime.timedelta(days=-1))[5:]

current = datetime.datetime.now().strftime('%H:%M')

justnow = (datetime.datetime.now() - datetime.timedelta(hours=1)).strftime('%H:%M')

login_url = "http://www.zimuzu.tv/User/Login/ajaxLogin"

today_url = "http://www.zimuzu.tv/today"

head = {

    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.110 Safari/537.36"

}

payload = {

    "account": "your_id",

    "password": "your_pwd",

    "remember": 0,

    "url_back": "http://www.zimuzu.tv/"

}

# 登录网页,获取网页源代码

s = requests.session()

login_result = s.post(login_url, headers=head, data=payload)

r = s.get(today_url, headers=head)

# 替换"磁", "驴"

r2 = r.content.replace(u'磁',u'磁力下载链接:').replace(u'驴', u'电驴下载链接:')

# 正则表达式

regexp = ur'''<tr\s.*?day="''' + yesterday + ur'''".*?>\s+

<td\s.*?</td>\s+

<td\s.*?</td>\s+

<td><a\shref=".*?"\starget="_blank">(.*?[\u4e00-\u9fa5]+.*?)</a></td>\s+

<td\sclass="dr_ico">.*?(?:<a\shref="(magnet.*?)"[^>]+>(磁力下载链接:)</a>)?(?:<a\shref="(ed2k.*?)"[^>]+>(电驴下载链接:)</a>)?.*?</td>\s+

<td>(.*?)</td>\s+

<td\s.*?</td>\s+

</tr>

'''

pattern = re.compile(regexp, re.M | re.X)

result = re.findall(pattern, unicode(r2))

# 发布博客

client = Client('https://mvstarblog.wordpress.com/xmlrpc.php', 'your_id', 'your_pwd')

post = WordPressPost()

for item in result:

    post.title = item[0]

    post.content = item[4] + '\n' + item[3] + '\n\n' + item[2] + '\n' + item[1]

    post.id = client.call(posts.NewPost(post))

    post.post_status = 'publish'

    client.call(posts.EditPost(post.id, post))

    print item[0] + ' has been published'

自动爬取ZiMuZu的内容发布到Wordpress的更多相关文章

python网络爬虫之使用scrapy自动爬取多个网页
前面介绍的scrapy爬虫只能爬取单个网页.如果我们想爬取多个网页.比如网上的小说该如何如何操作呢.比如下面的这样的结构.是小说的第一篇.可以点击返回目录还是下一页对应的网页代码: 我们再看进入后面 ...
php爬取微信文章内容
php爬取微信文章内容在做官网升级的时遇到新的需求,需要将公司公众号文章显示在官网的文章模块下.但存在的问题是:微信文章的链接会失效,并且需要对文章部分内容做修改,同时要减少微信运营人员的工作量,避 ...
Crawlspider的自动爬取
引子 : 如果想要爬取糗事百科的全栈数据的方法 ? 方法一 : 基于scrapy框架中的scrapy的递归爬取进行实现(requests模块递归回调parse方法) . 方法二 : 基于Crawl ...
scrapy框架之CrawlSpider全站自动爬取
全站数据爬取的方式 1.通过递归的方式进行深度和广度爬取全站数据,可参考相关博文(全站图片爬取),手动借助scrapy.Request模块发起请求. 2.对于一定规则网站的全站数据爬取,可以使用Cra ...
如何手动写一个Python脚本自动爬取Bilibili小视频
如何手动写一个Python脚本自动爬取Bilibili小视频国庆结束之余,某个不务正业的码农不好好干活,在B站瞎逛着,毕竟国庆嘛,还让不让人休息了诶-- 我身边的很多小伙伴们在朋友圈里面晒着出去游玩 ...
scrapy爬取动态分页内容
1.任务定义: 爬取某动态分页页面中所有子话题的内容. 所谓"动态分页":是指通过javascript(简称"js")点击实现翻页,很多时候翻页后的页面地址ur ...
python实例：自动爬取豆瓣读书短评，分析短评内容
思路: 1.打开书本“更多”短评,复制链接 2.脚本分析链接,通过获取短评数,计算出页码数 3.通过页码数,循环爬取当页短评 4.短评写入到txt文本 5.读取txt文本,处理文本,输出出现频率最高的 ...
精通python网络爬虫之自动爬取网页的爬虫代码记录
items的编写 # -*- coding: utf-8 -*- # Define here the models for your scraped items # # See documentati ...
利用python的requests和BeautifulSoup库爬取小说网站内容
1. 什么是Requests? Requests是用Python语言编写的,基于urllib3来改写的,采用Apache2 Licensed 来源协议的HTTP库. 它比urllib更加方便,可以节约 ...

随机推荐

java笔记--关于线程同步（7种同步方式）
关于线程同步(7种方式) --如果朋友您想转载本文章请注明转载地址"http://www.cnblogs.com/XHJT/p/3897440.html"谢谢-- 为何要使用同步? ...
mysql datatime 设置默认值为CURRENT_TIMESTAMP报错`Invalid default value`
环境: Ubuntu mysql 5.5 解决方法: 升级mysql至5.6 apt-cache search mysql-server sudo apt-add-repository ppa:ond ...
MySQL 5.7 学习：功能性能的提升
背景: 继上次介绍初识 MySQL 5.6 新功能.参数完之后,刚好MySQL 5.7又GA了,在官方测试里看到,MySQL5.7在功能.性能.可用性.安全和监控上又提升了很高.现在看看和MySQL ...
ffmpeg-20160908[09,10,13,15,19,21,22,24]-bin.7z
ESC 退出 0 进度条开关 1 屏幕原始大小 2 屏幕1/2大小 3 屏幕1/3大小 4 屏幕1/4大小 5 屏幕横向放大 20 像素 6 屏幕横向缩小 20 像素 S 下一帧 [ -2秒 ] +2 ...
jquery ajax 请求参数详细说明及实例
url: 要求为String类型的参数,(默认为当前页地址)发送请求的地址. type: 要求为String类型的参数,请求方式(post或get)默认为get.注意其他http请求方法,例如put和 ...
ionic扩展插件
1.ionic-timepicker 时间选择 https://github.com/rajeshwarpatlolla/ionic-timepicker 2.ionic-datepicker 日 ...
64位win7下安装SQL Server 2008（图文解说版）
运行sql安装单击安装-全新的sql server独立安装,如果我们准备好了故障转移群集,那么我们就可以创建故障转移群集sql 常规检查一笑而过选择版本,或者输入密钥自动识别版本授权协议支持 ...
JS面试题-算法台阶问题
有100格台阶,可以跨1步可以跨2步,那么一个有多少种走法: 今天电话面试.遇到一道算法问题,然后瞬间一脸懵逼: 然后机智的我,自作聪明的想到如果一个人每次都走1步,那么最多步,每次走2步最少步:然后 ...
LRU算法
LRU,Least recently used[最近最少使用算法],该算法[或变种]被广泛用于缓存管理中,其设计思想是基于:经常被访问的数据在未来一段时间也会被访问,最近最少被访问的数据在未来一段时间 ...
使用JDK开发WebService
一.WebService的开发手段使用Java开发WebService时可以使用以下两种开发手段 1. 使用JDK开发(1.6及以上版本) 2.使用CXF框架开发(工作中) 二.使用JDK开发Web ...

自动爬取ZiMuZu的内容发布到Wordpress

自动爬取ZiMuZu的内容发布到Wordpress的更多相关文章

随机推荐

热门专题