python登录csdn并自动评论下载资源脚本

功能

1.自动登录csdn

2.查找未评论的资源并自动评论

用到的库

1.python自带的requests，获取以及发送网页数据

2.python自带的time，用作休眠，csdn资源一段时间内只允许评论一个资源，每评论一个资源要休息一段时间

3.BeautifulSoup，解析html文本，搜索文本中指定的标签和属性

过程

1.用chrome的开发者工具抓取登录以及评论的数据包，获取数据包格式

2.requests获取指定页面html文本

3.BeautifulSoup分析页面属性，提取评论以及登录必须的页面信息

4.对BeautifulSoup的结果进行筛选，去掉一些干扰的标签信息，并判断资源是否评论过

5.组装评论消息并post。

脚本

import requests

from BeautifulSoup import BeautifulSoup

import time

def commitfunc(source_id, refer):

    commiturl='http://download.csdn.net/index.php/comment/post_comment?jsonpcallback=jsonp1419934439524&sourceid='+source_id+'&content=%E6%88%90%E5%8A%9F%E9%85%8D%E5%AF%B9%EF%BC%8C%E5%8F%AF%E4%BB%A5%E4%BD%BF%E7%94%A8%E3%80%82&rating=5&t=1419935091974'

    commitdata = {

            "Accept" : "text/javascript, application/javascript, */*",

            "Accept-Encoding" : "gzip, deflate, sdch",

            "Accept-Language" : "zh-CN,zh;q=0.8",

            "Connection" : "keep-alive",

            "Content-Type" :"application/x-www-form-urlencoded",

            "cookie" : "",

            "Host" : "download.csdn.net",

            "Refer" : refer,

            "User-Agent" : "Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36",

            "X-Requested-With" : "XMLHttpRequest",

            "jsonpcallback" : "jsonp1419934439524",

            "sourceid" : source_id,

            "content" : "a good resource, it's worth to download it",

            "rating" : "",

            "t" : "",

            }

    sess_source.post(commiturl, commitdata)

def GetPageCount():

    url_source_page = url_source + ""

    html_source = sess_source.get(url_source_page).text

    soup_source = BeautifulSoup(html_source)

    #resource_once = soup_source.findAll('h3')

    page_count = soup_source.find('div', attrs={'class': "page_nav"}).text

    page_list = page_count.split()

    page_ac = page_list[2].split('&')

    return page_ac[0][1:len(page_ac[0])-1]

def CommitWholePage(page_nu):

    url_source_page = url_source + page_nu

    html_source = sess_source.get(url_source_page).text

    soup_source = BeautifulSoup(html_source)

    resource_once = soup_source.findAll('h3')

    for element in resource_once:

        if(len(element) > 1):

            #print type(element.contents[0].attrs[0][1])

            #print element.contents[0].attrs[0][1]

            attr = element.contents[0].attrs[0][1].split('/')

            reftext = '/detail/' + attr[2] + '/' + attr[3] + '#comment'

            result = soup_source.findAll('a', attrs={'href' : reftext, 'class' : 'btn-comment'})

            if len(result) != 0:

                #sess_source.get(url_source_page)

                commitfunc(attr[3], attr[2])

                print attr[2]

                print attr[3]

                print "sleep"

                time.sleep(70)

def logincsdn():

    html_login = sess_source.get(url_login).text

    soup_login = BeautifulSoup(html_login)

    lt_value = soup_login.findAll('input', attrs={'name': "lt"})[0]['value']

    execution_value = soup_login.findAll('input', attrs={'name': "execution"})[0]['value']

    data_login = {

            "lt" : lt_value,

            "execution" : execution_value,

            "_eventId" : "submit",

            "username" : "xxxxx",

            "password" : "xxxxx"

            }

    sess_source.post(url_login, data_login)

#main begin

url_login = "https://passport.csdn.net/account/login"

url_source = "http://download.csdn.net/my/downloads/"

sess_source = requests.session()

logincsdn()

total_page = GetPageCount()

for num in range(1,int(total_page)):

    CommitWholePage(str(num))

欢迎咨询和指正，python菜鸟一枚。

BeautifulSoup中文资料站：http://www.crummy.com/software/BeautifulSoup/bs3/documentation.zh.html#Iterating%20over%20a%20Tag

python登录csdn并自动评论下载资源脚本的更多相关文章

VC使用libcurl模拟登录CSDN并自动评论资源以获取积分
环境:Win7 64位+VC2008 软件及源码下载:(http://pan.baidu.com/s/1jGE52pK) 涉及到的知识点: C++多线程编程 libcurl的使用(包括发送http请求 ...
libcurl模拟登录CSDN并自动评论资源以获取积分
软件及源码下载:(http://pan.baidu.com/s/1jGE52pK) 涉及到的知识点: C++多线程编程 libcurl的使用(包括发送http请求.发送cookie给服务器.保存coo ...
[2019.04.16] 由Python写成的自动解压脚本
很久很久以前(二十七天吧……大概)被要求写一个脚本来检索并解压磁盘上所有的以特定格式命名的tar文件,于是乎学习和摸鱼就一起开始了. 这次要写的脚本,针对的是这样的文件结构: 文件结构如上图所示可以 ...
Python简单实现自动评论、自动点赞、自动关注脚本
一些哔哔: 今天的这个脚本,是一个别人发的外包,交互界面的代码就不在这里说了,但是可以分享下自动评论.自动点赞.自动关注.采集评论和视频的数据是如何实现的开发环境 python 3.8 运行代码py ...
[Python爬虫] Selenium实现自动登录163邮箱和Locating Elements介绍
前三篇文章介绍了安装过程和通过Selenium实现访问Firefox浏览器并自动搜索"Eastmount"关键字及截图的功能.而这篇文章主要简单介绍如何实现自动登录163邮箱,同时 ...
2.如何实现使用VBS脚本程序对直播间自动评论
前言:本文使用的是VBS脚本,实现了对繁星直播自动登录,自动进入房间并且自动评论. 前提准备:把需要刷的评论放到mysql中,再使用vbs读出评论 -------------------------- ...
「懒惰的美德」我用 python 写了个自动生成给文档生成索引的脚本
我用 python 写了一个自动生成索引的脚本简介:为了刷算法题,建了一个 GitHub仓库:PiperLiu / ACMOI_Journey,记录自己的刷题轨迹,并总结一下方法.心得.想到一个需求 ...
基于python的request库，模拟登录csdn博客
以前爬虫用urllib2来实现,也用过scrapy的爬虫框架,这次试试requests,刚开始用,用起来确实比urllib2好,封装的更好一些,使用起来简单方便很多. 安装requests库 ...
第14.16节爬虫实战2：赠人玫瑰，手留余香！ request+BeautifulSoup实现csdn博文自动点赞
写在前面:本文仅供参考学习,请勿用作它途,禁止转载! 在<第14.14节爬虫实战准备:csdn博文点赞过程http请求和响应信息分析>老猿分析了csdn博文点赞处理的http请求和响应报 ...

随机推荐

待实践二：MVC3下的3种验证 (1)前台 jquery validate验证 (2)MVC实体验证 (3)EF生成的/自己手写的自定义实体校验(伙伴类+元素据共享)
MVC3下的3种验证 (1):前台Jquery Validate脚本验证引入脚本 <script src="../js/jquery.js" type="text ...
ti processor sdk linux am335x evm /bin/create-sdcard.sh hacking
#!/bin/bash # # ti processor sdk linux am335x evm /bin/create-sdcard.sh hacking # 说明: # 本文主要对TI的sdk中 ...
对于GLM的理解，与方差分析的对比
最近遇到一个问题,如果因变量为一个连续变量(如胰岛素水平),主要考察的变量为分组变量(如正常血糖组,前糖尿病组,糖尿病组三组),现在的目的是想看调整多种变量(包括多个连续性变量和分类变量)后,胰岛素水 ...
Xcode中如何启用或禁用某些文件的ARC
经常会有工程中涉及到第三方的代码, 但这些代码有的是ARC的, 有的不是. 这样的话, 在与你的工程中集成的时候就会出现问题. 如果你的工程是开启ARC的, 那就需要对某些文件禁用ARC, (-fno ...
怎么制作生成苹果手机app应用的下载二维码图片
原文网址:http://jingyan.baidu.com/article/8065f87ff654262331249886.html app store应用生成二维码操作步骤: 1.首先在MAC上的 ...
CodeSmith模板生成
转:http://blog.csdn.net/jason_ldh/article/details/9887073 一. 工具设置 CodeSmith默认是不支持中文的,那么我们必 ...
【转】u盘不显示盘符
转自http://jingyan.baidu.com/article/f3ad7d0fd0793e09c3345b31.html 我的情况: 电脑只有一个c盘,插入u盘,u盘的盘符为d. 弹出u盘,但 ...
POJ 1068 Parencodings
Parencodings Time Limit: 1000MS Memory Limit: 10000K Total Submissions: 24932 Accepted: 14695 De ...
[Everyday Mathematics]20150128
求极限 $$\bex \lim_{x\to 0}\sex{\frac{e^x+e^{2x}+\cdots+e^{nx}}{n}}^\frac{1}{x}. \eex$$
反转链表 --剑指offer
题目:定义一个函数,输入一个链表的头结点,反转该链表并输出反正后链表的头结点. #include<stdio.h> #include<malloc.h> typedef str ...

python登录csdn并自动评论下载资源脚本

python登录csdn并自动评论下载资源脚本的更多相关文章

随机推荐

热门专题