以前爬虫用urllib2来实现,也用过scrapy的爬虫框架,这次试试requests,刚开始用,用起来确实比urllib2好,封装的更好一些,使用起来简单方便很多. 安装requests库     最简便的方法就是使用pip来安装:pip install requests:如果需要安装特定版本,则在后面加上版本号即可:pip install requests == 1.9.7,这样就搞定了. 快速上手的小例子 下面说一个最简单的例子: 第一行,引入requests库,这是必然的. 第二行,通过…
字幕库的登录表单如下所示,其中省去了无关紧要的内容: <form class="login-form" action="/User/login.html" method="post"> <input type="hidden" name="referer" value="http://www.zimuku.net/"> <input type="t…
!已失效! 抓包分析 获取验证码 获取加密公钥 其中hash是变化的,公钥key不变 登录 其中用户名没有被加密,密码被加密. 因为在获取公钥的时候同时返回了一个hash值,推测此hash值与密码加密有关. 通过谷歌浏览器控制台分析js代码 右键登录按钮,检查,查看 Event Listeners ,点击a.btn.btn-login右边的login.4f030c3....js:6查看js代码. 点击左下角的{}展开代码 因为获取公钥和hash的链接中有action=getkey,尝试在源代码中…
以Discuz的官方站为例.直接点击网页右上角的登录按钮,会弹出一个带验证码的登录窗口.输入验证码之后,会检查验证码是否正确.然后登录.首先,通过抓包分析,这些过程浏览器和服务器交换了哪些数据. 抓包分析 整个过程产生了5条数据: 一 第一个是GET请求,返回了一段html代码 <div id="main_messaqge_LZH8S"> <div id="layer_login_LZH8S"> <h3 class="flb&…
环境:Win7 64位+VC2008 软件及源码下载:(http://pan.baidu.com/s/1jGE52pK) 涉及到的知识点: C++多线程编程 libcurl的使用(包括发送http请求.发送cookie给服务器.保存cookie) 关于libcurl的资料,推荐大家参考下官方文档:http://curl.haxx.se/libcurl/c/example.html 软件运行结果 libcurl中的所有函数 curl_easy_cleanup  curl_easy_duphandl…
软件及源码下载:(http://pan.baidu.com/s/1jGE52pK) 涉及到的知识点: C++多线程编程 libcurl的使用(包括发送http请求.发送cookie给服务器.保存cookie) 关于libcurl的资料,推荐大家参考下官方文档:http://curl.haxx.se/libcurl/c/example.html 软件运行结果 libcurl中的所有函数 curl_easy_cleanup  curl_easy_duphandle curl_easy_escape …
之前通过F12开发者模式调试,获取网站后台服务器验证用户名和密码的URL之后,再构造post数据的方式会存在一个问题,就是对目标网站的验证机制不明确,构造post数据除了用户名和密码之外,还可能有更复杂的协议.比如csdn的fkid机制,见上一篇博文. 2 模拟登录_Post表单方式(针对chinaunix有效,针对csdn失效,并说明原因) 使用selenium的好处是,能够直接模拟浏览器进行操作,然后填入用户名和密码,在登录成功以后,再把cookie保存下来.比之前的方式 urllib.re…
0 url :http://blog.csdn.net/youyou1543724847/article/details/52818339Redis一点基础的东西目录 1.基础底层数据结构 2.windows下环境搭建 3.java里连接redis数据库 4.关于认证 5.redis高级功能总结1.基础底层数据结构1.1.简单动态字符串SDS定义: ...47分钟前1 url :http://blog.csdn.net/youyou1543724847/article/details/52818…
打算利用业余时间好好研究Python的web框架--web.py,深入剖析其实现原理,体会web.py精巧之美.但在研究源码的基础上至少得会用web.py.思前想后,没有好的Idea,于是打算开发一个csdn博客专栏下载器,界面不是很好看,还过得去吧. 效果图如下: 为了简单,下载以html格式保存. 下载我自己的博客专栏,目录列表 主界面html文件非常简单,如下: <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN…
文章目录 前言 网络爬虫 搜索引擎 爬虫应用 谨防违法 爬虫实战 网页分析 编写代码 运行效果 反爬技术 前言 很多人学习python,不知道从何学起.很多人学习python,掌握了基本语法过后,不知道在哪里寻找案例上手.很多已经做案例的人,却不知道如何去学习更加高深的知识.那么针对这三类人,我给大家提供一个好的学习平台,免费领取视频教程,电子书籍,以及课程的源代码!QQ群:101677771 开始接触 CTF 网络安全比赛发现不会写 Python 脚本的话简直寸步难行……故丢弃 Java 学习…
Python爬虫简单实现CSDN博客文章标题列表 操作步骤: 分析接口,怎么获取数据? 模拟接口,尝试提取数据 封装接口函数,实现函数调用. 1.分析接口 打开Chrome浏览器,开启开发者工具(F12快捷键). 在浏览器中输入CSDN网址 : https://blog.csdn.net ,看`` 根据分析,提取到了AJAX调用接口如下: curl 'https://blog.csdn.net/api/articles?type=new&category=home' -H 'authority:…
初次接触python,写的很简单,开发工具PyCharm,python 3.4很方便 python 部分模块安装时需要其他的附属模块之类的,可以先 pip install wheel 然后可以直接下载whl文件进行安装 pip install lxml-3.5.0-cp34-none-win32.whl 定义一个类,准备保存的类型 class CnblogArticle: def __init__(self): self.num='' self.category='' self.title=''…
Python并不是我的主业,当初学Python主要是为了学爬虫,以为自己觉得能够从网上爬东西是一件非常神奇又是一件非常有用的事情,因为我们可以获取一些方面的数据或者其他的东西,反正各有用处. 这两天闲着没事,主要是让脑子放松一下就写着爬虫来玩,上一篇初略的使用BeautifulSoup去爬某个CSDN博客的基本统计信息(http://blog.csdn.net/hw140701/article/details/55048364),今天就想要不就直接根据某个CSDN博客的主页的地址爬取该博客的所有…
原文:ASP.NET Core 如何记录每次请求的Request信息 - sky 胡萝卜星星 - CSDN博客 版权声明:本文为starfd原创文章,转载请标明出处. https://blog.csdn.net/starfd/article/details/82734039 在NFX中,我们可以很简单的通过DelegatingHandler来记录每次请求的Request和Response部分信息,但在ASP.NET Core中却行不通了,因为在Core中,我们无法使用Handler,只能通过Mi…
Python 实用爬虫-04-使用 BeautifulSoup 去水印下载 CSDN 博客图片 其实没太大用,就是方便一些,因为现在各个平台之间的图片都不能共享,比如说在 CSDN 不能用简书的图片,在博客园不能用 CSDN 的图片. 当前想到的方案就是:先把 CSDN 上的图片都下载下来,再手动更新吧. 所以简单写了一个爬虫用来下载 CSDN 平台上的图片,用于在其他平台上更新图片时用 更多内容,请看代码注释 效果演示 Python 源代码 提示: 需要先下载 BeautifulSoup 哦,…
python random模块 - 小驹的专栏 - 博客频道 - CSDN.NET python random模块 分类: python 2011-11-15 15:31 6037人阅读 评论(2) 收藏 举报 pythonrandomlistimport   目录(?)[+] randomrandom randomuniform randomrandint randomrandrange randomchoice randomshuffle randomsample   Python中的ran…
原文:基于Netbeans的安卓Android开发环境配置 - CSDN博客 基于Netbeans的安卓Android开发环境配置 一.准备工作 NetBeans 勾选网页中的Accept-选择对应系统下载安装即可,我电脑是XP32位,下载了windows X86,具体安装步骤可以百度,比较简单. Android SDK试用过,好使. 二.具体步骤 Netbeans->工具->插件->设置->添加->名称:NBAndroid URL:根据版本填写. URL填写: 1 2 **…
一.下载: 1.官网下载python3.0系列(https://www.python.org/) 2.下载后图标为: 二.安装: Window下: 1.安装路径: 默认安装路径:C:\python35 2.配置环境变量: [右键计算机]–>[属性]–>[高级系统设置]–>[高级]–>[环境变量]–>[在第二个内容框中找到 变量名为Path 的一行,双击] –> [Python安装目录追加到变值值中,用 : 隔开] 如:原来的值;C:\python35,切记前面有分号 L…
        前面一直强调Python运用到网络爬虫方面很有效,这篇文章也是结合学习的Python视频知识及我研究生数据挖掘方向的知识.从而简介下Python是怎样爬去网络数据的,文章知识很easy,可是也分享给大家,就当简单入门吧!同一时候仅仅分享知识,希望大家不要去做破坏网络的知识或侵犯别人的原创型文章.主要包含:         1.介绍爬取CSDN自己博客文章的简单思想及过程         2.实现Python源代码爬取新浪韩寒博客的316篇文章 一.爬虫的简单思想      近期看…
原文:MVC Html.AntiForgeryToken() 防止CSRF攻击 - CSDN博客 (一)MVC Html.AntiForgeryToken() 防止CSRF攻击 MVC中的Html.AntiForgeryToken()是用来防止跨站请求伪造(CSRF:Cross-site request forgery)攻击的一个措施,它跟XSS(XSS又叫CSS:Cross-Site-Script),攻击不同,XSS一般是利用站内信任的用户在网站内插入恶意的脚本代码进行攻击,而CSRF则是伪造…
原文:WebApi实现验证授权Token,WebApi生成文档等 - CSDN博客 using System; using System.Linq; using System.Web; using System.Web.Http; using System.Web.Security; namespace OtherApi.Auth { public class AuthFilterOutside : AuthorizeAttribute { //重写基类的验证方式,加入我们自定义的Ticket验…
开门见山,看看这个教程的主要任务,就去csdn博客,挖取技术文章,我以<第一行代码–安卓>的作者为例,将他在csdn发表的额博客信息都挖取出来.因为郭神是我在大学期间比较崇拜的对象之一.他的csdn首页如下:http://blog.csdn.net/guolin_blog,首页如图: 你需要掌握的技术有:java se,正则表达式,js dom编程思想,jsoup,此外还需要http协议的一些知识.其中其他技术点可能你以前就掌握了,只差一个jsoup了,这个哥们是干嘛使的呢?我用一句话来说,就…
Android应用开发-小巫CSDN博客client之嵌入有米广告 上一篇博客给大家介绍怎样集成友盟社会化组件,本篇继续带来干货,教大家怎样嵌入广告到应用中去.小巫自称专业对接30年,熟悉各大渠道SDK的接入和使用,除非渠道提供的SDK非常坑,不然仅仅须要不到半个小时的时间就能够把SDK接入到应用其中.关于广告,是开发人员比較关注的话题,为什么要嵌入广告呢,自然是为了为自己的辛苦劳作得到些许额外的收益,由于在国内除非做IOS付费软件,不然在Android平台下做收费软件是非常难获得收益的,用户仅…
在CSDN之下写blog无疑是一件非常吃力的事情,对于非常多simple爱好者来讲,能用markdown语法来书写代码是最优雅简洁只是的了.本文主要介绍markdown语法和怎样它来撰写csdn下的blog. 1 基本原理 撰写csdn博客有两种模式,源码模式和可视化模式,当中可视化模式是我们最经常使用的,源码模式主要是html语法.通常模式下,我们不会选用源码模式,可是,我们能够将源码模式作为中间输出,来沟通markdown和可视化博客.简单而言,我们直接撰写mardown文档,通过pytho…
尊敬的各位CSDN用户: 您好! 为了更好的服务客户.CSDN已经支持Windows Live Writer离线写博客啦.Windows Live Writer于2014年5月29日正式上线啦!欢迎大家抢先体验! 有了WLW .如今您能够随时随地撰写博客.不用登录就可以编辑和发表博客啦.WLW 能够直接打开不论什么之前已经公布的日志.改动并又一次公布.确保您在脱机时所作的改动与您公布的内容同步. 下面是安装WLW 和相关设置: 1. 下载安装WLW (步骤略,可自行下载.官方下载地址:id=86…
今天无意中在CSDN的博客之星评选活动看到自己竟然是候选人之一,真的是十分的惊讶也十分的高兴.对于喜欢写东西.喜欢分享的我来说,已经忍不住用文字来记录一下今天的美好心情,同时也让我回想起我是如何开始在CSDN上写博客,并为什么坚持下来的. 如果大家觉得我写的博客还可以,请投我一票支持一下我吧!我的投票地址为: http://vote.blog.csdn.net/blogstaritem/blogstar2013/ljianhui 1.写博客的动机——建立自己的资料库 至于我开始写博客的动机,其实…
这是敏捷开发用户故事系列的第十一篇.(栏目目录) 经常有人问起有没有完整的用户故事案例.本人在网上找了一下,大约能找到两三篇,但多数只是为了描述用户故事的语法而已,都不涉及用户故事的颗粒度.大量故事的组织结构这类内容. 本来想用我们自己的火星人做案例,但考虑到大家都不熟悉我们的工作内容,一直没有动手.前天突然想到何不用大家都熟悉的CSDN博客系统做一个演示,所以才有此文. 分析过程使用的方法是敏捷开发用户故事系列之十:八步走从用户故事生成代码结构提到的方法(前四步),如果只计算用Word生成故事…
Android应用开发-小巫CSDN博客clientJsoup篇 距上一篇博客已经过去了两个星期,小巫也认为很抱歉,由于在忙着做另外一个项目,差点儿抽不出空来,这不小巫会把剩下的博文全部在国庆补上.本篇博客将会给大家介绍怎样使用Jsoup这个库来解析我们的网页,而且怎样对我们想解析的网页进行分析. Jsoup这个库的下载地址:http://jsoup.org/download 笔者这里使用的jsoup-1.7.2 下载完之后拷贝到项目中的libs文件夹下就可以: Jsoup的资料比較少,可供參考…
项目中要用到採集的数据,所以就先拿CSDN博客来试了试.这里使用Simple HTML DOM(官网)这个库,它可以方便的遍历HTML文档. <?php include_once('simple_html_dom.php'); header('Content-Type:text/html;charset=utf-8'); $html = file_get_html('http://blog.csdn.net/szy361'); $res = $html->find('#hotarticls u…
body{ font-family: "Microsoft YaHei UI","Microsoft YaHei",SimSun,"Segoe UI",Tahoma,Helvetica,Sans-Serif,"Microsoft YaHei", Georgia,Helvetica,Arial,sans-serif,宋体, PMingLiU,serif; font-size: 10.5pt; line-height: 1.5;}…