目录 需要用的module 单页测试 批量抓取 数据保存 背景说明 因为加入cnblog不久,发现上面有很多优秀的文章. 无意中发现cnblog有整理文章的收藏排行榜,也就是热门文摘. 不过有点坑的是,这个页面不支持搜索,所以就写一个简单的脚本把这些热门文章理出来. 整个爬虫的思路: 确定页面的接口,一般常见的格式是html或者json格式: 确定页面迭代变量,找到page_index 对单页进行测试,包括header信息的配置,以及所需字段的提取: 对第3步中的代码进行封装,放到循环内执行:…
#coding: utf-8 #title..href... str0='blabla<a title="<论电影的七个元素>——关于我对电影的一些看法以及<后会无期>的一些消息" target="_blank" href="http://blog.sina.com.cn/s/blog_4701280b0102eo83.html"><论电影的七个元素>——关于我对电…</a>' impo…
经常可以看到各种排行榜,这些文章列表的标题之前加了序号,前三条还有显眼样式 1.实现效果 2.实现方法 <ul class="hotPh1"> {dede:arclist flag='h' typeid='2' row='10' titlelen=60 orderby=pubdate} <li class="bor"> [field:global runphp='yes' name=autoindex] $a="<span c…
1 模块库使用说明 1.1 requests库 requests 是用Python语言编写,基于 urllib,采用 Apache2 Licensed 开源协议的 HTTP 库.它比 urllib 更加方便,可以节约我们大量的工作,完全满足 HTTP 测试需求. 1.2 urllib库 urllib的request模块可以非常方便地抓取URL内容,也就是发送一个GET请求到指定的页面,然后返回HTTP的响应. 1.3jieba库 结巴"中文分词:做最好的 Python 中文分词组件 1.4 Be…
版权声明:本文为博主原创文章.未经博主同意不得转载. https://blog.csdn.net/nealgavin/article/details/27230679 CSDN原则上不让非人浏览訪问.正常爬虫无法从这里爬取文章,须要进行模拟人为浏览器訪问. 使用:输入带文章的CSDN链接自己主动生成正文的HTML,文件名称为标题名 #!/usr/bin/env python # coding=utf-8 ######################################### #> F…
添加几个按钮 行内js 写法: <button onclick="javascript:alert('行内js')">行内js</button> 注意:alert函数在cnblog看来是违规函数调用,上面这句话会在控制台打印:“alert: 行内js”,而不是预期的弹框.在第三节外部js的测试中,在后台设置中使用alert函数,会导致整个脚本加载失败! 结果: Success! 内部js 写法: <script type="text/javasc…
需求驱动学习的动力. 因为我们单位上不了外网所以读新闻是那么的痛苦,试着自己抓取网页保存下来,然后离线阅读.今天抓取的是cnbeta科技新闻,抓取地址是http://m.cnbeta.com/wap/index.htm?page=1,咱们需要抓取的是前5页就行了.代码如下: #!/usr/bin/python # -*- coding: utf-8 -*- import urllib2,re,time,json import sys from bs4 import BeautifulSoup r…
对C# WinForm开发系列收集的控件使用方面进行整理, 加入了一些文章, 不断补充充实, 完善这方面. 基础 - 常用控件 C# WinForm开发系列 - CheckBox/Button/Label/ProgressBar WinForm下CheckedListBox的数据绑定 Winform 下无闪烁走马灯效果实现 c#,winform,progressbar+labe,联动显示进度 C# WinForm开发系列 – TextBox 只能输入数字的TextBox---补充 (C#)为 T…
 Android集 1.Himi李华明的<Android游戏开发专栏>http://blog.csdn.net/column/details/androidgame.html2.老罗的<老罗的Android之旅>对android系统的解读 http://blog.csdn.net/column/details/androidluo.html 3.咪当俺系噜噜的<Android 天天向上> 里面有很多实用的文章 http://blog.csdn.net/mobile/co…
作者 标题 rollenholt Python修饰器的函数式编程 - Rollen Holt - 博客园 rollenholt python操作gmail - Rollen Holt - 博客园 rollenholt python的xml.dom学习笔记 - Rollen Holt - 博客园 rollenholt python的HTMLParser学习 - Rollen Holt - 博客园 rollenholt 使用 Python 进行线程编程 线程的使用模式 - Rollen Holt -…