抓取天涯文章的蜘蛛代码，刚经过更新（因为天涯页面HTML代码变化）

#_*_coding:utf-8-*-

import urllib2

import traceback

import codecs

from BeautifulSoup import BeautifulSoup

def openSoup(url,code):

    page = urllib2.urlopen(url)

    soup = BeautifulSoup(page,fromEncoding=code)#,fromEncoding="gb2312"

    #soup = BeautifulSoup(page,code)

    return soup

def getContentFromDiv(contents):

    s = ""

    for content in contents:

        try:

            s += content

        except:

            pass

    s = s.lstrip().rstrip()

    if len(s) < 50:

        return ""

    else:

        return "    "+s+"\r\n"+"\r\n"

def readHtml(soup,fp,authname):

    pageContent = ""

    item = soup.find(name='div', attrs={'class':'bbs-content clearfix'})

    if item != None:

        pageContent += getContentFromDiv(item.contents)

    items = soup.findAll(name='div', attrs={'class':'atl-item'})

    for item in items:

        userItem = item.find(name='a', attrs={'class':'js-vip-check'})

        if userItem == None or userItem.contents[0] != authname:

            continue

        contentItem = item.find(name='div', attrs={'class':'bbs-content'})

        pageContent += getContentFromDiv(contentItem.contents)

    fp.write(pageContent)

def getNextPage(soup,pno):

    nextlink = soup.find(name="a",attrs={"class":"js-keyboard-next"})

    if nextlink != None:

        return "http://bbs.tianya.cn"+nextlink["href"]

    else:

        return 'OVER'

def getHtml(url,filename,authname):

    p = 1

    fp = codecs.open(filename,'w','utf-8')

    while True:

        soup = openSoup(url,'utf-8')

        readHtml(soup,fp,authname)

        url = getNextPage(soup,p+1)

        if url == 'OVER' :

            break

        print 'PAGE '+str(p)+' OK'

        p = p + 1

    print 'It\'s Over'

    fp.close()

if __name__ == '__main__':

    getHtml('http://bbs.tianya.cn/post-no05-143258-1.shtml','krzc.txt',u'关河五十州')

    #getHtml('http://bbs.tianya.cn/post-no05-143258-1036.shtml','krzc.txt',u'关河五十州')

抓取天涯文章的蜘蛛代码，刚经过更新（因为天涯页面HTML代码变化）的更多相关文章

基于Node.js的强大爬虫能直接发布抓取的文章哦
基于Node.js的强大爬虫能直接发布抓取的文章哦基于Node.js的强大爬虫能直接发布抓取的文章哦!本爬虫源码基于WTFPL协议,感兴趣的小伙伴们可以参考一下一.环境配置 1)搞一台服务器,什 ...
[Python爬虫] 之十五：Selenium +phantomjs根据微信公众号抓取微信文章
借助搜索微信搜索引擎进行抓取抓取过程 1.首先在搜狗的微信搜索页面测试一下,这样能够让我们的思路更加清晰在搜索引擎上使用微信公众号英文名进行“搜公众号”操作(因为公众号英文名是公众号唯一的,而中文 ...
使用redis所维护的代理池抓取微信文章
搜狗搜索可以直接搜索微信文章,本次就是利用搜狗搜搜出微信文章,获得详细的文章url来得到文章的信息.并把我们感兴趣的内容存入到mongodb中. 因为搜狗搜索微信文章的反爬虫比较强,经常封IP,所以要 ...
python抓取头条文章
python抓取头条美文并存储到mongodb # Author:song from multiprocessing import Pool from urllib.parse import urle ...
asp.net mvc抓取微信文章里面所有的图片
/// <summary> /// 下载指定URL下的所有图片 /// </summary> public class WebPageImage { /// <summa ...
asp.net MVC 抓取微信文章数据（正文）
1.抓微信的正文主要是调用第三方的接口(https://market.aliyun.com/products/56928004/cmapi012134.html) using Newtonsoft.J ...
代理池抓取基础版-（python协程）--抓取网站（西刺-后期会持续更新）
# coding = utf- __autor__ = 'litao' import urllib.request import urllib.request import urllib.error ...
【转】Python爬虫：抓取新浪新闻数据
案例一抓取对象: 新浪国内新闻(http://news.sina.com.cn/china/),该列表中的标题名称.时间.链接. 完整代码: from bs4 import BeautifulSou ...
Python爬虫：抓取新浪新闻数据
案例一抓取对象: 新浪国内新闻(http://news.sina.com.cn/china/),该列表中的标题名称.时间.链接. 完整代码: from bs4 import BeautifulSou ...

随机推荐

java随机数生成（固定位数）
随机生成 a 到 b (不包含b)的整数: (int)(Math.random()*(b-a))+a; 随机生成 a 到 b (包含b)的整数: (int)(Math.random()*(b-a+1) ...
URAL 1146 Maximum Sum（最大子矩阵的和 DP）
Maximum Sum 大意:给你一个n*n的矩阵,求最大的子矩阵的和是多少. 思路:最開始我想的是预处理矩阵,遍历子矩阵的端点,发现复杂度是O(n^4).就不知道该怎么办了.问了一下,是压缩矩阵,转 ...
java数组的拷贝四种方法：for、clone、System.arraycopy、arrays.copyof
public class ArrayCopy{ public static void main(String []args){ int []a = {1,3,4,5}; toPrint(a); int ...
myeclipse自动生成可持久化类的映射文件的方法
1.打开DB Browser,新建一个数据库的连接,找到想要持久化操作的数据库表的图标,右键选择hibernate reverse engineering 2.之后出现如下所示: java src f ...
LabVIEW系列——生产现场故障邮件通知
第一步.建立邮件服务器,winmail做邮件服务器是个不错的选择.不过在使用前需要注册. 第二步.创建修改域名.这里创建的域名不是真正的域名,只能用于局域网内.假设:lhy.com.cn 第三步.创建 ...
web前端url传递值 js加密解密
一:Js的Url中传递中文参数乱码问题,重点:encodeURI编码,decodeURI解码: 1.传参页面Javascript代码: <script type=”text/javascript ...
Android 动画及属性动画
Android 平台提供了一套完整的动画框架,在Android3.0之前有两种动画Tween Animation(补间动画)和Frame Animation(帧动画), 对应SDK中的View Ani ...
iOS UIKit：TableView之表格创建（1）
Table View是UITableView类的实例对象,其是使用节(section)来描述信息的一种滚动列表.但与普通的表格不同,tableView只有一行,且只能在垂直方向进行滚动.tableVi ...
Gym 100187B-A Lot of Joy
题意:给一个字符串,将每个字符分开放进两个口袋,每次从两个口袋分别拿出一个字符,如果相同则开心,问开心的次数期望是多少. 分析:数学期望题,然而这是我最不拿手的...最后答案是每个字符在字符串出现的次 ...
[JS] JavascriptHelp （转载）
using System; using System.Data; using System.Configuration; using System.Web; using System.Web.Secu ...

抓取天涯文章的蜘蛛代码，刚经过更新（因为天涯页面HTML代码变化）

抓取天涯文章的蜘蛛代码，刚经过更新（因为天涯页面HTML代码变化）的更多相关文章

随机推荐

热门专题