Discuz 楼主帖子采集
try
{
for (int i = ; i < ; i++)
{
var html = GetHtmls("http://bbs.fobshanghai.com/viewthread.php?tid=3885995&extra=&page="+i,"","","gbk");
var ms = Regex.Matches(html, @"<table[\s\S]+?</table");
File.AppendAllText("1.html",string.Format( "<h4>第{0}页</h4><hr>",i));
foreach (Match m in ms)
{
var temp = m.Groups[].Value;
if (!temp.Contains("鱼骨的个人空间")) continue;
var m1 = Regex.Match(temp, @"t_msgfont"">([\s\S]+?)</div>\s+<br");
var str = m1.Groups[].Value;
str = Regex.Replace(str, @"\[<i>\s*本帖最后由.+?编辑\s*</i>\]", "");
File.AppendAllText("1.html","<p>"+str+"</p>");
}
}
MessageBox.Show("over");
}
catch (Exception ex)
{
MessageBox.Show(ex.Message);
}
看到这帖子不错 http://bbs.fobshanghai.com/viewthread.php?tid=3885995&extra=&page=1
写了一段代码 进行采集,看着方便多了
365的
try
{
for (int i = ; i < ; i++)
{
var html = GetHtmls("http://xxxxxxx/thread-536585-"+i+"-1.html");
var ms = Regex.Matches(html, @"<tr><td\s+width\=""20%""\s+align\=""left""\s+nowrap>[\s\S]+?id\=""msg"">([\s\S]+?)</div>");
File.AppendAllText("365.html", string.Format("<h4>第{0}页</h4><hr>", i));
foreach (Match m in ms)
{
var temp = m.Groups[].Value;
if (!temp.Contains("5>yswgxx</font>")) continue;
var m1 = Regex.Match(temp, @"(<font\s+color\=blue>[\s\S]+?)</td>");
var str = m1.Groups[].Value;
str = str+"<br>"+m.Groups[1].Value;
File.AppendAllText("365.html", "<p>" + str.Replace("<font color=#A7CF7A><i><b>------ 发表于安卓手机365App</b></i></font>","") + "</p>");
}
//break;
}
MessageBox.Show("over");
}
catch (Exception ex)
{
MessageBox.Show(ex.Message);
}
Discuz 楼主帖子采集的更多相关文章
- Python爬虫(二)爬百度贴吧楼主发言
爬取电影吧一个帖子里的所有楼主发言: # python2 # -*- coding: utf-8 -*- import urllib2 import string import re class Ba ...
- 技术渣如狗,面试虐成猴——本科楼主UC笔试加处女一面全纪录
背景——楼主为广州某校小本一枚,学习成绩渣(班里排名几乎倒数),技术基础渣(算是会敲代码,但很多计算机网络.操作系统的知识都只有模糊的印象).在舍友的鼓励下,收到广州UC的面试通知后,勇敢来到公司直面 ...
- php7+apache2.4 (Windows7下),成功启动。(楼主另外提供了1个php7集成环境打包: http://pan.baidu.com/s/1qXwjpF2 ,如果你只是想了解一下,放在d盘根目录。)
php7正式版已经发布,性能是php5.4的2倍.博主入手php7 新鲜了一把,下面是解决问题之后成功启动php7的记录. ( 电脑必须win7 sp1, .netframework4 ) Windo ...
- java+lucene中文分词,来看看百度究竟是怎么找到你想要的(十分重要,楼主幸苦之作)
我想只要是学过数据库的孩纸,不管是mysql,还是sqlsever,一提到查找,本能的想到的便是like关键字,其实去转盘网(分类模式)之前也是采用这种算法,但我可以告诉大家一个很不幸的事情,like ...
- discuz论坛用户资料采集器
discuz论坛用户资料采集器, 自动采集用户信息!
- 调用discuz编辑器发布帖子显示html代码的解决办法
<!--{echo htmlspecialchars_decode(discuzcode($post[message], , , , , , , , , , ));}--> 在discuz ...
- 楼主,可否发一份代码给我!QQ....
一般来说,但凡博主写一篇很赞的文章,然后贴上演示demo的图片或者结果之后,下面一定有一大堆要代码的.不论你在博客中,把算法讲得多么透彻清晰,各种流程图伪代码一清二楚:也不论你提出了任何漂亮的思路和设 ...
- discuz 删除垃圾帖子
有时候如果你的论坛被垃圾帖子占满后,会发现使用后台的删除功能还是有些慢, 我们需要先备份自己需要的帖子,然后进行下面的操作: 具体删除帖子的步骤,就是清空数据库里面的两张数据库表:pre_forum_ ...
- 随手正则写的 CSDN【只看楼主】功能
写这个的时候居然没有看到原来CSDN已经有这个功能了,写完代码了突然发现原来早就已经有了. 现把代码贴出来吧,虽然有很多解析HTML的开源类库如:http://htmlagilitypack.code ...
随机推荐
- cocos2D(四)---- CCSprite
在介绍CCSprite之前,先要理解游戏开发中的一个核心概念:精灵.精灵也称为游戏对象,它能够用来表示游戏中的不论什么物体,比方敌人.子弹.甚至是一个背景图片.一段文字.CCSprite能够说是在co ...
- Windows下visual studio code搭建golang开发环境
Windows下visual studio code搭建golang开发环境 序幕 其实环境搭建没什么难的,但是遇到一些问题,主要是有些网站资源访问不了(如:golang.org),导致一些包无法安装 ...
- hdu1028(整数划分问题)
题目链接:http://acm.hdu.edu.cn/showproblem.php?pid=1028 整数划分问题 整数划分 --- 一个老生长谈的问题: 描述 整数划分是一个经典的问题.请写一个程 ...
- iBeacon怎样工作
原文地址 iBeacons iBeacons近期是一个趋势的话题,它们同意室内定位,让你的电话知道你在基站的范围.这个能有很多应用:在停车场帮你找到你的车,零售商通过优惠券和基于位置的特别优惠,以至很 ...
- Effective Objective-C 2.0 笔记三(Literal Syntax简写语法)
当使用Objective-C的时候,你总会遇到Foundation 框架中的一些类,这些类包含NSString,NSNumber,NSArray和NSDictionary,这些数据结构都是自 ...
- Android它SDK Manager无法更新终极解决方案
前些日子.Google终于发布Android5.0正式版--棒糖.也许你和我一样,,此外,我想在第一时间更新SDK,结果打开SDK Manager,但令人失望,络围墙啊.默默问一句:近期好久没有听到方 ...
- NPC
这里的想说的NPC不是Non-Player-Controled,非玩家控制角色,而是Non-determinisitc Polynomial complete problem,它属于一类很特殊的问题, ...
- 让浏览器支持 jquery ajax load 前进、后退 功能
BEGIN; 一般在做 ajax load 的时候,非常多人都不会考虑到须要浏览器支持前进后退功能,由于大部分人都不知道能够实现. 近期遇到这个问题,经过一小段研究,发现github已经有现成的开源工 ...
- nyoj 228 士兵杀死(五岁以下儿童)【树状数组】
分析:这个问题问的是,因为它是一个单独的更新.因此,让我们更新,然后在c[i]表现为1~i之间,还原之后看起来像一个. #include <cstdio> #include <cst ...
- MySQL的create table as 与 like区别(转)
对于mysql的复制相同表结构方法,有create table as 和create table like 两种,区别是什么呢? create table t2 as select * from t1 ...