<?php

class spider 

  private $content ; 
  private $contentlen ; 
  private $BestAnswer ; 
  private $CurPosition ;

function GetStart( $iStart

  { 
    return
strpos( $this->content , '>' ,
$iStart )+1 ; 
  }

function GetContent ( $url

  { 
   
$this->content =
file_get_contents($url); 
   
$this->contentlen = strlen(
$this->content ) ; 
    $start =
strpos( $this->content ,
'<title>') ; 
    $start =
$this->GetStart( $start ) ; 
    $end =
strpos( $this->content ,
'</title>' , $start )

    $title =
substr( $this->content , $start ,
$this->$end-$start ) ; 
    if ( strpos(
$title , '_百度知道' , 1 ) < 1 ) 
   

     
return false; 
   

    return ture

  }

function GetTitle() 
  { 
    $start =
strpos( $this->content ,
'<title>') ; 
    if ( $start
> 0 ) 
   

     
$start = $this->GetStart( $start )

     
$end = strpos( $this->content ,
'</title>' , $start )

     
$this->CurPosition = $end ; 
     
return substr( $this->content , $start , $end-$start
) ; 
   

    return NULL

  }

function GetQTitle() 
  { 
    $start =
strpos( $this->content , 'span
class="question-title"' , $this->CurPosition )

    if ( $start
> 0 ) 
   

     
$start = $this->GetStart( $start )

     
$end = strpos( $this->content ,
'</span>' , $start )

     
$this->CurPosition = $end ; 
     
return substr( $this->content , $start , $end-$start
) ; 
   

    return NULL

  }

function
GetClassFly() 
  { 
   
;

}

function
GetQContent() 
  { 
    
$start = strpos( $this->content , 'pre
id="question-content"' , $this->CurPosition )

    
if ( $start > 0 ) 
    

      
$start = $this->GetStart( $start )

      
$end = strpos( $this->content ,
'</pre>' , $start )

      
$this->CurPosition = $end ; 
      
return substr( $this->content , $start , $end-$start
) ; 
    

    
return NULL ; 
  }

function GetQsuply() 
  { 
    $start =
strpos( $this->content , 'id="question-suply"' ,
$this->CurPosition ) ; 
    if ( $start
> 0 ) 
   

     
$start = $this->GetStart( $start )

     
$end = strpos( $this->content ,
'</pre>' , $start )

     
$this->CurPosition = $end ; 
     
return substr( $this->content , $start , $end-$start
) ; 
   

    return NULL

  }

function GetAnswer() 
  { 
    $start =
strpos( $this->content , 'class="reply-text mb10"' ,
$this->CurPosition ) ; 
    if ( $start
> 0 ) 
   

     
$start = $this->GetStart( $start )

     
$end = strpos( $this->content ,
'</pre>' , $start )

     
$this->CurPosition = $end ; 
     
return substr( $this->content , $start , $end-$start
) ; 
   

    return NULL

  } 
}

ini_set('max_execution_time', '0'); 
$TestSpider = new spider() ; 
$Startqid = 1000001 ; 
$sndqid = 1000051 ; 
$standurl = 'http://zhidao.baidu.com/question/'

$html = '.html' ; 
$url ; 
$NoUse = 0 ;

function microtime_float() 

  list($usec, $sec) = explode(" ",
microtime()); 
  return ((float)$usec +
(float)$sec); 
}

$time_start = microtime_float(); 
$answer ; 
for ($i = $Startqid ; $i < $sndqid ; $i++


  $url = $standurl.$i.$html

  if ( $TestSpider->GetContent (
$url ) ) 
  { 
    echo
'<br>正在爬取编号为'.$i.'的网页<br>'

   
$TestSpider->GetTitle() ;
//得到网页标题,不用显示了 
    echo
'<font
color="green">问题:</font><font
color="red"><a target="_blank"
href="'.$url.'">
'.$TestSpider->GetQTitle().'</a></font><br>'
; //得到问题题目 
    echo
'<font
color="green">问题具体内容:</font>'.$TestSpider->GetQContent().'</font><br>'
; //得到问题内容,有可能不存在 
    echo
'<font
color="green">问题补充说明:</font>'.$TestSpider->GetQsuply().'</font><br>'
; //问题补充说明,有可能不存在 
    while (
($answer = $TestSpider->GetAnswer()) != NULL
)  
   

     
echo '<font
color="green">问题答案:</font>'.$answer.'</font><br>'
; //得到答案。有可能没有答案! 
   

    ob_flush()

    flush()

  } 
  else 
  { 
    echo
'<p>错误了<a
target="_blank" href="'.$url.'" style=
"color:#ff0000">'.$url.'</a></p>'

    $NoUse++

  } 
}

$time_end = microtime_float(); 
$time = $time_end - $time_start; 
$i = $i-$Startqid ; 
echo
'<p>爬取'.$i.'个网页用时'.$time.'秒</p>其中跳过'.$NoUse.'个无效网页!'
;

?>

百度知道的php爬虫的更多相关文章

  1. 我们必须要知道的RESTful服务最佳实践

    看过很多RESTful相关的文章总结,参齐不齐,结合工作中的使用,非常有必要归纳一下关于RESTful架构方式了,RESTful只是一种架构方式的约束,给出一种约定的标准,完全严格遵守RESTful标 ...

  2. 隔壁小孩都要知道的Drupal配置

    i春秋作家:Arizona 原文来自:隔壁小孩都要知道的Drupal配置 隔壁小孩都要知道的Drupal配置 Drupal是一个开源的PHP内容管理系统,具有相当复杂的架构.它还具有强大的安全模型.感 ...

  3. 程序员必须要知道的Hadoop的一些事实

    程序员必须要知道的Hadoop的一些事实.现如今,Apache Hadoop已经无人不知无人不晓.当年雅虎搜索工程师Doug Cutting开发出这个用以创建分布式计算机环境的开源软...... 1: ...

  4. 【转载】在IT界取得成功应该知道的10件事

     在IT界取得成功应该知道的10件事 2011-08-11 13:31:30 分类: 项目管理 导读:前面大多数文章都是Jack Wallen写的,这是他的新作,看来要成为NB程序员还要不停的自我总结 ...

  5. 理工科应该的知道的C/C++数学计算库(转)

    理工科应该的知道的C/C++数学计算库(转) 作为理工科学生,想必有限元分析.数值计算.三维建模.信号处理.性能分析.仿真分析...这些或多或少与我们常用的软件息息相关,假如有一天你只需要这些大型软件 ...

  6. 你应该知道的10个奇特的 HTML5 单页网站

    网页设计师努力寻找新的方式来展现内容.其中一个大的趋势是单页网站,现在被世界上的一些大的品牌广泛采用,使用它们来为用户提供一个快速,干净和简单的而且​​美丽的网站. 下面是10个令人惊叹的单页 H​​ ...

  7. Git / 程序员需要知道的12个Git高级命令

    众所周知,Git目前已经是分布式版本控制领域的翘楚,围绕着Git形成了完整的生态圈.学习Git,首先当然是学习Git的基本工作流.相比于SVN等传统版本控制系统来说,Git是专为分布式版本控制而生的强 ...

  8. 你应该知道的RPC原理

    你应该知道的RPC原理 在学校期间大家都写过不少程序,比如写个hello world服务类,然后本地调用下,如下所示.这些程序的特点是服务消费方和服务提供方是本地调用关系. 而一旦踏入公司尤其是大型互 ...

  9. 希望早几年知道的5个Unix命令

    原文: http://spin.atomicobject.com/2013/09/09/5-unix-commands/ 希望早几年知道的5个Unix命令 使用*nix系统已经有一段时间了.但是还是有 ...

随机推荐

  1. 【Xamarin挖墙脚系列:时刻下载最新的Mac环境下的Xamarin安装包】

    原文:[Xamarin挖墙脚系列:时刻下载最新的Mac环境下的Xamarin安装包] 打开这两个地址,就能看到最新的安装包了.... http://www.jianshu.com/p/c67c14b3 ...

  2. 【简译】jQuery对象的奥秘:基础介绍

    本文翻译自此文章 你有没有遇到过类似$(".cta").click(function(){})这样的JavaScript代码并且在想“$('#x')是什么”?如果这些对你想天书一样 ...

  3. C++中new和不new的区别

    我们都知道C++中有三种创建对象的方法,如下: 复制代码代码如下: #include <iostream>using namespace std; class A{private:    ...

  4. bzoj1264

    表面上看这是一道LCS问题 LCS问题O(n2)的复杂度已经很优秀了 而这道题需要O(nlogn)以下的复杂度才能AC 所以我们要找经典问题的特殊性 特殊就在这两个串中,每个数字都是恰好出现5次 不难 ...

  5. Android模拟器——Genymotion

    还在用Android原生模拟器?向你推荐一款全方位把Android原生模拟器秒成渣渣的神器:Genymotion! 需要理由? 性能卓越作为历史上最快的Android模拟器(没有之一),秒级开机关机速 ...

  6. SQLServer使用规范(转载)

    SQLServer使用规范 常见的字段类型选择 1.字符类型建议采用varchar/nvarchar数据类型 2.金额货币建议采用money数据类型 3.科学计数建议采用numeric数据类型 4.自 ...

  7. ARM学习笔记5——程序状态寄存器

    当前程序状态寄存器CPSR可以在任何位处理器模式下被访问,它包含条件码标志.中断控制.当前处理器模式以及其他状态和控制信息.CPSR的结构图如下: 一.条件标志位 CPSR最高4位:N(Negativ ...

  8. HDOJ/HDU 1556 Color the ball(树状数组)

    Problem Description N个气球排成一排,从左到右依次编号为1,2,3-.N.每次给定2个整数a b(a <= b),lele便为骑上他的"小飞鸽"牌电动车从 ...

  9. 操作12864(ST7920控制器)

    引脚部分查看中文的12864介绍,下面这些可以在ST7920的英文数据手册里查到. Function Description 部分介绍工作方式.存储器.操作方法.Instructions 部分介绍指令 ...

  10. 4 weekend110的textinputformat对切片规划的源码分析 + 倒排索引的mr实现 + 多个job在同一个main方法中提交

    好的,现在,来weekend110的textinputformat对切片规划的源码分析, Inputformat默认是textinputformat,一通百通. 这就是今天,weekend110的te ...