php 网页内容抓取

最近抓的2个网站内容的代码

列表页抓取：第一种使用phpquery插件，可以快速获取，第二种它是api，所以直接获取

load_third("phpQuery.php");

/*********www.sosobtc.com***********/

/**/

$re = phpQuery::newDocumentFile('https://www.sosobtc.com/news/all'); //设置好抓取的新闻列表网址

$data = array();

// 获取列表地址

foreach(pq('.news-list .news-thumbnail a') as $key=>$value) {

  $href =  $value->getAttribute('href');

  $data[$key]['source_url'] = "https://www.sosobtc.com".$href;

}

// 获取标题

foreach(pq('.news-list .news-title h3') as $key=>$value) {

  $title =  pq($value)->text();

  $data[$key]['title'] = $title;

}

// 获取封面图地址

foreach(pq('.news-list .share-box ul') as $key=>$value) {

  $re = pq($value)->find('li')->eq(0)->find('a')->attr('href');

  $str = strrchr($re,"&");

  $arr= explode("=",$str);

  $data[$key]['pic'] = $arr[1];

  $str2 = explode("/",$arr[1]);

  $data[$key]['add_time'] = strtotime($str2[5]);

}

//获取信息初始来源

foreach(pq('.category') as $key=>$value) {

  $source = pq($value)->text();

  $data[$key]['source'] = $source;

}

// exit;

foreach($data as $v){

    $adddata['title'] = $v['title'];

    $adddata['source_url'] = $v['source_url'];

    $adddata['add_time'] = time();

    $adddata['add_time'] = $v['add_time'];

    $adddata['pic'] = $v['pic'];

    $adddata['source'] = $v['source'];

    // $adddata['stype'] = 1;

    $result = News::add($adddata);

    if(!$result['insert_id']){

        file_put_contents("/data/log/fail_spider.log",var_dump($result).",".$v['source_url'].",".$v['pic']."\r\n",FILE_APPEND);

    }

}

/*********www.sosobtc.com***********/

/*********www.36kr.com/***********/

$result = file_get_contents("http://36kr.com/api/search-column/208?per_page=20&page=1");

if(!$result){

    die;

}

$result = json_decode($result,true);

if(count($result['data']['items'])==0){

    die;

}

foreach($result['data']['items'] as $k=>$v){

    $sdata['add_time'] = strtotime($v['published_at']);

    $sdata['title'] = $v['title'];

    $sdata['pic'] = $v['template_info']['template_cover'][0];

    $info = json_decode($v['user_info'],true);

    $sdata['source'] = $info['name'];

    $sdata['source_url'] = "http://36kr.com/p/".$v['id'].".html";

    $re = News::add($sdata);

    if(!$re['insert_id']){

        file_put_contents("/data/log/fail_spider.log",var_dump($re).",".$v['source_url'].",".$v['pic']."\r\n",FILE_APPEND);

    }

}

/*********www.36kr.com/***********/

先获取的列表内容，再根据列表对应的目标地址，再去挨个抓取详情，

详情页面抓取：

load_third("phpQuery.php");

function download($url)

{

    $ch = curl_init();

    curl_setopt($ch, CURLOPT_URL, $url);

    curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);

    curl_setopt($ch, CURLOPT_CONNECTTIMEOUT, 30);

    $file = curl_exec($ch);

    curl_close($ch);

    $filename = pathinfo($url, PATHINFO_BASENAME);

    $path = '/data/xxxxx.com/phone/wwwroot/upimg/';//**************注意权限问题

    $dirarr = explode("/",$url);

    $path .= $dirarr[5]."/";

    if (!is_dir($path)) mkdir($path);

    $resource = fopen($path . $filename, 'a');

    fwrite($resource, $file);

    fclose($resource);

    return "/".$dirarr[5]."/".$filename;

}

function download2($url)

{

    $ch = curl_init();

    curl_setopt($ch, CURLOPT_URL, $url);

    curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);

    curl_setopt($ch, CURLOPT_CONNECTTIMEOUT, 30);

    $file = curl_exec($ch);

    curl_close($ch);

    $filename = pathinfo($url, PATHINFO_BASENAME).".jpg";

    $path = '/data/xxxxx.com/phone/wwwroot/upimg/';//**************注意权限问题

    $path .= date("Ymd")."/";

    if (!is_dir($path)) mkdir($path);

    $resource = fopen($path . $filename, 'a');

    fwrite($resource, $file);

    fclose($resource);

    return "/".date("Ymd")."/".$filename;

}

$result = News::getdown();

if(count($result)==0){

    exit(2);

}

foreach($result as $v)

{    

    if(strpos($v['source_url'],'sosobtc')){

        $path = download($v['pic']);//下载图片到本地

        $re = phpQuery::newDocumentFile($v['source_url']); //设置好抓取的新闻列表网址

        $content = pq(".article-main")->html();

        // $id = $v['id'];

        $data['pic'] = $path;

        $data['content'] = addslashes(trim($content));

        $data['status'] = 1;

        $result = News::modify($v['id'],$data);

        if(!$result){

            file_put_contents("/data/log/fail_spiderdown.log",$v['id']."|".var_dump($result)."|".json_encode($data)."\r\n",FILE_APPEND);

        }

    }else if(strpos($v['source_url'],'36kr')){

        // echo $v['id']."\r\n";

        $path = download2($v['pic']);//下载图片到本地

        $re = file_get_contents($v['source_url']); //设置好抓取的新闻列表网址

        preg_match("/<script>var props=(.*),locationnal={/",$re,$match);

        $info = json_decode($match[1],true);

        $content = $info['detailArticle|post']['content'];

        $data['pic'] = $path;

        $data['content'] = $content;

        $data['status'] = 1;

        $result = News::modify($v['id'],$data);

        // print_r($data);

        // break;

        $result = News::modify($v['id'],$data);

        if(!$result){

            file_put_contents("/data/log/fail_spiderdown.log",$v['id']."|".var_dump($result)."|".json_encode($data)."\r\n",FILE_APPEND);

        }

    }

}

第一种还是用phpquery抓取。第二种查看源代码，它是js数据懒加载的，所以我直接php正则匹配我需要的数据。其中我把二者的封面图都下载到本地了，本地的upimg主要要给权限，否则创建日期目录可能会失败。还有一点，我对source_url 也就是目标网址 mysql字段做了唯一索引，这样我每天2个脚本定时跑，可以抓到最新数据，同时又不会抓到重复数据。

php 网页内容抓取的更多相关文章

使用jsoup进行网页内容抓取
对网页内容的抓取比较的感兴趣,于是就简单的学习了一下,如果不使用任何的框架去抓取网页的内容,感觉有点难度,我就简单点来吧,这里所使用的jsoup框架,抓取网页的内容与使用jquery选择网页的内容差不 ...
网络爬虫WebCrawler（1）-Http网页内容抓取
在windows在下面C++由Http协议抓取网页的内容: 首先介绍了两个重要的包(平时linux在开源包,在windows下一个被称为动态链接库dll):curl包和pthreads_dll,其中c ...
C# asp.net 抓取需要登录的网页内容抓取asp.net登录验证的网站
private void btnASPNET_Click(object sender, EventArgs e) { Dictionary<string, s ...
Java+Jsoup实现网页内容抓取
不知不觉毕业快一年了,工作逐渐趋于平淡,从一个对编程了解得很少甚至完全一窍不通的小小菜,终于成为了一枚小菜,总而言之,算是入了IT这一行.这大半年马马虎虎做了三个项目,有安卓项目,有Java Web项 ...
Python 实现腾讯新闻抓取
原文地址:http://www.cnblogs.com/rails3/archive/2012/08/14/2636780.htm 思路: 1.抓取腾讯新闻列表页面: http://news.qq.c ...
paip.抓取网页内容--java php python
paip.抓取网页内容--java php python.txt 作者Attilax 艾龙, EMAIL:1466519819@qq.com 来源:attilax的专栏地址:http://blog ...
Java 抓取网页内容
前两天想写一段自动提取微博状态的代码.据我所知,实现这个功能即可以用PHP写,也可以用Java写.我认为用Java写调试方便一点,PHP的脚本还要上传到服务器什么的. 代码很简单的,新建一个java. ...
使用Jsoup函数包抓取网页内容
之前写过一篇用Java抓取网页内容的文章,当时是用url.openStream()函数创建一个流,然后用BufferedReader把这个inputstream读取进来.抓取的结果是一整个字符串.如果 ...
Asp.Net 之抓取网页内容
一.获取网页内容——html ASP.NET 中抓取网页内容是非常方便的,而其中更是解决了 ASP 中困扰我们的编码问题. 需要三个类:WebRequest.WebResponse.StreamRea ...

随机推荐

Java 虚拟机 - 2.3 HotSpot虚拟机对象
对象的创建 Step1 类加载检查当发现一条new指令时,检查: 该指令的参数是否能在常量池中定位到一个类的符号引用: 并且检查这个符号引用代表的类是否已经被加载.解析和初始化过.如果没有,那必须先 ...
hadoop新增新数据节点和退役数据节点
新增数据节点 0. 需求随着公司业务的增长,数据量越来越大,原有的数据节点的容量已经不能满足存储数据的需求,需要在原有集群基础上动态添加新的数据节点.1. 环境准备 (1)在hadoop03主机上再克 ...
c# sleep 例子
using System; using System.Threading; public class arr { public static void Main() { //int[] arr; // ...
VS2010-MFC（MFC常用类：CFile文件操作类）
转自:http://www.jizhuomi.com/software/234.html CFile类概述如果你学过C语言,应该知道文件操作使用的是文件指针,通过文件指针实现对它指向的文件的各种操作 ...
(34)C#异常
一.异常的层次结构二.异常格式异常的一般格式 try { //可能会抛出异常的代码 } catch { //发现错误后会运行这里面的代码 } finally { //写不论是否出现异常都执行的代码 ...
Android Support 包的作用、用法
1, Android Support V4, V7, V13是什么?本质上就是三个java library. 2, 为什么要有support库?如果在低版本Android平台上开发一个应用程序,而应 ...
vue+el-menu+vue-router实现动态导航条
导航栏组件template <template> <div class="sidebar"> <el-menu unique-opened :defa ...
13-5-let和()的作用域
<!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8&quo ...
java_static关键字
/** * static关键字:静态关键字 * 静态优先于非静态加载到内存中(静态优先于对进入到内存中) * 被static修饰的成员变量不能被序列化的,序列化的都是对象 * transient关键字 ...
在Eclipse中修改Jsp页面的新增模板
打开Eclipse的Preferences页面路径: Window à Preferences 搜索"jsp",点击"Templates",选择要修改的Jsp ...

php 网页内容抓取

php 网页内容抓取的更多相关文章

随机推荐

热门专题