简单使用phpspider采集本博客文章内容

采集流程

根据链接获取页面内容(curl)->获取需要采集的内容（可以通过正则、xpath、css选择器等方法进行筛选）

<?php

require_once 'phpspider/autoloader.php';

use phpspider\core\phpspider;

use phpspider\core\requests;

use phpspider\core\selector;

/* Do NOT delete this comment */

/* 不要删除这段注释 */

requests::$input_encoding = 'GB2312';

requests::$output_encoding = 'GB2312';

//获取博客文章列表的文章url

for($i=1;$i<=10;$i++){

$url = "https://www.cnblogs.com/jcydd/default.html?page=".$i;

$html = requests::get($url);

//var_dump($html);

$selector = "/<a\sid=\"homepage1_HomePageDays_DaysList_ctl0\d_DayList_TitleUrl_\d\"\sclass=\"postTitle2\"\shref=\"(.*)\">/";

$result[] = selector::select($html, $selector,'regex');

}

//var_dump($result);

//根据url循环获取文章标题和内容

  foreach($result as $k=> $v){

      foreach($v as $kk=>$vv){

    $html1 = requests::get($vv);

    //var_dump($html1);

    //获取文章标题，正则表达式前后要加上@，我也不知道为什么

    $selector1 = "@<a\sid=\"cb_post_title_url\"\s(?:.)+?>(.*)</a>@";

    $result1 = selector::select($html1, $selector1,'regex');

    //var_dump($result1);

    //文章内容正则有点问题，有些内容获取不到

     $selector2 = "@<div\sid=\"cnblogs_post_body\"\sclass=\"blogpost-body\">((.|\n)*)<div\sid=\"MySignature\">@";

    $result2 = selector::select($html1, $selector2,'regex');

    //var_dump($result2);

    //去除文章内容里的html标签

     $result2=preg_replace('/<[^<]*>/',"",$result2);   

     //写入文件

    $myfile = fopen("f".$k.$kk.".txt", "w") or die("Unable to open file!");

    fwrite($myfile, $result1);

    fwrite($myfile,"\r\n");

     foreach($result2 as $vvv){

        fwrite($myfile, $vvv);

    }

    fclose($myfile);  

 }

}

简单使用phpspider采集本博客文章内容的更多相关文章

windows下使用python的scrapy爬虫框架，爬取个人博客文章内容信息
scrapy作为流行的python爬虫框架,简单易用,这里简单介绍如何使用该爬虫框架爬取个人博客信息.关于python的安装和scrapy的安装配置请读者自行查阅相关资料,或者也可以关注我后续的内容. ...
欢迎大家走进我的园子 ( ^___^ )y 本博客文章目录整理
＂记录＂是见证成长:＂成长＂则意味着蜕变:“变＂,创造无限可能! ------致自己文章越来越多,不容易查看,特整理了一个目录,方便快速查找坚持的是分享,搬运的是知识,图的是大家的进步,欢迎更多的 ...
python：简单爬取自己的一篇博客文章
1.爬取文章地址:https://www.cnblogs.com/Mr-choa/p/12495157.html 爬取文章的标题.具体内容,保存到文章名.txt 代码如下: # 导入requests模 ...
一文搞定scrapy爬取众多知名技术博客文章保存到本地数据库，包含：cnblog、csdn、51cto、itpub、jobbole、oschina等
本文旨在通过爬取一系列博客网站技术文章的实践,介绍一下scrapy这个python语言中强大的整站爬虫框架的使用.各位童鞋可不要用来干坏事哦,这些技术博客平台也是为了让我们大家更方便的交流.学习.提高 ...
用 Flask 来写个轻博客 (22) — 实现博客文章的添加和编辑页面
Blog 项目源码:https://github.com/JmilkFan/JmilkFan-s-Blog 目录目录前文列表新建表单新建视图函数新建模板在博客文章页面添加 New 和 Ed ...
全栈前端入门必看 koa2+mysql+vue+vant 构建简单版移动端博客
koa2+mysql+vue+vant 构建简单版移动端博客具体内容展示开始正文 github地址 <br/> 觉得对你有帮助的话,可以star一下^_^必须安装:<br/> ...
python爬虫实战之爬取智联职位信息和博客文章信息
1.python爬取招聘信息简单爬取智联招聘职位信息 # !/usr/bin/env python # -*-coding:utf-8-*- """ @Author ...
【目录】本博客其他.NET开源项目文章目录
本博客所有文章分类的总目录链接:本博客博文总目录-实时更新 1.本博客其他.NET开源项目文章目录 37..NET平台开源项目速览(17)FluentConsole让你的控制台酷起来 36..NET平 ...
[Python学习] 简单网络爬虫抓取博客文章及思想介绍
前面一直强调Python运用到网络爬虫方面很有效,这篇文章也是结合学习的Python视频知识及我研究生数据挖掘方向的知识.从而简介下Python是怎样爬去网络数据的,文章知识很easy ...

随机推荐

Centos6.5安装上传下载工具
执行下面命令即可. sudo yum install lrzsz rz 是上传命令 sz filename是下载命令如果rz上传文件时提示 was skipped,则用sudo rz命令来进行上传.
poj 2390 Bank Interest(计算本利和)
一.Description Farmer John made a profit last year! He would like to invest it well but wonders how m ...
[转]Unity3D学习笔记（四）天空、光晕和迷雾
原文地址:http://bbs.9ria.com/thread-186942-1-1.html 作者:江湖风云六年前第一次接触<魔兽世界>的时候,被其绚丽的画面所折服,一个叫做贫瘠之地的 ...
RPM包及其管理 rpm命令
一.什么是RPMRPM:RedHat Package Manager //红帽包管理如果Linux发行版本是redhat .redflag .centos .fedora .suse等或者衍生 ...
JVM体系结构之六：堆Heap之2：新生代及新生代里的两个Survivor区(下一轮S0与S1交换角色，如此循环往复)、常见调优参数
一.为什么会有年轻代我们先来屡屡,为什么需要把堆分代?不分代不能完成他所做的事情么?其实不分代完全可以,分代的唯一理由就是优化GC性能.你先想想,如果没有分代,那我们所有的对象都在一块,GC的时候我 ...
JAVA 1.7并发之Fork/Join框架
在之前的博文里有说过executor框架,其实Fork/Join就是继承executor的升级版啦 executor用于创建一个线程池,但是需要手动的添加任务,如果需要将大型任务分治,显然比较麻烦而 ...
Java变量初始化的讲解
首先需要说明的是Java中的变量分为两种:成员变量和局部变量其中成员变量又可分为:实例变量(非静态变量)和类变量(静态变量) 局部变量(局部变量的作用时间很短,所以一般是存储在栈中的): 1.形参在 ...
c语言基础 c和指针
句子 c规定数组名代表数组首元素的地址如果&a 则代表整个数组没有内存哪来的指针数据类型的本质:固定大小内存的别名变量的本质:(一段连续)内存空间的别名,内存空间的标号指针是一种数据 ...
atoi函数实现
#include int my_atoi(const char *str) { int result; char sign; for (; str && isspace(*str); ...
字符编码ANSI、ASCII、GB2312、GBK、GB18030、UNICODE、UTF-8小结
编码和解码可以理解成二进制和字符(广义的字符,包括汉字等)的映射表,编码即从字符映射至二进制,解码则为逆过程. 1.英语字符编码ASCII 开始计算机只在美国用.8字节一共可以组合出256(2的8次方 ...

简单使用phpspider采集本博客文章内容

简单使用phpspider采集本博客文章内容的更多相关文章

随机推荐

热门专题