thinkphp5使用workerman定时器定时爬取某站点新闻资讯等内容

1、首先通过 composer 安装workerman，在thinkphp5完全开发手册的扩展-》coposer包-》workerman有详细说明：

#在项目根目录执行以下指令
composer require topthink/think-worker

2.在项目根目录创建服务启动文件 server.php:

<?php

define('APP_PATH', __DIR__ . '/application/');

define("BIND_MODULE", "server/Worker");

// 加载框架引导文件

require __DIR__ . '/thinkphp/start.php';

3、在application里创建server模块，并在server里创建控制器 Worker.php：

<?php

namespace app\server\controller;

use think\worker\Server;

class Worker extends Server

{

    public function onWorkerStart($work)

    {

        $handle=new Collection();

        $handle->add_timer();

    }

}

4.创建Collection.php类

<?php

namespace app\server\controller;

use app\common\model\ArticleModel;

use think\Controller;

use Workerman\Lib\Timer;

class Collection extends Controller{

	public function __construct(){

		  parent::__construct();

	}

	public function add_timer(){

        Timer::add(10, array($this, 'index'), array(), true);//时间间隔过小，运行会崩溃

    }

    /**

     * 采集数据

     */

    public function index(){

        $total=$this->get_jinse();

        return json(['msg'=>"此次采集数据共 $total 条。",'total'=>$total]);

    }

    /**

     * 获取金色财经资讯

     */

    public function get_jinse(){

        $url="https://api.jinse.com/v4/live/list?limit=20";

        $data=$this->get_curl($url);

        $data=json_decode($data);

        $data=$data->list[0]->lives;

        $validate=validate('Article');

        $items=[];

        foreach ($data as $k=>$v){

            preg_match('/【(.+?)】(.+)/u',$v->content,$content);

            if(!@$content[2]){

                continue;

            }

            $list=array(

                'source_id'=>$v->id,

                'source'=>'金色财经',

                'title'=>trim(preg_replace('/.*\|/','',$content[1])),

                'content'=>$content[2],

            );

            if($validate->check($list)){

                $items[]=$list;

            }

        }

        if($items){

            krsort($items);

            $model=new ArticleModel();

            $model->saveAll($items);

        }

        return count($items);

    }

    public function get_curl($url){

        $ch=curl_init();

        curl_setopt($ch, CURLOPT_SSL_VERIFYPEER, false);

        curl_setopt($ch,CURLOPT_URL,$url);

        curl_setopt($ch,CURLOPT_HEADER,0);

        curl_setopt($ch,CURLOPT_RETURNTRANSFER,1);

        $output = curl_exec($ch);

        if($output === FALSE ){

            echo "CURL Error:".curl_error($ch);

        }

        curl_close($ch);

        // 4. 释放curl句柄

        return $output;

    }

}

5、启动服务 php server.php start

thinkphp5使用workerman定时器定时爬取某站点新闻资讯等内容的更多相关文章

nodejs实现定时爬取微博热搜
The summer is coming " 我知道,那些夏天,就像青春一样回不来. - 宋冬野青春是回不来了,倒是要准备渡过在西安的第三个夏天了. 废话我发现,自己对 coding 这 ...
selenium+BeautifulSoup+phantomjs爬取新浪新闻
一下载phantomjs,把phantomjs.exe的文件路径加到环境变量中,也可以phantomjs.exe拷贝到一个已存在的环境变量路径中,比如我用的anaconda,我把phantomjs. ...
Python爬取腾讯新闻首页所有新闻及评论
前言这篇博客写的是实现的一个爬取腾讯新闻首页所有的新闻及其所有评论的爬虫.选用Python的Scrapy框架.这篇文章主要讨论使用Chrome浏览器的开发者工具获取新闻及评论的来源地址. Chrom ...
Python 网络爬虫 007 (编程) 通过网站地图爬取目标站点的所有网页
通过网站地图爬取目标站点的所有网页使用的系统:Windows 10 64位 Python 语言版本:Python 2.7.10 V 使用的编程 Python 的集成开发环境:PyCharm 2016 ...
使用Scrapy框架爬取腾讯新闻
昨晚没事写的爬取腾讯新闻代码,在此贴出,可以参考完善. # -*- coding: utf-8 -*- import json from scrapy import Spider from scrap ...
9个用来爬取网络站点的 Python 库
上期入口:10个不到500行代码的超牛Python练手项目 1️⃣Scrapy 一个开源和协作框架,用于从网站中提取所需的数据. 以快速,简单,可扩展的方式. 官网:https://scrapy.or ...
python3爬虫-爬取新浪新闻首页所有新闻标题
准备工作:安装requests和BeautifulSoup4.打开cmd,输入如下命令 pip install requests pip install BeautifulSoup4 打开我们要爬取的 ...
Python 利用 BeautifulSoup 爬取网站获取新闻流
0. 引言介绍下 Python 用 Beautiful Soup 周期性爬取 xxx 网站获取新闻流: 图 1 项目介绍 1. 开发环境 Python: 3.6.3 BeautifulSoup: ...
Python写网络爬虫爬取腾讯新闻内容
最近学了一段时间的Python,想写个爬虫,去网上找了找,然后参考了一下自己写了一个爬取给定页面的爬虫. Python的第三方库特别强大,提供了两个比较强大的库,一个requests, 另外一个Bea ...

随机推荐

C++：关于委托类
转自:http://blog.csdn.net/dadalan/article/details/4041931.vs2010已经支持function/bind,能很好实现委托. ［说明］本文不仅介绍 ...
html 页面清浏览器缓存
<meta http-equiv="Pragma" content="no-cache" /> <meta http-equiv=" ...
SQL Server ->> 深入探讨SQL Server 2016新特性之 --- Row-Level Security（行级别安全控制）
SQL Server 2016 CPT3中包含了一个新特性叫Row Level Security(RLS),允许数据库管理员根据业务需要依据客户端执行脚本的一些特性控制客户端能够访问的数据行,比如,我 ...
Linux系统学习之系统启动的5个过程
Linux 系统启动过程 Linux系统的启动过程可以分为5个阶段: 1. 内核引导当计算机打开电源后,首先是BIOS开机自检,按照BIOS中设置的启动设备(通常是硬盘)来启动.操作系统接管硬件以后 ...
Oracle案例07——ORA-28000: the account is locked
遇到这个错误,一般我们想到的是数据库用户被锁,只需要执行用户解锁即可恢复,但这里之所以写出来是因为比较奇葩的一个问题. 昨天下午接同事信息,说一个用户连接报被锁,经过沟通发现其实连接一个ADG的备库作 ...
使用UIWebView中html标签显示富文本
使用UIWebView中html标签显示富文本用UIWebView来渲染文本并期望达到富文本的效果开销很大哦! Work 本人此处直接加载自定义字体"新蒂小丸子体",源码不公开, ...
xcode9 unity3d 新坑
1.metal调试会报错,要在edit scheme里关掉
ZT SAFE_DELETE
SAFE_DELETE 分类: c/C++ 2008-10-14 14:26 706人阅读评论(2) 收藏举报 delete文本编辑nullflash破解加密我发现学程序大家差不多都有相似的地方 ...
phonegap的照相机 API
一. Camera Api 简单介绍 Camera 选择使用摄像头拍照,或从设备相册中获取一张照片.图片以 base64 编码的字符串或图片 URI 形式返回. 方法: 1. camera.getP ...
PyCharm Django项目开发的调试方法
下面介绍两种PyCharm Django项目开发的调试方法: 方法一: 1. 使用PyCharm 自带的django项目Debug工具, 当然前提条件是django项目环境已经搭建好了. 2. 在代码 ...

thinkphp5使用workerman定时器定时爬取某站点新闻资讯等内容

thinkphp5使用workerman定时器定时爬取某站点新闻资讯等内容的更多相关文章

随机推荐

热门专题