ndoejs处理编码的爬虫

var express=require('express');
var http=require('http');
var cheerio=require('cheerio');
var fs=require('fs')
var iconv = require('iconv-lite')
var app=express();
app.get('/', function(req, res){
    res.send('hello world');
});
app.listen(3000);

var Nbaurl='http://china.nba.com/news/';
var html=""
var arr=[];
http.get(Nbaurl,function(req,res){
    req.on('data',function(data){
        html+=data;
    });
    req.on('end',function(){
        var $=cheerio.load(html);
        var hrefArr=$('#news').find('a');
        // console.log(hrefArr[0])
        hrefArr.each(function(item){
            if($(this).attr('href').indexOf('javascript')==-1){
                arr.push($(this).attr('href'));
            }

        })
        create(arr)
    });
    req.on('error',function(err){
        console.info(err);
    });
})

function create(arrhref){
    for(let i=0;i<arrhref.length-arrhref.length+10;i++){
        http.get(arrhref[i],function(req,res){
            let length=0;
            let arr=[];
            req.on('data',function(data){
                arr.push(data);
                length+=data.length

            });
            req.on('end',function(){
                console.log(arr)
                var data=Buffer.concat(arr,length);
                var htmldata=iconv.decode(data,'gb2312');
                var $=cheerio.load(htmldata);
               var savedata=$("#MainL");
               fs.writeFile(`./new/new${i}.html`,savedata,function(err){
                   console.log(err)
               })
            });
            req.on('error',function(err){
                console.info(err);
            });
        })
    }
}
//⚠️ 需要先安装相关依赖 ⚠️新建new文件夹

ndoejs处理编码的爬虫的更多相关文章

Python之爬虫的理解
# -*- coding: utf-8 -*- 中文用户一定先用这行来声明编码方式爬虫: 爬虫是自动访问互联网,并且提取数据的程序 (从网络上获取非结构化的数据,ETL将这些数据转换为结构化数 ...
python爬虫之一：requests库
目录安装requtests requests库的连接异常 HTTP协议 HTTP协议对资源的操作 requests库的7个主要方法 request方法 get方法网络爬虫引发的问题 robots协 ...
Python爬虫教程-01-爬虫介绍
Spider-01-爬虫介绍 Python 爬虫的知识量不是特别大,但是需要不停和网页打交道,每个网页情况都有所差异,所以对应变能力有些要求爬虫准备工作参考资料精通Python爬虫框架Scrap ...
Python爬虫教程-00-写在前面
鉴于好多人想学Python爬虫,缺没有简单易学的教程,我将在CSDN和大家分享Python爬虫的学习笔记,不定期更新基础要求 Python 基础知识 Python 的基础知识,大家可以去菜鸟教程进行 ...
Python爬虫编程常见问题解决方法
Python爬虫编程常见问题解决方法: 1.通用的解决方案: [按住Ctrl键不送松],同时用鼠标点击[方法名],查看文档 2.TypeError: POST data should be bytes ...
python格式转换的记录
Python的格式转换太难了. 与其说是难,具体来说应该是"每次都会忘记该怎么处理".所以于此记录,总的来说是编码+格式转换的记录. 本文记录环境:python3.6 经常见到的格 ...
Node.js爬虫抓取数据 -- HTML 实体编码处理办法
cheerio DOM化并解析的时候 1.假如使用了 .text()方法,则一般不会有html实体编码的问题出现 2.如果使用了 .html()方法,则很多情况下(多数是非英文的时候)都会出现,这时, ...
crawler_网络爬虫中编码的正确处理与乱码的解决策略
转载: http://hi.baidu.com/erliang20088/item/9156132bdaeae8949c63d134 最近一个月一直在对nutch1.6版进行中等层次的二次开发,本来是 ...
python爬虫得到unicode编码处理方式
在用python做爬虫的时候经常会与到结果中包含unicode编码,需要将结果转化为中文,处理方式如下 str.encode('utf-8').decode('unicode_escape')

随机推荐

[转][CentOS]开机时
来自:https://www.cnblogs.com/jcblog/p/6431252.html 在 CentOS 开机界面有两个菜单: 第一个选项正常启动,第二个选项急救模式启动(系统出项问题不能正 ...
[转][C#]BarCodeToHTML
/// <summary> /// 类说明:Assistant /// 编码人:苏飞 /// 联系方式:361983679 /// 更新网站:http://www.sufeinet.c ...
廖雪峰Java-3流程控制-7for循环
for循环 for循环使用计数器实现循环 for循环条件需要设置:计数器初始值:循环前检测条件:每次循环后如何更新计数器计数器变量通常命名为i int[] ns = {1,4,9,16,25}; f ...
LCA最小公共父节点的解题思路
LCA最小公共父节点解法: 1.二叉搜索树: 中序遍历是升序,前序遍历即按序插入建树的序列. 二叉搜索树建树最好用前序+中序,如果用前序建树,最坏情况会退化为线性表,超时. 最近公共祖先甲级: A11 ...
ocr 文字区域检测及识别
ocr 文字区域检测及识别 # coding=utf- from PIL import Image, ImageFilter, ImageEnhance from skimage.filters im ...
typescript类与继承
/* 1.vscode配置自动编译 1.第一步 tsc --inti 生成tsconfig.json 改 "outDir": "./js", 2.第二步任务 ...
GDB 调试 ---转比较全的东东
转自程序人生:http://www.programlife.net/gdb-manual.html Linux 包含了一个叫gdb 的GNU 调试程序.gdb 是一个用来调试C和C++程序的强力调试 ...
Linux CentOS更改文件的权限
chgrp (全称:change group) groupadd testgroup 添加用户组 chgrp testgroup test1 修改文件的所属用户组是testgroup. 如果test ...
Java 13 - Java 数组
Java 数组数组对于每一门编程语言来说都是重要的数据结构之一,当然不同语言对数组的实现及处理也不尽相同. Java语言中提供的数组是用来存储固定大小的同类型元素. 你可以声明一个数组变量,如num ...
TextView右上角显示小红点，小红点根据TextView的长度移动，小红点被TextView挤出去不显示的问题；
大概就是图片这个样,这个功能很常见,本来我以为很简单,谁知道真的很简单: 遇到点小问题,记录一下,哈哈: 小红点的Drawable: <?xml version="1.0" ...

ndoejs处理编码的爬虫

ndoejs处理编码的爬虫的更多相关文章

随机推荐

热门专题