shell用curl抓取页面乱码，参考一下2方面（转）

1.是用curl抓取的数据是用类似gzip压缩后的数据导致的乱码。
乱码：curl www.1ting.com |more
乱码：curl -H "Accept-Encoding: gzip"www.1ting.com | more
不乱码：curl -H "Accept-Encoding: gzip"www.1ting.com | gunzip | more

不乱码：curl www.1616.net |more
乱码：curl -H "Accept-Encoding: gzip"www.1616.net | more
不乱码：curl -H "Accept-Encoding: gzip"www.1616.net | gunzip | more

下面的a,b解释的是www.1ting.com，c,d解释是的www.1616.net
a.某个url，如果用不加任何选项的curl命令抓取后乱码，在curl后面加上Accept-Encoding:gzip，后面不加gunzip，则抓取的数据会乱码。
b.某个url，如果用不加任何选项的curl命令抓取后乱码，在curl后面加上Accept-Encoding:gzip，后面加上gunzip，则抓取的数据不会乱码。

c.某个url，如果用不加任何选项的curl命令抓取后不乱码，在curl后面加上Accept-Encoding:gzip，后面不加gunzip，则抓取的数据会乱码。
d.某个url，如果用不加任何选项的curl命令抓取后不乱码，在curl后面加上Accept-Encoding:gzip，后面加上gunzip，则抓取的数据不会乱码。

小总：
也就是说在curl后面加上Accept-Encoding:gzip，再用gunzip解压缩，则基本上可以保存数据不乱码。

2.GBK或者UTF8汉字之类的乱码

iconv命令是运行于linux平台的文件编码装换工具。当我们在linux系统shell下通过curl命令或者wget命令获取一个网页的源代码，当网页的编码与当前操作系统坏境的设置的编码不同时，就会发现网页中有很多乱码。如在网页"meta"标签"charset"属性值设置为"gb2312"的http://www.baidu.com百度首页，在系统坏境变量"$LANG"值为"en_US.UTF-8"的linux系统即会产生中文乱码现象。这时我们可以尝试使用iconv命令进行编码装换，让中文不在是乱码。如下命令是处理百度在系统坏境变量"$LANG"值为"en_US.UTF-8"的linux系统乱码的问题的解决方案之一：

curlhttp://www.baidu.com|iconv -fgb2312 -t utf-8

当然，你也通过改变系统坏境变量与百度首页的"charset"值一致，也可以解决此乱码问题，如下命令：

set LANG="gb2312"

export LANG

curl http://www.baidu.com

iconv命令的详细语法:

iconv [选项..] [文件..]
选项：
-f 输入编码
-t 输出编码
-l 列出所有已知的编码
-o 输出文件

对比采用PHP CURL库的POST GETHEADER三种方法之间的差异

比较POST GETHEADER这三种方法的区别：

参数	POST	GET	HEADER
CURLOPT_URL	有	有	有
CURLOPT_POST	开启	关闭	关闭
CURLOPT_HTTPHEADER	如果有$header,则开启	如果有$header,则开启	如果有$header,则开启
CURLOPT_HEADER	False	False	True
CURLOPT_NOBODY	false	False	true
CURLOPT_POSTFILEDS	True	false	false

从上表中可以看出:

POST方法：开启POST连接，然后发送POST报文体。关闭HEADER和NOBODY

GET方法：关闭POST相关的选项，关闭NOBODYHEADER，仅仅只是开启curlopt_httpheader

HEADER方法：开启HEADER和NOBODY,关闭POST相关的选项。

应该说上述三种方法，一个明显的区别是，箱采用什么方法的时候，就开启对应的CURL选项。

CURL_HTTPHEADER与CUROPT_HEADER的区别：

前者是设置HTTP头部信息的一个数组

后者是将头文件的信息以数据流的方式输出

转：http://www.xuebuyuan.com/1047685.html

shell用curl抓取页面乱码，参考一下2方面（转）的更多相关文章

好用的 curl 抓取页面的封装函数
由于经常使用php curl 抓取页面的内容,在此mark 平时自己封装的 curl函数,(其实现在也开始用 Python 来爬了~ ^-^) /** * 封装curl方法 * @author Fr ...
curl抓取页面时遇到重定向的解决方法
用php的curl抓取网页遇到了问题,为阐述方便,将代码简化如下: <?php function curlGet($url) { $ch = curl_init(); curl_setopt($ ...
通过CURL抓取页面中的图片路径并下载到本地
1.首页是图片处理页面downpic.php <?phpfunction getImage($url,$filename="") { if($url=="" ...
PHP使用CURL抓取页面
cURL的基本原理 curl是利用URL语法在命令行方式下工作的开源文件传输工具,他能够从互联网上获得各种各样的网络资源.简单来说,curl就是抓取页面的升级版. <?php //1.初始化,创 ...
curl 抓取页面信息
<?php // 1. 初始化 $ch = curl_init(); // 2. 设置选项,包括URL curl_setopt($ch, CURLOPT_URL, "www" ...
PHP使用CURL抓取网页
CURL是一个非常强大的开源库,支持很多协议,包括HTTP.FTP.TELNET等,我们使用它来发送HTTP请求.它给我们带来的好处是可以通过灵活的选项设置不同的HTTP协议参数,并且支持HTTPS ...
php curl抓取远程页面内容的代码
使用php curl抓取远程页面内容的例子. 代码如下: <?php /** * php curl抓取远程网页内容 * edit by www.jbxue.com */ $curlPost = ...
HtmlAgilityPack 抓取页面的乱码处理
HtmlAgilityPack 抓取页面的乱码处理用来解析 HTML 确实方便.不过直接读取网页时会出现乱码. 实际上,它是能正确读到有关字符集的信息,怎么会在输出时,没有取到正确内容. 因此,读两 ...
php抓取页面的几种方法详解
本篇文章是对php抓取页面的几种方法进行了详细的分析介绍,需要的朋友参考下在做一些天气预报或者RSS订阅的程序时,往往需要抓取非本地文件,一般情况下都是利用php模拟浏览器的访问,通过http请求 ...

随机推荐

DOS建立带点的文件夹
md 表示make directory 创建文件夹 rd 表示remove directory 删除文件夹我们用一个实例来说明一切吧. 1.按键盘Windows徽标键+R 来打开运行对话框 2 ...
UML总结--总体架构
架构图(一): 架构图(二): 转自:http://blog.csdn.net/lsh6688/article/details/5931706
ViZDoom安装
官网:https://github.com/mwydmuch/ViZDoom/blob/master/doc/Building.md 环境:ubuntu16, python2.7, Anaconda2 ...
css -- 通俗理解inline、block、inline-block
display:inline; 内联元素,简单来说就是在同一行显示. display:block; 块级元素,简单来说就是就是有换行,会换到第二行. display:inline-block; 就是在 ...
php -- php控制linux关机、重启、注销
php 里面有个 system(exec) 方法, 可以调用系统命令. 重启先建立一个脚本(比喻 /root/reboot_server.sh ),重启用的.//路径可随便,但最少必须 ...
一键部署MongoDB集群Windows版
由于周末在家手头没有虚拟机,所以在windows下单机完毕部署要求,并编写bat执行脚本. 1.创建配置文件及相关文件夹总的启动脚本例如以下(startmc.bat): rem m1 start m ...
PHPExcel正确读取excel表格时间单元格（转载）
error_reporting(E_ALL); date_default_timezone_set('Asia/shanghai'); /** PHPExcel_IOFactory */ requir ...
vector deque list
vector ,deque 和 list 顺序性容器: 向量 vector : 是一个线性顺序结构.相当于数组,但其大小可以不预先指定,并且自动扩展.它可以像数组一样被操作,由于它的特性我们完全可 ...
BIEE多层表头报表的制作方法
使用BIEE制作多层表头的报表大致分为以下的几种办法. 1.双层表头这种比较容易实现,只需要在表格属性中勾选作为单独的行显示即可.这样通过修改文件夹标题,就可以实现双层表头的制作 2.多层表头的制作 ...
Loadrunner的Socket脚本关联小技巧
Socket脚本关联小技巧我们在socket脚本调试的时候经常会遇到很多问题,比如:socket包中繁杂的二进制编码,socket数据如何进行截取,如何对socket数据包进行参数化等等,以下几点内 ...

shell用curl抓取页面乱码，参考一下2方面（转）

shell用curl抓取页面乱码，参考一下2方面（转）的更多相关文章

随机推荐

热门专题