php页面编码与字符操作

我们可以用header来定义一个php页面为utf编码或GBK编码，也可以在html中用meta标签来指定编码

例如：php页面为utf编码 header("Content-type: text/html; charset=utf-8");

我们通常使用header或meta，下面说一说两者的区别

一、采用meta页面编码

用meta来设置页面编码

 <meta http-equiv="content-type" content="text/html; charset=编码类型">

作用是：声明客户端的浏览器用什么字符集编码显示该页面，起到通知浏览器的作用。只有字符编码与浏览器编码相同时才不会造成错误而产生乱码。

二、采用header()页面编码

用header()来设置页面编码

1 header("content-type:text/html; charset=编码类型");

header是发送原始 HTTP 标头，作用是把括号里面的信息发到http标头，浏览器会采用header()中设置的编码。

三、AddDefaultCharset方式设置编码

注意：以前版本的Apache配置时修改AddDefaultCharset这个选项，要改为gb2312或者utf-8，否则汉字会变为乱码，但从Apache 2.0.53 开始,取消了AddDefaultCharset，现在的新版本会自适应浏览器的。所以在apache2.4中是找不到AddDefaultCharset的。

文档中：

低版本的Apache的 .conf 文件里，有AddDefaultCharset。可以设置defaultcharset 字符编码（删除前面的#）。设置完成后相当于在每个文件中加上header("content-type:text/html; charset=字符编码")。

但是和header()还是有区别的（优先级不一样）

1：如果页面没有指定编码， Apache配置defaultcharset gbk , 页面文件编码是utf-8。

页面显示是乱码。在页面没有meta指明charset，设置defaultcharset gbk，这个时候服务器的设置生效，编码不一致，造成乱码；

2：如果页面指定编码为utf-8, Apache配置defaultcharset gbk. 页面文件编码是utf-8。

页面显示乱码。设置defaultcharset gbk，会覆盖页面级别（meta）的编码设置；

3：如果页面header申明charset为utf8, Apache配置defaultcharst gbk,页面文件编码是utf8。

页面显示正常。这个说明header优先级要高于服务器和浏览器的设置；

4：如果Apache关闭DefaultCharset 。

页面显示正常。

由此得出结论：

header() >> AddDefaultCharset >> meta

所以添加header()是比较好的方法

四、编码转换函数

1：mb_detect_encoding 检查编码

 $string = "赵亚飞";

 $encode = mb_detect_encoding($string, array("ASCII","UTF-8","GB2312","GBK","BIG5"));

 header("content-Type: text/html; charset=".$encode);

 echo $string;

有时会出现检查错误（解决办法）例如：对与GB2312和UTF- 8，或者UTF-8和GBK网上说是由于字符短是，mb_detect_encoding会出现误判。不是bug，写程序时也不应当过于依赖mb_detect_encoding，当字符串较短时，检测结果产生偏差的可能性很大。

$encode = mb_detect_encoding($keytitle, array('ASCII','GB2312′,'GBK','UTF-8');

三个参数分别是：被检测的输入变量、编码方式的检测顺序(如果为真，后面自动忽略)、strict模式
对编码检测的顺序进行调整，将最大可能性放在前面，这样减少被错误转换的机会。一般要先排gb2312，当有GBK和UTF-8时，需要将常用的排列到前面。

2：mb_convert_encoding 转换编码

函数原型：string mb_convert_encoding ( string str, string to_encoding [, mixed from_encoding] )
例如：

 1： 将任意类型（ 'ASCII,GB2312,GBK,UTF-8'）字符串$html_str转换成'UTF-8'编码

      $html_str = mb_convert_encoding($html_str, 'UTF-8', 'ASCII,GB2312,GBK,UTF-8');

 2：gbk To utf-8

  < ?php

     header("content-Type: text/html; charset=Utf-8");

     echo mb_convert_encoding("赵亚飞", "UTF-8", "GBK");

  ?>

注意：使用上面的函数需要安装但是需要先enable mbstring 扩展库。在 php.ini里将; extension=php_mbstring.dll 前面的 ; 去掉

mb_convert_encoding 可以指定多种输入编码，它会根据内容自动识别，；执行效率比iconv差很多

3：iconv 转换编码

iconv函数库能够完成各种字符集间的转换，是php编程中不可缺少的基础函数库。

需要注意一下：

iconv在转换字符有时会出错，（如果将utf-8转换为gb2312时，可能会出现字符串被截断的情况发生。）

解决方法：在需要转成的编码后加 "//IGNORE" 是iconv函数第二个参数后。

如下：

  iconv("UTF-8","GB2312//IGNORE",$data)

ignore意思是忽略转换时的错误，如果没有ignore参数，所有该字符后面的字符串都无法被保存（不往下进行转换）。

iconv不是php的默认函数，也不是默认安装的模块。需要安装才能用的。

这里有一个自动判断编码类型，进行转化的函数：

 function check_encod($encod,$string){

          //判断字符编码

         $encode = mb_detect_encoding($string, array("ASCII","UTF-8","GB2312","GBK","BIG5"));

         var_dump($encode);

         if($encode != $encod){

              $string = iconv($encode, $encod, $string);

          }

          return $string;

  }

 $path = "赵亚飞。.jpg";

 $path = check_encod("GB2312",$path);

五：字符串截取

1：mb_substr()

PHP substr()函数可分割文字，但分割的文字如果包括中文字符往往会遇到问题，这时可以用mb_substr()这个函数，用法与substr()相似，只是在mb_substr()最后要加入多一个参数，以设定字符串的编码， 需要打开php_mbstring.dll，需要在php.ini中把php_mbstring.dll打开。例如：

  echo mb_substr('赵亚飞赵亚飞er',0,9);         //输出：赵亚飞

  echo mb_substr('赵亚飞赵亚飞er',0,9,'utf-8'); //输出：赵亚飞赵亚飞er

第一个是以三个字节为一个中文，这就是utf-8编码的特点，下面加上utf-8字符集说明，是以一个字为单位来截取的

2：iconv_substr()

Substr是截取字符的函数，但是很多时候，截取中文却需要额外处理，原因是中文在UTF-8中占用3个字节，在GB2312中占用2个字节，在截取中随时存在截取的字符串长度与组成未知，所以给很多人造成了困扰。PHP5开始，iconv_substr函数出现

 <?php

       $str='赵z亚y飞f/include';

       echo substr($str,1,5);

       echo "<br>";

       echo iconv_substr($str,1,5,"UTF-8");

 ?>

这个是在网页编码为UTF-8的PHP代码中使用的截取编码。如果在UTF-8网页中使用GB2312或者GBK编码来截取，会出错，占用字节不同；反之，在GB2312或GBK网页中，不能使用UTF-8来进行截取。由于iconv_substr是按照字符而非占用字节来计算，所以“a”和“叶”均计算为1位。在GB2312或者GBK中，由于占用字节是一样的，所以可以随意使用GB2312或GBK编码来截取，截取结果是一样的。

3：兼容性良好的截取字符串的函数

 1     /**

       * 截取字符串兼容各种编码

       *

       * @param string $str

       * @param int    $start    //开始截取位置默认是0

       * @param int    $length   //截取长度

       * @param string $charset  //字符编码

       * @param int    $is_addnode  //是否加省略号

       * @return string

       **/

     public static function cut_string($str, $start=0, $length, $charset="", $is_addnode=true){

         if(empty($str) || $str == ''){

             return $str;

         }

         $real_set = mb_detect_encoding($str, array("UTF-8", "ASCII", "GB2312", "GBK", "BIG5"));

         if(empty($charset)){

             //没有传编码就按本身编码；

             $charset = $real_set;

             if(empty($charset)){

                 $charset = 'utf-8';

             }

         }else{

             if($real_set != $charset){

                 //如果编码不一致就设置为传入的编码，防止截取乱码

                 $str = iconv($real_set, $charset, $str);

             }

         }

         //兼容没有安装扩展的情况

         if(function_exists("mb_substr")){

             $cut_str = mb_substr($str, $start, $length, $charset);

         }elseif(function_exists('iconv_substr')) {

             $cut_str = iconv_substr($str, $start, $length, $charset);

         }

         if($is_addnode){

             if($str == $cut_str){

                 return $cut_str;

             }else{

                 return $cut_str . "......";

             }

         }else{

             return $cut_str;

         }

         //兼容正则截取

         $preg['utf-8'] = "/[\x01-\x7f]|[\xc2-\xdf][\x80-\xbf]|[\xe0-\xef][\x80-\xbf]{2}|[\xf0-\xff][\x80-\xbf]{3}/";

         $preg['gb2312'] = "/[\x01-\x7f]|[\xb0-\xf7][\xa0-\xfe]/";

         $preg['gbk'] = "/[\x01-\x7f]|[\x81-\xfe][\x40-\xfe]/";

         $preg['big5'] = "/[\x01-\x7f]|[\x81-\xfe]([\x40-\x7e]|\xa1-\xfe])/";

         preg_match_all($preg[$charset], $str, $match);

         $string = join("",array_slice($match[0], $start, $length));

         if($is_addnode){

             return $string . "......";

         }

         return $string;

     }

php页面编码与字符操作的更多相关文章

dedecms功能性函数封装(XSS过滤、编码、浏览器XSS hack、字符操作函数)
dedecms虽然有诸多漏洞,但不可否认确实是一个很不错的内容管理系统(cms),其他也不乏很多功能实用性的函数,以下就部分列举,持续更新,不作过多说明.使用时需部分修改,你懂的 1.XSS过滤. f ...
day08（字符编码，字符与字节，文件操作）
一,复习 ''' 类型转换 1.数字类型:int() | bool() | float() 2.str与int: int('10') | int('-10') | int('0') | float(' ...
Python 字符编码及其文件操作
本章节内容导航: 1.字符编码:人识别的语言与机器机器识别的语言转化的媒介. 2.字符与字节:字符占多少个字节,字符串转化 3.文件操作:操作硬盘中的一块区域:读写操作注:浅拷贝与深拷贝用法: d ...
Python编程Day7——字符编码、字符与字节、文件操作
一.字符编码重点 ***** 1. 什么是字符编码:将人识别的字符转换计算机能识别的01,转换的规则就是字符编码表2. 常用的编码表:ascii.unicode.GBK.Shift_JIS.Euc- ...
Python之字符编码与文件操作
目录字符编码 Python2和Python3中字符串类型的差别文件操作文件操作的方式文件内光标的移动文件修改字符编码什么是字符编码? ''' 字符编码就是制定的一个将人类的语言的字符与二 ...
DAY7 字符编码和文件操作
一.软件与python解释器打开文件的方法 1.软件打开文件读取数据的流程: 1. 打开软件 2. 往计算机发生一个打开文件的指令,来打开文件 3. 读取数据渲染给用户(存取编码不一致:乱码) 2.p ...
Day 07 字符编码，文件操作
今日内容 1.字符编码:人识别的语言与机器识别的语言转换的媒介 2.字符与字节:字符占多少字节,字符串转换 3.文件操作:操作硬盘的一块区域字符编码重点:什么是字符编码人类能识别的字符等高级标识 ...
Python 入门基础6 --字符编码、文件操作1
今日内容: 1.字符编码 2.字符与字节 3.文件操作一.字符编码了解: cpu:将数据渲染给用户内存:临时存放数据,断电消失硬盘:永久存放数据,断电后不消失 1.1 什么是编码? 人类能够识 ...
Python基础之字符编码，文件操作流与函数
一.字符编码 1.字符编码的发展史阶段一:现代计算机起源于美国,最早诞生也是基于英文考虑的ASCII ASCII:一个Bytes代表一个字符(英文字符/键盘上的所有其他字符),1Bytes=8bit ...

随机推荐

修改httpd默认端口号
Tomcat: vim /etc/httpd/conf/httpd.conf//别忘了service httpd restart Nginx: vim /etc/nginx/nginx.conf//完 ...
maven 打包
使用命令行形式打包 1.配置maven环境变量,在变量path中加入maven路径. 2.在要打包的项目目录下使用:Ctrl+shift+鼠标右键点击,点击在此处打开命令行窗口. 在打开的命令行窗口 ...
彻底理解js中this的指向，不必硬背。
首先必须要说的是,this的指向在函数定义的时候是确定不了的,只有函数执行的时候才能确定this到底指向谁,实际上this的最终指向的是那个调用它的对象(这句话有些问题,后面会解释为什么会有问题,虽然 ...
Servlet和JSP学习指导与实践（二）：Session追踪
前言: web应用中经常需要对某些有用的信息进行存储或者附加一些信息.本文主要介绍session,即“会话”跟踪的几种不同方式~ ----------------------------4种管理ses ...
用java下载hdfs文件报NullPointerException
用fs.copyToLocalFile( hdfsPath,localPath);下载hdfs的文件会报NullPointerException,具体报错为: java.lang.NullPointe ...
【CityHunter】Unity3D设计AR探索模式
为了增加游戏的乐趣性,我对项目进行了Unity3D的引入,经过一番折腾,终于做出了一个基本的AR探索模式的基本雏形. 途中的小方块就是虚拟物体,因为是静态图片,所以也不能看出什么来,只能文字形容一下: ...
java进行文件上传，带进度条
网上看到别人发过的一个java上传的代码,自己写了个完整的,附带源码项目环境:jkd7.tomcat7. jar包:commons-fileupload-1.2.1.jar.commons-io-1 ...
（转）理解MySQL——索引与优化
参考资料:http://www.cnblogs.com/hustcat/archive/2009/10/28/1591648.html ———————————— 全文: 写在前面:索引对查询的速度有着 ...
在Excel中使用SQL语句查询和筛选
本文转自:http://blog.sina.com.cn/s/blog_5fc375650102e1g5.html 今天在微博上看到@数据分析精选分享的一篇文章,是关于<在Excel中使用SQ ...
HTML补充
补充一: 让DIV 自动居中 width:980px;margin:0 auto; 补充二: 内敛标签: inline #块级标签转换成内联标签. block #变成块级. inline-block ...

php页面编码与字符操作

php页面编码与字符操作的更多相关文章

随机推荐

热门专题