转自:http://blog.csdn.net/think2me/article/details/12999907

1. 说说csv 和 Excel

这两者都是我们平时导出或者导入数据一般用到的载体。两者有什么区别呢?csv 格式更兼容一点。那么共同点都是GBK格式的,非UTF8。所以我们上传文件的时候,老是出现乱码,就是编码问题没有转好导致。
 

2. 推荐的几种方法

1. 函数 fgetss($handel);  返回字符串。它就是strip_tags(fget($handel))的组合读取csv 文件的一行。去掉了其中的HTML,php 等标签。这种方法使用于小的csv 文件
  1. $handle=fopen("1.csv","r");
  2. while(!feof($handle)){
  3. $buffer=fgetss($handle,2048);
  4. $row = mb_convert_encoding(trim($buffer), 'utf-8', 'gbk'); //很重要。转换成UTF8格式,不然容易产生乱码
  5. $data=explode(",",$row); //转换成数组
  6. $insertRows[]    = $data;
  7. } //这样所有的csv文件就生成一个二维数组$insertRows;

2. 函数 fgetcsv($handel,2048,','),返回数组,它就是explode(",",fget($handel))的组合。这种方法使用于小的csv 文件。而且不适合有汉字的csv 文件。

  1. $handle=fopen("1.csv","r");
  2. while($data=fgetcsv($handle,1000,",")){
  3. $insertRows[]    = $data;
  4. }  //这样所有的csv文件就生成一个二维数组$insertRows;
 

3. 说到正题了。上面2种方法适合少量的csv 文件。如果一个文件有10W+ 以上的行数,恐怕就很悲剧了。

  1. $handle=fopen("1.csv","r");
  2. //将文件一次性全部读出来
  3. $excelData = array();
  4. $content = trim(file_get_contents($fileName));
  5. $excelData = explode("\n",$content);
 
或者直接用$excelData = file($file);   file() 函数直接将数据读出并放入数组当中。

我们先将所有的文件一次性读出来。放到一个数组$excelData 中。这个时候,我们就可以不用管这个csv 文件了,纯粹了php 操作数组了。所以。不会崩溃异常:

 
  1. $chunkData = array_chunk($excelData , 5000); // 将这个10W+ 的数组分割成5000一个的小数组。这样就一次批量插入5000条数据。mysql 是支持的。
  2. $count = count($chunkData);
  3. for ($i = 0; $i < $count; $i++) {
  4. $insertRows = array();
  5. foreach($chunkData[$i] as $value){
  6. $string = mb_convert_encoding(trim(strip_tags($value)), 'utf-8', 'gbk');//转码
  7. $v = explode(',', trim($string));
  8. $row = array();
  9. $row['cdate']    = empty($v[0]) ? date('Y-m-d') : date('Y-m-d',strtotime($v[0]));
  10. $row['business'] = $v[1];
  11. $row['project']  = $v[2];
  12. $row['shopname'] = $v[3];
  13. $row['shopid']   = $v[4];
  14. $row['fanli']    = formatNumber($v[5]);
  15. $row['fb']   = $v[6] * 100;
  16. $row['jifen']    = $v[7];
  17. $sqlString       = '('."'".implode( "','", $row ) . "'".')'; //批量
  18. $insertRows[]    = $sqlString;
  19. }
  20. $result = $model->addDetail($insertRows); //批量将sql插入数据库。
  21. }
插入数据库当然是批量插入了:
 
  1. public function addDetail($rows){
  2. if(empty($rows)){
  3. return false;
  4. }
  5. //数据量较大,采取批量插入
  6. $data = implode(',', $rows);
  7. $sql = "INSERT IGNORE INTO tb_account_detail(cdate,business,project,shopname,shopid,fanli,fb,jifen)
  8. VALUES {$data}";
  9. $result = $this->query($sql);
  10. return true;
  11. }
 
ok ! 亲测试。10W 数据。6个字段。插入需要10秒。
 
 
-----------------2013-12-18 日更新---------------------
 

3. 导出10W+的数据到csv

放弃之前写的一篇博客中用到的方法:http://blog.csdn.net/think2me/article/details/8596833 。原因是:当超过50W+ 以上的数据时,有可能浏览器崩溃,内存超。
 
这个方法是写文件的方式。然后再把文件弹出下载。
 
  1. public function dump2Excel() {
  2. set_time_limit(0);
  3. ini_set('memory_limit', '640M');
  4. //获取列表
  5. $name = $this->getActionName();
  6. $model = D(GROUP_NAME . '.' . $name);
  7. $map = $this->_search();
  8. //文件名
  9. if (isset($_GET['error']) && $_GET['error'] > 0) {
  10. $filename = C('IMG_PATH').'account_data_error_' . $map['action_id'] . '_' . date('Y-m-d', mktime()) . '.csv';
  11. }else{
  12. $filename = C('IMG_PATH').'account_data_all_' . $map['action_id'] . '_' . date('Y-m-d', mktime()) . '.csv';
  13. }
  14. //用户信息,商家ID,联盟,商家订单号,商品分类,确认类别,下单时间,完成时间,
  15. //实际支付金额,佣金,佣金补贴,返利,F币,论坛积分,备注,强制入库
  16. // 'user_info', 'shopid', 'league', 'order_id', 'classify', 'confirm_type',
  17. //'buydate', 'paydate', 'real_pay', 'commission', 'commission_plus',
  18. // 'fanli', 'jifen', 'bbs', 'remarks', 'persist_execute', 'unique_sign','error_code'
  19. $header[] =  iconv("utf-8", "gb2312", "用户信息");
  20. $header[] = iconv("utf-8", "gb2312", "商家ID");
  21. $header[] = iconv("utf-8", "gb2312", "联盟");
  22. $header[] = iconv("utf-8", "gb2312", "商家订单号");
  23. $header[] = iconv("utf-8", "gb2312", "商品分类");
  24. $header[] = iconv("utf-8", "gb2312", "确认类别");
  25. $header[] = iconv("utf-8", "gb2312", "下单时间");
  26. $header[] = iconv("utf-8", "gb2312", "完成时间");
  27. $header[] = iconv("utf-8", "gb2312", "实际支付金额");
  28. $header[] = iconv("utf-8", "gb2312", "佣金");
  29. $header[] = iconv("utf-8", "gb2312", "佣金补贴");
  30. $header[] = iconv("utf-8", "gb2312", "返利");
  31. $header[] = iconv("utf-8", "gb2312", "F币");
  32. $header[] = iconv("utf-8", "gb2312", "论坛积分");
  33. $header[] = iconv("utf-8", "gb2312", "备注");
  34. $header[] = iconv("utf-8", "gb2312", "强制入库");
  35. $header[] = iconv("utf-8", "gb2312", "唯一标识");
  36. $header[] = iconv("utf-8", "gb2312", "错误信息");
  37. $headerFile = implode(',', $header);
  38. //写入标题
  39. @unlink($filename);
  40. file_put_contents($filename, $headerFile."\n");
  41. //获取所有error_code
  42. $list = D('Fanli')->table('tb_account_action_data_error_code')->field('id,err_msg')->findAll();
  43. $error_msg = array();
  44. foreach ($list as $value) {
  45. $error_msg[$value['id']] = $value['err_msg'];
  46. }
  47. //导入错误的数据
  48. if (isset($_GET['error']) && $_GET['error'] > 0) {
  49. $map['error_code'] = array('gt', 0);
  50. }
  51. if (!empty($map['action_id'])) {
  52. $allCount = $model->where($map)->field('count(1) as count')->select();
  53. $pageLimit = ceil($allCount[0]['count']/self::PAGE_COUNT);
  54. $voList = array();
  55. //打开文件
  56. if (!$handle = fopen($filename, 'a')) {
  57. echo "不能打开文件 $filename";
  58. exit;
  59. }
  60. //分页获取
  61. for($i=0;$i<$pageLimit;$i++){
  62. $count = self::PAGE_COUNT;
  63. $start = $count * $i;
  64. $limit = "$start,$count";
  65. $voList  = $model->where($map)->limit($limit)->order('id desc')->findAll();
  66. //写入文件
  67. $excelString = array();
  68. foreach ($voList as $v) {
  69. $dumpExcel = array();
  70. $dumpExcel[] = mb_convert_encoding($v['user_info'], 'GBK', 'UTF-8');
  71. $dumpExcel[] = mb_convert_encoding($v['shopid'], 'GBK', 'UTF-8');
  72. $dumpExcel[] = mb_convert_encoding($v['league'], 'GBK', 'UTF-8');
  73. $dumpExcel[] = mb_convert_encoding($v['order_id'], 'GBK', 'UTF-8');
  74. $dumpExcel[] = mb_convert_encoding($v['classify'], 'GBK', 'UTF-8');
  75. $dumpExcel[] = mb_convert_encoding($v['confirm_type'], 'GBK', 'UTF-8');
  76. $dumpExcel[] = "'".mb_convert_encoding($v['buydate'], 'GBK', 'UTF-8');
  77. $dumpExcel[] = "'".mb_convert_encoding($v['paydate'], 'GBK', 'UTF-8');
  78. $dumpExcel[] = mb_convert_encoding($v['real_pay'], 'GBK', 'UTF-8');
  79. $dumpExcel[] = mb_convert_encoding($v['commission'], 'GBK', 'UTF-8');
  80. $dumpExcel[] = mb_convert_encoding($v['commission_plus'], 'GBK', 'UTF-8');
  81. $dumpExcel[] = mb_convert_encoding($v['fanli'], 'GBK', 'UTF-8');
  82. $dumpExcel[] = mb_convert_encoding($v['jifen'], 'GBK', 'UTF-8');
  83. $dumpExcel[] = mb_convert_encoding($v['bbs'], 'GBK', 'UTF-8');
  84. $dumpExcel[] = mb_convert_encoding($v['remarks'], 'GBK', 'UTF-8');
  85. $dumpExcel[] = intval($v['persist_execute']);
  86. $dumpExcel[] = mb_convert_encoding($v['unique_sign'], 'GBK', 'UTF-8');
  87. $dumpExcel[] = mb_convert_encoding($error_msg[$v['error_code']], 'GBK', 'UTF-8');
  88. $excelString[] = implode(',',$dumpExcel);
  89. }
  90. //只能一行行些。不然容易漏
  91. foreach($excelString as $content){
  92. fwrite($handle, $content . "\n");
  93. }
  94. unset($excelString);
  95. }
  96. fclose($handle);
  97. }
  98. //导出下载
  99. header("Content-type: application/octet-stream");
  100. header('Content-Disposition: attachment; filename="' . basename($filename) . '"');
  101. header("Content-Length: ". filesize($filename));
  102. readfile($filename);
  103. }

用php导入10W条+ 级别的csv大文件数据到mysql。导出10W+级别数据到csv文件的更多相关文章

  1. 用python导入20个G的json数据到Mysql数据库

    整体思路参考资料:https://blog.csdn.net/layman2016/article/details/79252499 作业:有一个16个G的跟疫情相关的json新闻大数据(articl ...

  2. .Net Core导入千万级数据至Mysql

    ​最近在工作中,涉及到一个数据迁移功能,从一个txt文本文件导入到MySQL功能. 数据迁移,在互联网企业可以说经常碰到,而且涉及到千万级.亿级的数据量是很常见的.大数据量迁移,这里面就涉及到一个问题 ...

  3. PHP读取CSV大文件导入数据库的示例

    对于数百万条数据量的CSV文件,文件大小可能达到数百M,如果简单读取的话很可能出现超时或者卡死的现象. 为了成功将CSV文件里的数据导入数据库,分批处理是非常必要的. 下面这个函数是读取CSV文件中指 ...

  4. mysql导出csv/sql/newTable/txt的方法,mysql的导入txt/sql方法...mysql备份恢复mysqlhotcopy、二进制日志binlog、直接备份文件、备份策略、灾难恢复.....................................................

    mysql备份表结构和数据 方法一. Create table new_table_nam备份到新表:MYSQL不支持: Select * Into new_table_name from old_t ...

  5. 10w行级别数据的Excel导入优化记录

    需求说明 项目中有一个 Excel 导入的需求:缴费记录导入 由实施 / 用户 将别的系统的数据填入我们系统中的 Excel 模板,应用将文件内容读取.校对.转换之后产生欠费数据.票据.票据详情并存储 ...

  6. mysql导出csv/excel文件的几种方法,mysql的load导入csv数据

    方法一 php教程用mysql的命令和shell select * into outfile './bestlovesky.xls' from bestlovesky where 1 order by ...

  7. 利用mongoimport命令导入csv大文件

    最近我同事做了一个PHP项目,其中有一个功能是 上传excel文件并将数据导入mongodb某个集合中. 通常的做法是 写一个上传文件的页面,然后后端 读取 这个文件,利用phpexcel类库将这个e ...

  8. 160802、1.06s删除10w条重复记录只保留一条(mysql)及linux删除乱码文件

    上次发表过的一遍删除重复记录的文章,其中最优的方案三删除1w条也花了0.07秒而2w条就已经花掉了4秒.今天进行了进一步优化,测试删除10w条只花了1.06秒.速度提升了很多. 建表语句 CREATE ...

  9. LOAD DATA INFILE读取CSV中一千万条数据至mysql

    作业要求 构建一个关系模式和课本中的关系movies(title,year,length,movietype,studioname,producerC)一样的关系,名称自定,在这个关系中插入1000万 ...

随机推荐

  1. Django跳转

    跳转问题 如果我现在停留在文章的详情页,用户未登陆,如果你要评论,或者点赞就应该回到登陆页面登陆 如果登陆成功了,就要返回到当初跳转过来的页面 第一种通过前后端传送数据 $('.hit').click ...

  2. oracle 中GROUP BY的用法

    转自:http://blog.csdn.net/basenet855x/article/details/6694150 问题: select item.itemnum,item.in1,item.in ...

  3. zabbix server的Discover功能,实现zabbix agent 大批量的自动添加,并链接到指定的模版(3)

    一.需求 zabbix 服务器可以手动加入zabbix-agent客户端,对于少量的机器,这没有什么.但到了线上,我们有大量的服务器需要监控时,如果再一个个的手动加的话,工作量势必会增加很多.这时,z ...

  4. 给Array本地对象增加一个原型方法,它用于删除数组条目中重复的条目(可能有多个),返回值是一个包含被删除的重复条目的新数组

    Array.prototype.removeCount=function(){ var that=this; var arr=[]; for(var i=0;i<that.length;i++) ...

  5. Dijkstra算法的另一种证明

    按:今天看Tanenbaum的计算机网络时讲到了Dijkstra算法.关于算法的正确性,<算法导论>给出了严格的证明.CLRS的证明基于一个通用的框架,非常清晰.今天只是随意想想是否有其他 ...

  6. 有关C#中的引用类型的内存问题

    对于一个类,如果定义后(记作对象a),将另外一个对象b直接赋值(“a = b”)给它,则相当于将地址赋值给了这个对象.当另外一个对象b不再对这块地址应用时,a由于对这块地址仍在使用,这块地址的指向的栈 ...

  7. KindEditor 和 xss过滤

    KindEditor   1.进入官网 2.下载 官网下载:http://kindeditor.net/down.php 本地下载:http://files.cnblogs.com/files/wup ...

  8. 变体类型 Variant VARIANT

    变体类型 Variant VARIANT class RTL_DELPHIRETURN Variant: public TVarData typedef struct    tagVARIANT  V ...

  9. Linux 硬盘工具之hdparm

    安装 yum -y install hdparm 显示硬盘的相关设置 测试硬盘的读取速度 检测IDE硬盘的电源管理模式 [root@cnscn ~]# hdparm -C /dev/sda /dev/ ...

  10. .net core 下的Area注册

    app.UseMvc(routes => { routes.MapAreaRoute( name: "AreaRoute", areaName: "Admin&qu ...