用php导入10W条+ 级别的csv大文件数据到mysql。导出10W+级别数据到csv文件
转自:http://blog.csdn.net/think2me/article/details/12999907
1. 说说csv 和 Excel
2. 推荐的几种方法
- $handle=fopen("1.csv","r");
- while(!feof($handle)){
- $buffer=fgetss($handle,2048);
- $row = mb_convert_encoding(trim($buffer), 'utf-8', 'gbk'); //很重要。转换成UTF8格式,不然容易产生乱码
- $data=explode(",",$row); //转换成数组
- $insertRows[] = $data;
- } //这样所有的csv文件就生成一个二维数组$insertRows;
2. 函数 fgetcsv($handel,2048,','),返回数组,它就是explode(",",fget($handel))的组合。这种方法使用于小的csv 文件。而且不适合有汉字的csv 文件。
- $handle=fopen("1.csv","r");
- while($data=fgetcsv($handle,1000,",")){
- $insertRows[] = $data;
- } //这样所有的csv文件就生成一个二维数组$insertRows;
3. 说到正题了。上面2种方法适合少量的csv 文件。如果一个文件有10W+ 以上的行数,恐怕就很悲剧了。
- $handle=fopen("1.csv","r");
- //将文件一次性全部读出来
- $excelData = array();
- $content = trim(file_get_contents($fileName));
- $excelData = explode("\n",$content);
我们先将所有的文件一次性读出来。放到一个数组$excelData 中。这个时候,我们就可以不用管这个csv 文件了,纯粹了php 操作数组了。所以。不会崩溃异常:
- $chunkData = array_chunk($excelData , 5000); // 将这个10W+ 的数组分割成5000一个的小数组。这样就一次批量插入5000条数据。mysql 是支持的。
- $count = count($chunkData);
- for ($i = 0; $i < $count; $i++) {
- $insertRows = array();
- foreach($chunkData[$i] as $value){
- $string = mb_convert_encoding(trim(strip_tags($value)), 'utf-8', 'gbk');//转码
- $v = explode(',', trim($string));
- $row = array();
- $row['cdate'] = empty($v[0]) ? date('Y-m-d') : date('Y-m-d',strtotime($v[0]));
- $row['business'] = $v[1];
- $row['project'] = $v[2];
- $row['shopname'] = $v[3];
- $row['shopid'] = $v[4];
- $row['fanli'] = formatNumber($v[5]);
- $row['fb'] = $v[6] * 100;
- $row['jifen'] = $v[7];
- $sqlString = '('."'".implode( "','", $row ) . "'".')'; //批量
- $insertRows[] = $sqlString;
- }
- $result = $model->addDetail($insertRows); //批量将sql插入数据库。
- }
- public function addDetail($rows){
- if(empty($rows)){
- return false;
- }
- //数据量较大,采取批量插入
- $data = implode(',', $rows);
- $sql = "INSERT IGNORE INTO tb_account_detail(cdate,business,project,shopname,shopid,fanli,fb,jifen)
- VALUES {$data}";
- $result = $this->query($sql);
- return true;
- }
3. 导出10W+的数据到csv
- public function dump2Excel() {
- set_time_limit(0);
- ini_set('memory_limit', '640M');
- //获取列表
- $name = $this->getActionName();
- $model = D(GROUP_NAME . '.' . $name);
- $map = $this->_search();
- //文件名
- if (isset($_GET['error']) && $_GET['error'] > 0) {
- $filename = C('IMG_PATH').'account_data_error_' . $map['action_id'] . '_' . date('Y-m-d', mktime()) . '.csv';
- }else{
- $filename = C('IMG_PATH').'account_data_all_' . $map['action_id'] . '_' . date('Y-m-d', mktime()) . '.csv';
- }
- //用户信息,商家ID,联盟,商家订单号,商品分类,确认类别,下单时间,完成时间,
- //实际支付金额,佣金,佣金补贴,返利,F币,论坛积分,备注,强制入库
- // 'user_info', 'shopid', 'league', 'order_id', 'classify', 'confirm_type',
- //'buydate', 'paydate', 'real_pay', 'commission', 'commission_plus',
- // 'fanli', 'jifen', 'bbs', 'remarks', 'persist_execute', 'unique_sign','error_code'
- $header[] = iconv("utf-8", "gb2312", "用户信息");
- $header[] = iconv("utf-8", "gb2312", "商家ID");
- $header[] = iconv("utf-8", "gb2312", "联盟");
- $header[] = iconv("utf-8", "gb2312", "商家订单号");
- $header[] = iconv("utf-8", "gb2312", "商品分类");
- $header[] = iconv("utf-8", "gb2312", "确认类别");
- $header[] = iconv("utf-8", "gb2312", "下单时间");
- $header[] = iconv("utf-8", "gb2312", "完成时间");
- $header[] = iconv("utf-8", "gb2312", "实际支付金额");
- $header[] = iconv("utf-8", "gb2312", "佣金");
- $header[] = iconv("utf-8", "gb2312", "佣金补贴");
- $header[] = iconv("utf-8", "gb2312", "返利");
- $header[] = iconv("utf-8", "gb2312", "F币");
- $header[] = iconv("utf-8", "gb2312", "论坛积分");
- $header[] = iconv("utf-8", "gb2312", "备注");
- $header[] = iconv("utf-8", "gb2312", "强制入库");
- $header[] = iconv("utf-8", "gb2312", "唯一标识");
- $header[] = iconv("utf-8", "gb2312", "错误信息");
- $headerFile = implode(',', $header);
- //写入标题
- @unlink($filename);
- file_put_contents($filename, $headerFile."\n");
- //获取所有error_code
- $list = D('Fanli')->table('tb_account_action_data_error_code')->field('id,err_msg')->findAll();
- $error_msg = array();
- foreach ($list as $value) {
- $error_msg[$value['id']] = $value['err_msg'];
- }
- //导入错误的数据
- if (isset($_GET['error']) && $_GET['error'] > 0) {
- $map['error_code'] = array('gt', 0);
- }
- if (!empty($map['action_id'])) {
- $allCount = $model->where($map)->field('count(1) as count')->select();
- $pageLimit = ceil($allCount[0]['count']/self::PAGE_COUNT);
- $voList = array();
- //打开文件
- if (!$handle = fopen($filename, 'a')) {
- echo "不能打开文件 $filename";
- exit;
- }
- //分页获取
- for($i=0;$i<$pageLimit;$i++){
- $count = self::PAGE_COUNT;
- $start = $count * $i;
- $limit = "$start,$count";
- $voList = $model->where($map)->limit($limit)->order('id desc')->findAll();
- //写入文件
- $excelString = array();
- foreach ($voList as $v) {
- $dumpExcel = array();
- $dumpExcel[] = mb_convert_encoding($v['user_info'], 'GBK', 'UTF-8');
- $dumpExcel[] = mb_convert_encoding($v['shopid'], 'GBK', 'UTF-8');
- $dumpExcel[] = mb_convert_encoding($v['league'], 'GBK', 'UTF-8');
- $dumpExcel[] = mb_convert_encoding($v['order_id'], 'GBK', 'UTF-8');
- $dumpExcel[] = mb_convert_encoding($v['classify'], 'GBK', 'UTF-8');
- $dumpExcel[] = mb_convert_encoding($v['confirm_type'], 'GBK', 'UTF-8');
- $dumpExcel[] = "'".mb_convert_encoding($v['buydate'], 'GBK', 'UTF-8');
- $dumpExcel[] = "'".mb_convert_encoding($v['paydate'], 'GBK', 'UTF-8');
- $dumpExcel[] = mb_convert_encoding($v['real_pay'], 'GBK', 'UTF-8');
- $dumpExcel[] = mb_convert_encoding($v['commission'], 'GBK', 'UTF-8');
- $dumpExcel[] = mb_convert_encoding($v['commission_plus'], 'GBK', 'UTF-8');
- $dumpExcel[] = mb_convert_encoding($v['fanli'], 'GBK', 'UTF-8');
- $dumpExcel[] = mb_convert_encoding($v['jifen'], 'GBK', 'UTF-8');
- $dumpExcel[] = mb_convert_encoding($v['bbs'], 'GBK', 'UTF-8');
- $dumpExcel[] = mb_convert_encoding($v['remarks'], 'GBK', 'UTF-8');
- $dumpExcel[] = intval($v['persist_execute']);
- $dumpExcel[] = mb_convert_encoding($v['unique_sign'], 'GBK', 'UTF-8');
- $dumpExcel[] = mb_convert_encoding($error_msg[$v['error_code']], 'GBK', 'UTF-8');
- $excelString[] = implode(',',$dumpExcel);
- }
- //只能一行行些。不然容易漏
- foreach($excelString as $content){
- fwrite($handle, $content . "\n");
- }
- unset($excelString);
- }
- fclose($handle);
- }
- //导出下载
- header("Content-type: application/octet-stream");
- header('Content-Disposition: attachment; filename="' . basename($filename) . '"');
- header("Content-Length: ". filesize($filename));
- readfile($filename);
- }
用php导入10W条+ 级别的csv大文件数据到mysql。导出10W+级别数据到csv文件的更多相关文章
- 用python导入20个G的json数据到Mysql数据库
整体思路参考资料:https://blog.csdn.net/layman2016/article/details/79252499 作业:有一个16个G的跟疫情相关的json新闻大数据(articl ...
- .Net Core导入千万级数据至Mysql
最近在工作中,涉及到一个数据迁移功能,从一个txt文本文件导入到MySQL功能. 数据迁移,在互联网企业可以说经常碰到,而且涉及到千万级.亿级的数据量是很常见的.大数据量迁移,这里面就涉及到一个问题 ...
- PHP读取CSV大文件导入数据库的示例
对于数百万条数据量的CSV文件,文件大小可能达到数百M,如果简单读取的话很可能出现超时或者卡死的现象. 为了成功将CSV文件里的数据导入数据库,分批处理是非常必要的. 下面这个函数是读取CSV文件中指 ...
- mysql导出csv/sql/newTable/txt的方法,mysql的导入txt/sql方法...mysql备份恢复mysqlhotcopy、二进制日志binlog、直接备份文件、备份策略、灾难恢复.....................................................
mysql备份表结构和数据 方法一. Create table new_table_nam备份到新表:MYSQL不支持: Select * Into new_table_name from old_t ...
- 10w行级别数据的Excel导入优化记录
需求说明 项目中有一个 Excel 导入的需求:缴费记录导入 由实施 / 用户 将别的系统的数据填入我们系统中的 Excel 模板,应用将文件内容读取.校对.转换之后产生欠费数据.票据.票据详情并存储 ...
- mysql导出csv/excel文件的几种方法,mysql的load导入csv数据
方法一 php教程用mysql的命令和shell select * into outfile './bestlovesky.xls' from bestlovesky where 1 order by ...
- 利用mongoimport命令导入csv大文件
最近我同事做了一个PHP项目,其中有一个功能是 上传excel文件并将数据导入mongodb某个集合中. 通常的做法是 写一个上传文件的页面,然后后端 读取 这个文件,利用phpexcel类库将这个e ...
- 160802、1.06s删除10w条重复记录只保留一条(mysql)及linux删除乱码文件
上次发表过的一遍删除重复记录的文章,其中最优的方案三删除1w条也花了0.07秒而2w条就已经花掉了4秒.今天进行了进一步优化,测试删除10w条只花了1.06秒.速度提升了很多. 建表语句 CREATE ...
- LOAD DATA INFILE读取CSV中一千万条数据至mysql
作业要求 构建一个关系模式和课本中的关系movies(title,year,length,movietype,studioname,producerC)一样的关系,名称自定,在这个关系中插入1000万 ...
随机推荐
- SQL Server 2005/2008压缩数据库日志的方法
适用于SQL Server 2005的方法 Backup Log DNName WITH no_log GO DUMP TRANSACTION DNName WITH no_log GO USE DN ...
- USB驱动程序之USB设备驱动程序1简单编写
1.驱动编写分析 (1)usb总线驱动程序在我们接入USB设备的时候会帮我们构造一个新的usb_device.注册到总线里面来.左边这一块已经帮我们做好了,我们要做的是右边这一块.我们要构造一个usb ...
- cloudera manager卸载流程
注意:卸载Cloudera Manager后,根据需要保留或者删除集群中的Hadoop数据.下面的命令没有删除Hadoop数据,可以在控制台的Hadoop 和MapReduce /配置/选项卡,查看H ...
- JAVA for循环语句的循环变量类型问题
class HalfDollars { public static void main(String [] arguments) { int[] denver = {1_900_000,1_700_0 ...
- zabbix 报警方式之 邮件报警(4)
一.为什么要自定义邮件脚本报警? 灵活,方便.可以自定义过滤信息. 下面是使用不同方式的邮件报警,一个是利用sendEmail程序来发送报警邮件,第二个是利用python脚本来发送邮件. 二.send ...
- PHP代码覆盖率
一 安装php环境 二 统计php代码覆盖率 1 需要安装xdebug 安装步骤: http://www.jb51.net/article/116419.htm 测试环境 LNMP 军哥一键包1.3 ...
- 解决办法 Field userService in com.sxsj.controller.RegistLoginController required a bean of type
转自:https://blog.csdn.net/awmw74520/article/details/82687288 APPLICATION FAILED TO START Error starti ...
- Javascript 键盘事件
window.document.onkeydown = function (e) { var evt = window.event || e;//兼容性处理 var keycode = evt.key ...
- <转> win7下破解已安装的VS2008
http://renfan.blog.51cto.com/3466724/754301 在win7系统下,已安装的VS2008维护界面是不显示序列号输入的,需要按以下步骤进行才能破解 1.点击“卸载/ ...
- 数据库执行的时候报ORA-01653错误
查明原因是因为表空间文件到达了32G,因为oracle11g单个表空间大于32G的时候就不会自动在扩展了于是需要增加新的表空间文件,下面是4种解决此问题的方法 Meathod1:给表空间增加数据文件 ...