63.当当网txt数据按行切割与合并
- 获取文件有多少行
//获取文件有多少行
int getN(char *path)
{
FILE *pf = fopen(path, "r");
if (pf==NULL)
{
return -;
}
else
{
int i = ;
while (!feof(pf))
{
char str[] = { };
fgets(str, , pf);
i++;
}
fclose(pf);
return i;
}
} - 宏定义行数
//数据的行数
#define N 13180820 - 文件按行切割
//文件切割
void space(char *path, int num)
{
char ** pathes = malloc(sizeof(char*)*num);
for (int i = ; i < num;i++)
{
pathes[i] = malloc(sizeof(char) * );
//格式化处理文件名
sprintf(pathes[i], "dangdangwang%d.txt", i + );
} //打开文件
FILE *pf = fopen(path, "r"); if (pf == NULL)
{
return -;
}
else
{
//如果能被整除
if (N%num == )
{
for (int i = ; i < num;i++)
{
//写入文件
FILE *pfw = fopen(pathes[i], "w");
for (int j = ; j < N / num; j++)
{
char str[] = { };
//读取一行写入一行
fgets(str, , pf);
fputs(str, pfw);
}
fclose(pfw);
}
}
else
{
for (int i = ; i < num - ; i++)
{
//写入文件
FILE *pfw = fopen(pathes[i], "w");
//处理前面n-1个
for (int j = ; j < N / (num-); j++)
{
char str[] = { };
//读取一行写入一行
fgets(str, , pf);
fputs(str, pfw);
}
fclose(pfw); } {
//处理剩下的
//写入
FILE *pfw = fopen(pathes[num-], "w");
for (int j = ; j < N %(num-); j++)
{
char str[] = { };
//读取一行写入一行
fgets(str, , pf);
fputs(str, pfw);
}
fclose(pfw);
}
}
fclose(pf);
}
} - 文件合并
//合并文件
void merge(char *newpath,int n)
{
char ** pathes = malloc(sizeof(char*)*n);
for (int i = ; i < n; i++)
{
pathes[i] = malloc(sizeof(char) * );
sprintf(pathes[i], "dangdangwang%d.txt", i + );
} //写入文件
FILE *pf = fopen(newpath, "w");
if (pf == NULL)
{
return -;
}
else
{
//依次读取每个文件
for (int i = ; i < n;i++)
{
FILE *pfr = fopen(pathes[i], "r"); while (!feof(pfr))
{
char str[] = { };
//读取一行写入一行
fgets(str, , pfr);
fputs(str, pf);
}
fclose(pfr);
}
fclose(pf);
}
} - 测试函数
void main()
{
//int num = getN(path);
//printf("%d", num);获取行数
int num;
scanf("%d", &num); //分割
space(path, num);
//合并
merge(newpath, num); system("pause");
}
完整代码:
#define _CRT_SECURE_NO_WARNINGS
#include <stdio.h>
#include <stdlib.h>
char *path = "dangdangwang.txt";
char *newpath = "dangdangwangN.txt"; //数据的行数
#define N 13180820 //获取文件有多少行
int getN(char *path)
{
FILE *pf = fopen(path, "r");
if (pf==NULL)
{
return -;
}
else
{
int i = ;
while (!feof(pf))
{
char str[] = { };
fgets(str, , pf);
i++;
}
fclose(pf);
return i;
}
} //文件切割
void space(char *path, int num)
{
char ** pathes = malloc(sizeof(char*)*num);
for (int i = ; i < num;i++)
{
pathes[i] = malloc(sizeof(char) * );
//格式化处理文件名
sprintf(pathes[i], "dangdangwang%d.txt", i + );
} //打开文件
FILE *pf = fopen(path, "r"); if (pf == NULL)
{
return -;
}
else
{
//如果能被整除
if (N%num == )
{
for (int i = ; i < num;i++)
{
//写入文件
FILE *pfw = fopen(pathes[i], "w");
for (int j = ; j < N / num; j++)
{
char str[] = { };
//读取一行写入一行
fgets(str, , pf);
fputs(str, pfw);
}
fclose(pfw);
}
}
else
{
for (int i = ; i < num - ; i++)
{
//写入文件
FILE *pfw = fopen(pathes[i], "w");
//处理前面n-1个
for (int j = ; j < N / (num-); j++)
{
char str[] = { };
//读取一行写入一行
fgets(str, , pf);
fputs(str, pfw);
}
fclose(pfw); } {
//处理剩下的
//写入
FILE *pfw = fopen(pathes[num-], "w");
for (int j = ; j < N %(num-); j++)
{
char str[] = { };
//读取一行写入一行
fgets(str, , pf);
fputs(str, pfw);
}
fclose(pfw);
}
}
fclose(pf);
}
} //合并文件
void merge(char *newpath,int n)
{
char ** pathes = malloc(sizeof(char*)*n);
for (int i = ; i < n; i++)
{
pathes[i] = malloc(sizeof(char) * );
sprintf(pathes[i], "dangdangwang%d.txt", i + );
} //写入文件
FILE *pf = fopen(newpath, "w");
if (pf == NULL)
{
return -;
}
else
{
//依次读取每个文件
for (int i = ; i < n;i++)
{
FILE *pfr = fopen(pathes[i], "r"); while (!feof(pfr))
{
char str[] = { };
//读取一行写入一行
fgets(str, , pfr);
fputs(str, pf);
}
fclose(pfr);
}
fclose(pf);
}
} void main()
{
//int num = getN(path);
//printf("%d", num);获取行数
int num;
scanf("%d", &num); //分割
space(path, num);
//合并
merge(newpath, num); system("pause");
}
63.当当网txt数据按行切割与合并的更多相关文章
- Python爬虫库Scrapy入门1--爬取当当网商品数据
1.关于scrapy库的介绍,可以查看其官方文档:http://scrapy-chs.readthedocs.io/zh_CN/latest/ 2.安装:pip install scrapy 注意这 ...
- scrapy获取当当网中数据
yield 1. 带有 yield 的函数不再是一个普通函数,而是一个生成器generator,可用于迭代 2. yield 是一个类似 return 的关键字,迭代一次遇到yield时就返回yiel ...
- java爬虫,爬取当当网数据
背景:女票快毕业了(没错!我是有女票的!!!),写论文,主题是儿童性教育,查看儿童性教育绘本数据死活找不到,没办法,就去当当网查询下数据,但是数据怎么弄下来呢,首先想到用Python,但是不会!!百 ...
- 【转】java爬虫,爬取当当网数据
背景:女票快毕业了(没错!我是有女票的!!!),写论文,主题是儿童性教育,查看儿童性教育绘本数据死活找不到,没办法,就去当当网查询下数据,但是数据怎么弄下来呢,首先想到用Python,但是不会!!百 ...
- scrapy项目3:爬取当当网中机器学习的数据及价格(spider类)
1.网页解析 当当网中,人工智能数据的首页url如下为http://category.dangdang.com/cp01.54.12.00.00.00.html 点击下方的链接,一次观察各个页面的ur ...
- 网络爬虫之定向爬虫:爬取当当网2015年图书销售排行榜信息(Crawler)
做了个爬虫,爬取当当网--2015年图书销售排行榜 TOP500 爬取的基本思想是:通过浏览网页,列出你所想要获取的信息,然后通过浏览网页的源码和检查(这里用的是chrome)来获相关信息的节点,最后 ...
- 转 当当网资深DBA:DB运维四大现代化的实现
位好,今天我的主题是 <DB运维的四个现代化> ,看标题就能明白,是关于DBA自动化运维平台的事情.http://dbaplus.cn/news-21-855-1.html 主要是分享下我 ...
- python爬虫06 | 你的第一个爬虫,爬取当当网 Top 500 本五星好评书籍
来啦,老弟 我们已经知道怎么使用 Requests 进行各种请求骚操作 也知道了对服务器返回的数据如何使用 正则表达式 来过滤我们想要的内容 ... 那么接下来 我们就使用 requests 和 re ...
- Python 东方财富网-股市行情数据抓取
东方财富网 股市行情数据抓取: http://quote.eastmoney.com/center/gridlist.html#hs_a_board 请求数据未入库处理,其中数据只存入数据文本,未做存 ...
随机推荐
- Android导入工程提示Invalid project description
在eclipse里导入的时候报错,提示 Invalid project description. 解决的方法: 在eclipse的workspace中,找到.metadata目录,依次打开------ ...
- hdoj2066一个人的旅行
Time Limit: 1000/1000 MS (Java/Others) Memory Limit: 32768/32768 K (Java/Others) Total Submission ...
- linux大于2T的磁盘使用GPT分区的方法分享
(parted)表示在parted中输入的命令,其他为自动打印的信息 1.首先类似fdisk一样,先选择要分区的硬盘,此处为/dev/sdb ey: parted /dev/sdb 2.选择了/dev ...
- java静态类、静态方法、静态代码块,静态变量及实例方法,实例变量初始化顺序及内存管理,机制
1.当一个类被第一次使用时,它需要被类加载器加载,而加载过程涉及以下两点: (1)在加载一个类时,如果它的父类还未被加载,那么其父类必须先被加载: (2)当类加载到内存之后,按照在代码中的出现顺序执行 ...
- Windows Server8下补丁分发配置与iSCSI配置
1.Win Server 8 下配置补丁分发(高清视频下载:http://down.51cto.com/data/424305)本视频适合于Windows Server系统管理员学习 650) thi ...
- “==”和Equals区别
相信很多朋友在面对,对象判等时经常会犹豫是用“==”还是Equals呢?有时候发现两者得到的结果相同,但有时候有不同, 究竟在什么情况下"==" 会相等,什么情况下Equals会不 ...
- C#解决System.Security.Cryptography.MD5.Create()调用的目标发生了异常)的问题
今天搭建微信扫码支付环境的时候,一样的配置参数,调用连接提示错误 错误:调用的目标发生了异常 然后跟踪到执行 MD5 md5 = System.Security.Cryptography.MD5.Cr ...
- Linux中为XEN网桥绑定物理网卡
XEN虚拟机会默认将可以连通外网的网卡绑定到xenbr0上, 因此如果需要切换到其他物理网卡上时,需要自己配置脚本或执行命令. 1.添加脚本绑定 a.编写一个脚本,指定网卡与网桥绑定的关系 # vim ...
- int long long 的取值范围
unsigned int 0-4294967295 //整型的每一种都有无符号(unsigned)和有符号(signed)两种类型(float和double总是带符号的),在默认情况下声明 ...
- Markdown---语法小记
在CSDN上的文章如今都习惯使用Markdown来编写比較方便美观.这里小结下常见的Markdown语法下: 1.标题: 方式1 # H1 ## H2 ### H3 #### H4 ##### H5 ...