文件
什么是文件?
磁盘上的文件是文件。
文件与之前所讲的函数、数组等有明显的区别,文件是保存在磁盘中的,后者是保存在内存中的。
但是在程序设计中,我们一般谈的文件有两种:程序文件、数据文件。
程序文件
包括:
- 源程序文件(后缀为
.c
) - 目标文件(
windows
环境后缀为.obj
) - 可执行程序(
windows
环境后缀为.exe
、Linux
中为ELF
文件)。
数据文件
文件的内容不一定是程序,而是程序运行时读写的数据,比如程序运行需要从中读取数据的文件,或者输出内容的文件。
【本篇博客主要是对这个数据文件进行讲解】
文件类型
根据数据的组织形式,数据文件被称为文本文件或二进制文件。
文本文件
如果要求在外存上以ASCII
码的形式存储,将内容看做一个字符串,则需要在存储前转换。以ASCII
字符的形式存储的文件就是文本文件。
二进制文件
数据在内存中以二进制
的形式存储,如果不加转换的输出到外存,就是二进制文件。
文件缓冲区
ANSIC
标准采用“缓冲文件系统”处理的数据文件的,所谓缓冲文件系统是指系统自动地在内存中为程序中每一个正在使用的文件开辟一块“文件缓冲区”。从内存向磁盘输出数据会先送到内存中的缓冲区,装满缓冲区后才一起送到磁盘上。如果从磁盘向计算机读入数据,则从磁盘文件中读取数据输入到内存缓冲区(充满缓冲区),然后再从缓冲区逐个地将数据送到程序数据区(程序变量等)。
缓冲区大小根据C
编译系统决定。
buf[1024]
,全拼为buffer
,意为缓冲区。
文件指针
缓冲文件系统中,关键的概念是“文件类型指针”,简称“文件指针”。
每个被使用的文件都在内存中开辟了一个相应的文件信息区,用来存放文件的相关信息(如文件的名字,文件状态及文件当前的位置等)。这些信息是保存在一个结构体变量中的。该结构体类型是有系统声明的,取名FILE
类型.
FILE
类型结构体的声明包含在<stdio.h>
头文件中,对于此类型要是深入了解也是非常复杂的,所以我们暂时掌握它的使用即可。
文件指针变量的定义
FILE* pf;
定义此pf
变量是一个指向 FILE 类型数据的指针变量,也可以称为句柄。
可以使pf
指向某个文件的文件信息区(是一个结构体变量)。通过该文件信息区中的信息就能够访问该文件。也就是说,通过文件指针变量能够找到与它关联的文件。
文件操作函数
对于文件的操作一般分为四大步:
- 打开文件
- 关闭文件
- 写文件
- 读文件
fopen
【文件打开函数】
FILE * fopen ( const char * filename, const char * mode );
filename
表示:文件名。mode
表示:打开方式。
打开方式:
文件使用方式 | 解释 | 含义 | 如果指定文件不存在 |
---|---|---|---|
“r” |
只读 | 为了输出数据,打开一个已经存在的文本文件 | 出错 |
“w” |
只写 | 为了输出数据,打开一个文本文件 | 建立一个新的文件 |
“a” |
追加 | 向文本文件尾添加数据 | 出错 |
“rb” |
只读 | 为了输入数据,打开一个二进制文件 | 出错 |
“wb” |
只写 | 为了输出数据,打开一个二进制文件 | 建立一个新的文件 |
“ab” |
追加 | 向一个二进制文件尾添加数据 | 出错 |
“r+” |
读写 | 为了读和写,打开一个文本文件 | 出错 |
“w+” |
读写 | 为了读和写,建议一个新的文件 | 建立一个新的文件 |
“a+” |
读写 | 打开一个文件,在文件尾进行读写 | 建立一个新的文件 |
“rb+” |
读写 | 为了读和写打开一个二进制文件 | 出错 |
“wb+” |
读写 | 为了读和写,新建一个新的二进制文件 | 建立一个新的文件 |
“ab+” |
读写 | 打开一个二进制文件,在文件尾进行读和写 | 建立一个新的文件 |
实例代码
#include <stdio.h>
int main() {
FILE *fp = fopen("test.txt", "r");
if (fp == NULL) {
return 1; //进程的退出码
}
return 0;
}
如果想要具体查看命中进程退出逻辑,即返回了退出码的错误原因,可以在程序首部包含头文件<string.h>
和<errno.h>
,然后再错误返回退出码之前执行打印错误原因的操作:
if (fp == NULL) {
printf("%s\n",strerror(errno));
return 1;
}
这样异常退出就会将错误码转换为字符串信息直接显示提示使用者到底是什么错误。但是还是感觉有些繁琐,所以还可以简写为perror("调用的函数")
,在此程序中就是perror("fopen")
,也会同样完成打印错误的提示性信息。
Linux
操作系统中此时就可以通过指令echo $?
查看上一个进程的退出码
- 注:程序代码一旦运行启动,就会默认打开三个文件:标准输出
stdout
,标准错误stderr
,标准输入stdin
。
fclose
【文件关闭函数】
int fclose ( FILE * stream );
打开了文件就要及时关闭,如果未及时关闭,就会造成句柄泄露 / 资源泄露 / 文件描述符泄露。可能就会导致后续文件就无法打开,所以一个进程能打开的文件数目是有上限的。
Linux
系统中可以通过ulimit -a
指令查看最多可打开文件数
- 查看系统默认最大文件打开输数
- 通过
-n
选项可以修改此数值
fread
size_t fread ( void * ptr, size_t size, size_t count, FILE * stream );
ptr
:此指针变量是用来存储从外存读入文件的内存空间的首地址size
:元素大小,单位为字节
。count
:元素个数,单位为个
。
所以读取字节大小就是size * count
个字节的内存内容- 返回值是
size_t
类型参数,返回的内容是成功写入的元素个数
【size_t is an unsigned integral type.】
实例代码
#include <stdio.h>
int main() {
char buf[1024] = { 0 }; //缓冲区
fread(buf,1,4,fp);
printf("%s\n",buf);
return 0;
}
- 注:
- Q:最后输出语句通过
%s
的格式打印字符数组能否正确打印?C string
结束符存在吗?会不会像在Windows
系统上缺少结束符看到的烫烫烫…?
A: 不会。因为在对buf
字符数组初始化时全部置为了字符0
,它与C风格字符串结束符\0
的ASCII
码值相同。所以可以看做初始化后字符数组中全部都是\0
,所以文件文本内容写入字符数组时,是可以通过%s
的方式正确打印的。 fread
有可能返回一个比count
参数小的值,因为实际可读元素可能比用户希望读取的个数要小。以下进行演示:
红框1为希望读取元素
等于
实际元素个数情况
红框1为希望读取元素大于
实际元素个数情况
语句分别为 size_t n = fread(buf,1,4
,fp); 与 size_t n = fread(buf,1,5
,fp);
从图中我们可以看到正确读取字符个数的情况正确打印了预期效果,而希望多读取一个字符的情况就发生了一些意外。与前者相比会多一个换行符
其实是vim
给我们编辑的文本文件尾部默认加上了一个换行符,这个换行符也占一个字节。如果进行追加操作,是会从下一行开始追加而不会在内容本行进行追加。
注:【通过vim编辑内容就会加上换行符,如果通过函数追加内容则不会增添换行符】
fwrite
size_t fwrite ( const void * ptr, size_t size, size_t count, FILE * stream );
fwrite
函数和fread
函数在实际使用中十分配套,也非常相似,返回的也是成功写入的元素个数,不过多赘述。
fread
函数与fwrite
函数一定要在fopen
与fclose
函数之间进行。
文件的顺序读写
除了上面四个常用函数,C语言还提供了一些不常用函数:
-
scanf/fscanf/sscanf
读取格式化数据 -
printf/fprintf/sprintf
写入格式化数据
- printf 向标准输出中写入格式化数据。
- fprintf 向文件中写入格式化数据。
- fprintf 向内存中写入格式化数据。
他们可以完成按照格式化读写文件的操作。
例如fprintf(fp,"val = %d\n",100);
语句,将内容按照格式化写入了文件。(fp是文件指针)
sprintf(arr,"val = %d\n",100);
语句,将内容按照格式化写入了内存。(arr是数组)
atoi/itoa
、atof/ftoa
a:ASCII
i:int
数字转换字符串、字符串转换为数字函数等
功能 | 函数名 | 适用于 |
---|---|---|
字符输入函数 | fgetc | 所有输入流 |
字符输出函数 | fputc | 所有输出流 |
文本行输入函数 | fgets | 所有输入流 |
文本行输出函数 | fputs | 所有输出流 |
格式化输入函数 | fscanf | 所有输入流 |
格式化输出函数 | fprintf | 所有输出流 |
二进制输入 | fread | 文件 |
二进制输出 | fwrite | 文件 |
文件的随机读写
文件的随机读写是比内存慢很多的
fseek
:根据文件指针的位置和偏移量来定义文件指针
实例
int main(){
FILE *fp = fopen("./test.txt","wb");
fputs("This is an apple.",fp);
fseek(fp,9,SEEK_SET);
fputs("sam",fp);
fclose(fp);
return 0;
}
执行效果:This is asampple.
文件指针偏移到了设置的参数位置并写入内容,最终完成修改。
fteel
:返回文件指向相对于起始位置的偏移量rewind
:让文件指针的位置回到文件的起始位置
文件结束判定
在文件读取过程中,是通过文件指针来读取文件,然而文件也有大小,总有读完的情况,我们这就来讨论一下文件结束的情况。
- 注:不能用
feof
函数的返回值直接用来判断文件的是否结束。而是应用于当文件读取结束的时候,判断是读取失败结束,还是遇到文件尾结束。
例如:
- 文本文件读取是否结束,判断返回值是否为
EOF
或者为NULL
。
(fgetc
判断是否为EOF
,fgets
判断返回值是否为NULL
)。 - 二进制文件的读取结束判断,判断返回值是否小于实际要读的个数。
(fread
判断返回值是否小于实际要读的个数)。
典例两则:
- 文本文件
int main(){
int c; // int,非char,用来处理 EOF
FILE* fp = fopen("test.txt", "r");
if(!fp) {
perror("File opening failed");
return EXIT_FAILURE;
}
while ((c = fgetc(fp)) != EOF){ // 标准C I/O读取文件循环
putchar(c);
}
//fgetc 当读取失败的时候或者遇到文件结束的时候,都会返回EOF
if (ferror(fp)){
puts("I/O error when reading");
}
else if (feof(fp)){
puts("End of file reached successfully");
}
fclose(fp);
}
- 二进制文件
enum {SIZE = 5};
int main(){
double a[SIZE] = {1.0,2.0,3.0,4.0,5.0);
double b[SIZE] = {0.0};
size_t ret_code = 0;
FILE *fp = fopen("test.txt","wb");
fwrite(a,sizeof(*a),SIZE,fp);
fclose(fp);
fp = fopen("test.txt","rb");
ret_code = fread(b,sizeof(*b),SIZE,fp);
if(ret_code == SIZE) {
puts("Array read successfully, contents: ");
for(int n = 0; n < SIZE; ++n){
printf("%f ", b[n]);
}
putchar('\n');
}
else { //错误处理
if (feof(fp)){
printf("Error reading test.bin: unexpected end of file\n");
}
else if (ferror(fp)) {
perror("Error reading test.bin");
}
}
fclose(fp);
}
- 小结:
文件的相关操作相对于C语言中其余抽象的概念还是很好理解的,我们尤其要掌握这些文件操作函数,以及细节的把控,比如EOF
的特殊处理与函数的参数类型等,多加实战,才能灵活运用。