coredump的介绍及产生的几种可能情况

什么是coredump

我们经常听到大家说到程序core掉了,需要定位解决,这里说的大部分是指对应程序由于各种异常或者bug导致在运行过程中异常退出或者中止,并且在满足一定条件下会产生一个叫做core的文件。

通常情况下,core文件会包含了程序运行时的内存,寄存器状态,堆栈指针,内存管理信息还有各种函数调用堆栈信息等,我们可以理解为是程序工作当前状态存储生成的一个文件,许多的程序出错的时候都会产生一个core文件,通过工具分析这个文件,我们可以定位到程序异常退出的时候对应的堆栈调用等信息,找出问题所在并进行及时解决。

开启或关闭core文件的生成

查看core文件的大小:

:ulimit -c
0

0表示当前限制的core文件的blocks为0,就是不允许产生core文件的意思。

修改core文件大小为:

ulimit -c 1024 
ulimit -c unlimited

1024个blocks,一般1block=512bytes。

unlimited是不限制的意思。

检查core文件的选项是否打开:

:ulimit -a | grep core
core file size          (blocks, -c) 1024
永久生效

修改以下两个文件任意一个即可:

  • /etc/profile
  • /etc/security/limits.conf
core文件的命名

缺省情况下,内核在coredump时所产生的core文件放在与该程序相同的目录中,并且文件名固定为core。很显然,如果有多个程序产生core文件,或者同一个程序多次崩溃,就会重复覆盖同一个core文件,因此我们有必要对不同程序生成的core文件进行分别命名。

  1. /proc/sys/kernel/core_uses_pid可以控制core文件的文件名中是否添加pid作为扩展。文件内容为1,表示添加pid作为扩展名,生成的core文件格式为core.xxxx;为0则表示生成的core文件同一命名为core。可通过以下命令修改此文件:

    echo "1" > /proc/sys/kernel/core_uses_pid
    

    如果报错:/proc/sys/kernel/core_uses_pid: Permission denied,可以参考:

  2. proc/sys/kernel/core_pattern可以控制core文件保存位置和文件名格式,可通过以下命令修改此文件,将core文件统一生成到/corefile目录下,产生的文件名为core-命令名-pid-时间戳:

    echo "/corefile/core-%e-%p-%t" > core_pattern
    

    以下是参数列表:

     %% - 单个%字符
     %p - 添加pid
     %u - 添加当前uid
     %g - 添加当前gid
     %s - 添加导致产生core的信号
     %t - 添加core文件生成时的unix时间
     %h - 添加主机名
     %e - 添加程序文件名 
    
造成程序core的原因
  • 内存访问越界

    • 由于使用错误的下标,导致数组访问越界,C/C++并不检查越界,越界可能遇到未知错误。
    • 搜索字符串时,依靠字符串结束符来判断字符串是否结束,但是字符串没有正常的使用结束符。越界了。
    • 使用strcpy, strcat, sprintf, strcmp,strcasecmp等字符串操作函数,将目标字符串读/写爆。应该使用strncpy, strlcpy, strncat, strlcat, snprintf, strncmp, strncasecmp等函数防止读写越界。
  • 多线程程序使用了线程不安全的函数

    • asctime_r(3c) 、gethostbyname_r(3n) 、getservbyname_r(3n)、ctermid_r(3s) 、gethostent_r(3n) 、getservbyport_r(3n)、 ctime_r(3c) 、getlogin_r(3c)、getservent_r(3n) 、fgetgrent_r(3c) 、getnetbyaddr_r(3n) 、getspent_r、(3c)fgetpwent_r、(3c) getnetbyname_r(3n)、 getspnam_r(3c)、 fgetspent_r(3c)、getnetent_r(3n) 、gmtime_r(3c)、 gamma_r(3m) 、getnetgrent_r(3n) 、lgamma_r(3m) 、getauclassent_r(3)、getprotobyname_r(3n) 、localtime_r(3c) 、getauclassnam_r(3) 、etprotobynumber_r(3n)、nis_sperror_r(3n) 、getauevent_r(3) 、getprotoent_r(3n) 、rand_r(3c) 、getauevnam_r(3)、getpwent_r(3c) 、readdir_r(3c) 、getauevnum_r(3) 、getpwnam_r(3c) 、strtok_r(3c)、 getgrent_r(3c)、getpwuid_r(3c) 、tmpnam_r(3s) 、getgrgid_r(3c) 、getrpcbyname_r(3n)、 ttyname_r(3c)、getgrnam_r(3c) 、getrpcbynumber_r(3n) 、gethostbyaddr_r(3n) 、getrpcent_r(3n)
  • 多线程读写的数据未加锁保护

    对于会被多个线程同时访问的全局数据,应该注意加锁保护,否则很容易造成coredump。

  • 非法指针

    • 使用空指针
    • 随意使用指针转换。一个指向一段内存的指针,除非确定这段内存原先就分配为某种结构或类型,或者这种结构或类型的数组,否则不要将它转换为这种结构或类型的指针,而应该将这段内存拷贝到一个这种结构或类型中,再访问这个结构或类型。这是因为如果这段内存的开始地址不是按照这种结构或类型对齐的,那么访问它时就很容易因为bus error而core dump。
  • 堆栈溢出

    • 不要使用大的局部变量(因为局部变量都分配在栈上),这样容易造成堆栈溢出,破坏系统的栈和堆结构,导致出现莫名其妙的错误。
发布了109 篇原创文章 · 获赞 5 · 访问量 1万+

猜你喜欢

转载自blog.csdn.net/LU_ZHAO/article/details/104768737