错误如下:
Internal: failed initializing StreamExecutor for CUDA device ordinal 0: Internal: failed call to cuDevicePrimaryCtxRetain: CUDA_ERROR_OUT_OF_MEMORY; total memory reported: 17066885120
错误截图如下:
碰到这问题,很大可能会去更改如下参数,
per_process_gpu_memory_fraction=gpu_fraction # gpu_fraction=0.3
config.gpu_options.allow_growth = True
但是,不管怎么更改还是出现这样的错。原因在于GPU被占用了,输入nvidia-smi,如下(红色方框所示):
一般出现这样的问题都是程序非正常停止,比如自己手动停止。这个时候需要kill进程。比如我这,可以输入如下命令(注意-9是参数,7798是进程ID):
kill -9 7798
kill所有占用GPU的程序后启动,一般就没问题了!