问题描述:
在本周的工作中,遇到一个问题,有一片板子Load current OS image failure。通过波形测试发现,是系统在读flash ONFI data(第80个byte)时发现有1bit error后,就停止了运行。
思考:
根据flash datasheet可知,flash芯片兼容ONFI 1.0标准;
而根据ONFI 1.0标准,在Read Parameter Page Defination 中,我们得知在ONFI Parameter data 不仅会存在前255bytes,还会在冗余区域(256-511 bytes,512-767 bytes)做两个数据备份;可分为:区域1(0-255bytes),区域2(256-511bytes),区域3(512-767bytes)。
若读到区域1与区域2数据有问题,系统需要再读取区域3数据进行再次确认才行,而非停止运行。
而出错板子在读取第80个byte出错后就停止了运行,很明显,其对于冗余区域(256-511 bytes,512-767 bytes)没有进行读取和判断。
于是,推断在BSP的这段读取ONFI数据的代码中应该有问题,它可能只对前255bytes进行了读取,而对冗余区域没有进行任何操作。
PS:ONFI 对于目标初始化的定义
目标初始化
ONFI_1.0 标准规定在发现flash器件连接的CE#之后,应该对每个目标做初始化,包括进行Read Parameter Page命令(0xec)。此命令返回容量、特性、参数等设备信息。
主机应该检查这些数据的CRC。如果第一个参数页的CRC不正确,则主机应该读取冗余参数页。
主机可以通过以下方式确定是否存在额外的冗余参数页(768+字节以上区域):检查前四个字节是否包含参数页签名的至少两个字节。
成功获取参数页之后,主机就可以和目标进行通信了。
关于ONFI 1.0标准,详见官网(http://www.onfi.org/)。
关于ONFI 1.0中一些重要知识点的中文翻译: http://blog.sina.com.cn/s/blog_7cedb56d0102vvrg.html
解决方案:
最终,在BSP定位到了ipq_nand_get_info_onfi()这段代码,在实际代码中其只对一个255bytes大小的结构进行了读取,而对冗余区域(256-511 bytes,512-767 bytes)没有任何读取判断的操作。并且也没有对前255bytes大小的数据进行CRC校验。
正是代码中的这段缺陷,导致当前255bytes出错后,程序无其他备份数据参考,就停止了运行。