示例：手写识别系统

构造使用k-近邻分类器的手写识别系统。
收集数据和准备数据，把
‘trainingDigits’和’testDigits’拷到文件夹下
编写函数将图像格式化处理为一个向量

def img2vector(filename):
    returnVect = zeros((1,1024))
    fr = open(filename)
    for i in range(32):
        lineStr = fr.readline()
        for j in range(32):
            returnVect[0,32*i+j] = int(lineStr[j])
    return returnVect

手写数字识别系统
from os import listdir #放入代码起始部分，很重要，为了使用listdir函数，列出给定目录的文件名

def handwritingClassTest():
    hwLabels = []
    trainingFileList = listdir('trainingDigits')
    m = len(trainingFileList)
    trainingMat = zeros((m,1024))
    for i in range(m):
        fileNameStr = trainingFileList[i]
        fileStr = fileNameStr.split('.')[0]
        classNumStr = int(fileStr.split('_')[0])
        hwLabels.append(classNumStr)
        trainingMat[i,:] = img2vector('trainingDigits/%s'%fileNameStr)
    testFileList = listdir('testDigits')
    errorCount = 0.0
    mTest = len(testFileList)
    for i in range(mTest):
        fileNameStr = testFileList[i]
        fileStr = fileNameStr.split('.')[0]
        classNumStr = int(fileStr.split('_')[0])
        vectorUnderTest = img2vector('testDigits/%s'%fileNameStr)
        classifierResult = classify0(vectorUnderTest,trainingMat,hwLabels,3)
        print ("the classifier came back with； %d，the real answer is: %d"\
               % (classifierResult,classNumStr))
        if(classifierResult != classNumStr): errorCount += 1.0
    print("\nthe total number of errors is； %d" % errorCount)
    print("\nthe total error rate is: %f" % (errorCount/float(mTest)))

数据集分为测试和训练部分，在测试时，需要为每个测试向量进行2000次距离计算，每个距离计算包括了1024个维度浮点运算，有900个测试，意味着执行900次，空间和时间开销都很大，k决策树是k-近邻算法的优化版

示例：手写识别系统

猜你喜欢