选择题30道(60min)
散列表和散列函数、堆栈、数据流图、数据库、java、范式、TCP协议的差错检测、C++、文件属性、循环队列、需求的有效性验证、汇编语言(指令的寻址方式)、http报文的CRLF、B+树、聚合函数。等等。
零星印象记得一些:
编程题2道(70min)
1、
2、
问答题
辨析KNN和Kmeans,并说明K分别如何选取。
我的参考答案:
【KNN】在实际应用中,K值一般取一个比较小的数值,例如采用交叉验证法(简单来说,就是一部分样本做训练集,一部分做测试集)来选择最优的K值。
【Kmeans】聚类中心的个数K 需要事先给定,但在实际中这个 K 值的选定是非常难以估计的,很多时候,事先并不知道给定的数据集应该分成多少个类别才最合适;Kmeans需要人为地确定初始聚类中心,不同的初始聚类中心可能导致完全不同的聚类结果。(可以使用K-means++算法来解决)