推免面试简历提问

SCI

发现的问题：

现有的HAR方案的主要问题之一是分类精度较低，并且为了提高精度，需要较高的计算开销。

解决方法：

使用一种探索性数据分析方法来处理HAR，在执行不同的数据挖掘技术后，得到了降维并可视化的数据结果(二维数据表格)。

Q: 你根据什么来分类？

数据集中包含6中状态，分别为站、坐、躺、行走、上楼、下楼，我把这六种状态分为了静态和动态两大类，分别用0和1表示。

摘要

在智慧城市环境中，提供有关人类活动的准确信息是一项重要任务。在智能手机上 实现人体活动识别 (HAR) 算法和应用是一种趋势，包括健康监测、自我管理系统和健 康跟踪等。然而，人类活动识别 (HAR) 是非常复杂的，使用最佳技术并从机器学习中了 解人类活动非常重要。现有的 HAR 方案的主要问题之一是分类精度相对较低，并且为 了提高精度，需要较高的计算开销。本文的目的是使用一种探索性数据分析方法来处理 HAR, 在执行不同的数据挖掘技术之后，得到了降维并可视化后的数据结果。本文提出 的基于智能手机和 EDA 的 HAR 方法是一种高精度的方法。与其余分类器相比，其准确 性达到 96.56%。本文将讨论计算预测活动，以及在 564 个特征的数据帧上使用探索性 数据分析 (EDA) 所面临的计算限制。实验结果表明，基于 HAR 的探索性数据分析是一 种通用的传感器信号处理方法提出的 GridSearchCV and Linear SVC 算法可以为需要持 续护理的老年和残障患者提供准确的自动人类活动识别（HAR），并且它是支持体育教 练员制定计划的决策工具。

大创

创新点：

把随机森林模型用遗传算法成功的做了优化，建立了GA-RF模型，并应用在了UCI数据库中的超导体数据集里面，在此份数据集中，得到 10 折交叉验证的均方根为 ± 8.85K 。

10折交叉验证

用来测试算法的准确性。作用是将数据分成十份，轮流将其中9份作为训练数据，1份作为测试数据，进行试验。

难点

关于模型评估：一次抽样评估是不够的，模型需要通过重复K折交叉验证进行评估。

ML 模型的超参数选择。超参数的正确选择将影响 ML 模型的准确性，尤其是遗传算法。为确保公平合理的比较，首先需要讨论为每个模型正确选择 hypermeter，尤其是初始种群、突变率、交叉率。

美赛

工作

在美赛中我担任队长，在赛题发下来之前就准备了一下论文的latex模板，赛题发下来之后根据队员的建议，我们选择了D题(运筹学/网络科学问题)、网络流(尤其是最小费用最大流)、排队论、决策树等理论)，选好题目后，因为问题较多，我把题目归纳为了三个大问题，进行了分工，其中我负责最难的那一问的模型搭建和求解，算法用到了并查集、链式向前星、UMAP数据降维(在降维之前，我发现D题的数据符合黎曼流形)。论文部分我这里负责汇总和排版，软件用的是latex。最后美赛4天，我们一共用了两天半就解决了所有的问题，并提交了最终的电子文稿。

黎曼流形

定义：黎曼流形（Riemannian manifold）是一个微分流形，其中每点p的切空间都定义了点积，而且其数值随p平滑地改变。它容许我们定义弧线长度、角度、面积、体积、曲率、函数梯度及向量域的散度。

流形

流形是局部具有欧几里得空间性质的空间，在数学中用于描述几何形体。物理上，经典力学的相空间和构造广义相对论的时空模型的四维伪黎曼流形都是流形的实例。

为什么降维？

564个

降维的过程、目的，降到了几个维度?

2个维度，因为官网文档为2，n_components=2

数据维度过大会提高模型的复杂度，特别是对于一些样本数据不足的情况，最终训练的模型泛化性会很差
去除数据属性之间的共线性，可以优化模型，降低模型复杂度
降低模型训练时间
提高模型的鲁棒性和泛化性

t-SNE和UMAP的区别

高维数据和低维数据转换距离分布时，UMAP没有进行标准化(省时)
计算\sigma时，UMAP用邻近个数代替t-SNE的perplexity(省时)
UMAP不直接用t分布拟合低维数据，添加了参数动态调整，但是接近t分布
UMAP的损失函数用Cross-Entropy(CE)代替t-SNE的LL散度(全局)
UMAP用随机梯度下降(SGD)代替t-SNE的梯度下降法(GD). （省时省内存）

t-SNE

————>耗时耗力

t-Distributed Stochastic Neighbor Embedding (t-SNE)是一种降维技术，用于在二维或三维的低维空间中表示高维数据集，从而使其可视化。与其他降维算法(如PCA)相比，t-SNE创建了一个缩小的特征空间，相似的样本由附近的点建模，不相似的样本由高概率的远点建模。

在高水平上，t-SNE为高维样本构建了一个概率分布，相似的样本被选中的可能性很高，而不同的点被选中的可能性极小。然后，t-SNE为低维嵌入中的点定义了相似的分布。最后，t-SNE最小化了两个分布之间关于嵌入点位置的Kullback-Leibler（KL)散度。

t-SNE是一种集降维与可视化于一体的技术，它是基于SNE可视化的改进，解决了SNE在可视化后样本分布拥挤、边界不明显的特点，是目前较好的降维可视化手段。

UMAP

(Uniform Manifold Approximation and Projection)
ideas来自于拓扑数据分析

————>速度高，全局结构更好保存；缺点：UMAP无法将两个嵌套的簇分开

UMAP模型假设：

数据均匀分布在黎曼流形上（Riemannian manifold）；
黎曼度量是局部恒定的（或可以这样近似）；
流形是局部连接的。

你的EDA方法？

数据清洗
sns.countplot——>(x=“subject”, hue=‘ActivityName’)
sns.FacetGrid()
sns.distplot
sns.boxplot
t-SNE

概率问题

条件概率公式

$\mid B)=\frac{P(A B)}{P(B)}$

贝叶斯概率公式
$\mathrm{P}\left(A_{i} \mid B\right)=\frac{\mathrm{P}\left(A_{i}\right) \mathrm{P}\left(B \mid A_{i}\right)}{\sum_{j=1}^{n} \mathrm{P}\left(A_{j}\right) \mathrm{P}\left(B \mid A_{j}\right)}$

核心思想是当你不能准确知悉一个事物的本质时，你可以依靠与事物特定本质相关的事件出现的多少去判断其本质属性的概率。

如果你看到一个人总是做一些好事，则那个人多半会是一个好人。用数学语言表达就是：支持某项属性的事件发生得愈多，则该属性成立的可能性就愈大。

参考:https://zhuanlan.zhihu.com/p/210760554