成都十所面试经验

今天是自己的第一个face-in-face的面试，还是学习到了很多经验，虽然是挂了，但有所收获总是好的，现在就把自己的经验总结一下，反思一下自己的问题。

首先，对于面试心态而言，摆的不正确，我觉得好的心态是要调节到关注于面试问题本身，将紧张的感觉放松下来，关注到自己的技术问题，而绝不是浮躁，不安，以及略带一点看不起的心态。

其次，对于项目的准备而言，不充分，逻辑不条理，没有清晰的描述问题，缺乏套路，表述问题技巧有待加强，面试技巧基本为0000。。套路这东西，有时候确实是需要准备的，因为真刀真枪的上，命运只会垂青于有准备的人。套路描述如下，首先，先把问题的背景介绍清楚，解决什么问题，在我的问题描述中，我应该说明，我解决的问题背景是，社交网络中蕴含丰富的信息，我们利用这些丰富的信息可以用于突发事件的检测等，在我们这个问题背景下，就涉及到了什么是我们需要的社交文本的问题，在项目中，我们定义什么是价值信息，什么是无用信息；其次，我们需要把问题的目标解释清楚，我们的目标是做分类问题，而分类问题，在我们项目中，涉及到的是二分类以及多分类的问题；其次，如何解决问题的，对于上述的二个目标，我们进行了什么算法实现。对于二分类而言，我们是需要将社交短文本数据分类为价值信息和无用信息二大类，对于多分类的问题中，加入了主题识别，二者处理流程类似，实现细节有差别。为了更好的解决问题，需要考虑最重要的三个方面，数据预处理，特征构建，选择算法。对于数据预处理，因为问题的解决是英文，分词可能更加简单，就是根据空格划分，不像是中文的分词（特别需要的了解内容），其次是词性识别怎么做的，命名识别识别怎么做的，因为考虑到符号对我们的后续分析有用，我们没有对文本标点符号做处理；对于特征构建，我们从三个方面着手来考虑特征，第一个方面就是文本的结构特征，第二个方面就是句子的主干信息，第三个方面就是文本的语义角度来考虑。具体来说，结构特征就是我们第一眼能够看到的二者之间的不同，是一种外部特征，外部特征的构建是在8F方法，加入句法分析，以及特殊词，特殊表情等扩展得到，这种方法解决了传统词袋模型得稀疏性和维度灾难的问题，并且性能提升了18%左右，对于主干信息判断是一种基于规则的分类方法，就是判断句子主干；对于文本语义的识别，在这里采用的是word2vec方法，（这里可以深入），没有采用谷歌训练的模型，我们自己训练的word2vec；最后是选择算法，在我们所说的第一个方法中，因为特征的种类比较多，数据类型归一化困难，所以我们最终经过测试使用的是树形分类器（分类回归决策树为基本分类算法的随机森林算法，这种方法鲁棒性更强，不需要归一化操作，效果比较好，分类算法的F1值95%），在第二个特征中，我们采用的是基于规则的方法；第三个方法中，采用的是支持向量机，在很少的数据量的基础上，就可以得到很好的效果，最终的F1值92%左右。

第三个，项目还是要深挖，对于周边的技术也有掌握，需要掌握的技术有分词，命名实体识别，词性标注等技术，对于项目中涉及到的word2vec，各类算法的实现，也需要掌握精通。

第四个，对于知识的学习过程，应该是轻松以及快乐的，对于知识的掌握要宏观，不能支离破碎，要显得很厉害，也要真的厉害，在描述中，可以多加一些背景和理解，适当的时候需要扩展，这是需要不断的进行磨练的过程，从现在开始永远不晚。

努力奔跑，此处不留爷，自有留爷处，不卑不亢，不慌不忙，按部就班，顺理成章，水到渠成。

成都十所面试经验

猜你喜欢