成都十所面试经验

今天是自己的第一个face-in-face的面试,还是学习到了很多经验,虽然是挂了,但有所收获总是好的,现在就把自己的经验总结一下,反思一下自己的问题。

首先,对于面试心态而言,摆的不正确,我觉得好的心态是要调节到关注于面试问题本身,将紧张的感觉放松下来,关注到自己的技术问题,而绝不是浮躁,不安,以及略带一点看不起的心态。

其次,对于项目的准备而言,不充分,逻辑不条理,没有清晰的描述问题,缺乏套路,表述问题技巧有待加强,面试技巧基本为0000。。套路这东西,有时候确实是需要准备的,因为真刀真枪的上,命运只会垂青于有准备的人。套路描述如下,首先,先把问题的背景介绍清楚,解决什么问题,在我的问题描述中,我应该说明,我解决的问题背景是,社交网络中蕴含丰富的信息,我们利用这些丰富的信息可以用于突发事件的检测等,在我们这个问题背景下,就涉及到了什么是我们需要的社交文本的问题,在项目中,我们定义什么是价值信息,什么是无用信息;其次,我们需要把问题的目标解释清楚,我们的目标是做分类问题,而分类问题,在我们项目中,涉及到的是二分类以及多分类的问题;其次,如何解决问题的,对于上述的二个目标,我们进行了什么算法实现。对于二分类而言,我们是需要将社交短文本数据分类为价值信息和无用信息二大类,对于多分类的问题中,加入了主题识别,二者处理流程类似,实现细节有差别。为了更好的解决问题,需要考虑最重要的三个方面,数据预处理,特征构建,选择算法。对于数据预处理,因为问题的解决是英文,分词可能更加简单,就是根据空格划分,不像是中文的分词(特别需要的了解内容),其次是词性识别怎么做的,命名识别识别怎么做的,因为考虑到符号对我们的后续分析有用,我们没有对文本标点符号做处理;对于特征构建,我们从三个方面着手来考虑特征,第一个方面就是文本的结构特征,第二个方面就是句子的主干信息,第三个方面就是文本的语义角度来考虑。具体来说,结构特征就是我们第一眼能够看到的二者之间的不同,是一种外部特征,外部特征的构建是在8F方法,加入句法分析,以及特殊词,特殊表情等扩展得到,这种方法解决了传统词袋模型得稀疏性和维度灾难的问题,并且性能提升了18%左右,对于主干信息判断是一种基于规则的分类方法,就是判断句子主干;对于文本语义的识别,在这里采用的是word2vec方法,(这里可以深入),没有采用谷歌训练的模型,我们自己训练的word2vec;最后是选择算法,在我们所说的第一个方法中,因为特征的种类比较多,数据类型归一化困难,所以我们最终经过测试使用的是树形分类器(分类回归决策树为基本分类算法的随机森林算法,这种方法鲁棒性更强,不需要归一化操作,效果比较好,分类算法的F1值95%),在第二个特征中,我们采用的是基于规则的方法;第三个方法中,采用的是支持向量机,在很少的数据量的基础上,就可以得到很好的效果,最终的F1值92%左右。

第三个,项目还是要深挖,对于周边的技术也有掌握,需要掌握的技术有分词,命名实体识别,词性标注等技术,对于项目中涉及到的word2vec,各类算法的实现,也需要掌握精通。

第四个,对于知识的学习过程,应该是轻松以及快乐的,对于知识的掌握要宏观,不能支离破碎,要显得很厉害,也要真的厉害,在描述中,可以多加一些背景和理解,适当的时候需要扩展,这是需要不断的进行磨练的过程,从现在开始永远不晚。

努力奔跑,此处不留爷,自有留爷处,不卑不亢,不慌不忙,按部就班,顺理成章,水到渠成。

猜你喜欢

转载自blog.csdn.net/angela2016/article/details/80419420