前几天在训练营中一个优秀的同学讲述了他从2018.05月开始转战数据挖掘，然后到参加“达观杯”至今，不过4，5个月，在“达观杯”一赛中取得了前三十的成绩。当时感到他很厉害，因此这几天又去看了同学们的复盘，发现有很多可取之处。

个人小结

这是第一次参加NLP文本处理比赛，也是第一次实际运用机器学习模型。虽然自己之前看过并且用过一些机器学习算法，但是都没有在比赛中运用。这里引用【优秀同学】的观点：【以赛代练】。挺对的，平常自己在学习算法的时候都是先看大体思想，然后尝试公式推导，但是都没有运用在项目中。【重点：入门的时候不要过于深究，例如：这个公式怎么推导的，是不是要用微积分、凸优化、矩阵微分等等数学知识，担心数学知识不够，然后就去一步步补数学。他提出来的是直接从项目入手，项目中用到什么，我们就去做什么。】这个在我入学前老师就说过，以项目驱动的学习方式是比较好的方式。因此，当是小白的时候【ML,NLP】，不要过多的纠结于那些基础知识自己是不是都会了，要不要全部都会了，学扎实了再开始。

虽然这个道理知道，但是我在学的时候，看《机器学习》，《统计学习方法》的时候难免还是觉得推导有些难度。回到这次比赛，这次比赛，最近一次提交的成绩是0.75+，【机器学习】训练文本分类器（“达观杯”）。第一份代码是入门的，使用了CountVectorier+LR，但是在自己电脑上跑了两三次，每次两三个小时都没能跑完，甚至机器崩了。唉，机器配置的重要性。然后在群里看到改用tfidf+LR会快一些，果然，可以跑出结果，耗时1383s左右，准确率大概0.75+，也就是最高的这一次。后来跟着训练营学习其他算法，SVM，DecisionTree，bayes，ensemble learning，期间自己用LinearSVC跑过，但是几次都是0.05+，DecisionTree跑的很慢，没跑出来，naive_bayes是比较快的，大概几十分钟，最多也只能到0.56+，集成学习和模型融合自己还没有尝试。想尝试，但是机器不允许【8G内存不够，CPU也不行】，要考虑用云服务器了。

一个比赛下来，不能什么都没有，后面要将这些东西跑一跑（机器的硬伤）。整理下流程和方法。

一定仔细研究下方法和技巧。这里附链数据挖掘入门项目：数据挖掘项目（一）Airbnb 新用户的民宿预定结果预测

达观杯NLP挑战赛复盘

个人小结

猜你喜欢

达观杯NLP挑战赛 复盘

个人小结

猜你喜欢

达观杯NLP挑战赛复盘