达观杯NLP挑战赛 复盘

版权声明:本文为博主原创文章,转载请注明出处。 https://blog.csdn.net/feng_zhiyu/article/details/82919464

         前几天在训练营中一个优秀的同学讲述了他从2018.05月开始转战数据挖掘,然后到参加“达观杯”至今,不过4,5个月,在“达观杯”一赛中取得了前三十的成绩。当时感到他很厉害,因此这几天又去看了同学们的复盘,发现有很多可取之处。

个人小结

         这是第一次参加NLP文本处理比赛,也是第一次实际运用机器学习模型。虽然自己之前看过并且用过一些机器学习算法,但是都没有在比赛中运用。这里引用【优秀同学】的观点:【以赛代练】。 挺对的,平常自己在学习算法的时候都是先看大体思想,然后尝试公式推导,但是都没有运用在项目中。【重点:入门的时候不要过于深究,例如:这个公式怎么推导的,是不是要用微积分、凸优化、矩阵微分等等数学知识,担心数学知识不够,然后就去一步步补数学。  他提出来的是直接从项目入手,项目中用到什么,我们就去做什么。】 这个在我入学前老师就说过,以项目驱动的学习方式是比较好的方式。 因此,当是小白的时候【ML,NLP】,不要过多的纠结于 那些基础知识自己是不是都会了,要不要全部都会了,学扎实了再开始。

         虽然这个道理知道,但是我在学的时候,看《机器学习》,《统计学习方法》的时候难免还是觉得推导有些难度。  回到这次比赛,这次比赛,最近一次提交的成绩是0.75+,【机器学习】训练文本分类器(“达观杯”)。 第一份代码是入门的,使用了CountVectorier+LR,但是在自己电脑上跑了两三次,每次两三个小时都没能跑完,甚至机器崩了。  唉, 机器配置的重要性。 然后在群里看到改用tfidf+LR会快一些,果然,可以跑出结果,耗时1383s左右,准确率大概0.75+,也就是最高的这一次。 后来跟着训练营学习其他算法,SVM,DecisionTree,bayes,ensemble learning, 期间自己用LinearSVC跑过,但是几次都是0.05+,DecisionTree跑的很慢,没跑出来,naive_bayes是比较快的,大概几十分钟,最多也只能到0.56+,集成学习和模型融合自己还没有尝试。  想尝试,但是机器不允许【8G内存不够,CPU也不行】,要考虑用云服务器了。

       一个比赛下来,不能什么都没有,后面要将这些东西跑一跑(机器的硬伤)。 整理下流程和方法。

       一定仔细研究下方法和技巧。  这里附链数据挖掘入门项目:数据挖掘项目(一)Airbnb 新用户的民宿预定结果预测

猜你喜欢

转载自blog.csdn.net/feng_zhiyu/article/details/82919464