达观杯_比赛简介 - 代码天地

达观杯_比赛简介

其他 2018-09-24 05:17:26 阅读次数: 0

比赛内容

此次比赛，达观数据提供了一批长文本数据和分类信息，希望选手动用自己的智慧，结合当下最先进的NLP和人工智能技术，深入分析文本内在结构和语义信息，构建文本分类模型，实现精准分类。

评分规则

评分算法
binary-classification
评分标准
采用各个品类F1指标的算术平均值，它是Precision 和 Recall 的调和平均数。

其中，Pi是表示第i个种类对应的Precision， Ri是表示第i个种类对应Recall。

数据

数据内容

数据包括train_set和test_set两份csv文件

train_set.csv

此数据集用于训练模型，每一行对应一篇文章。文章分别在“字”和“词”的级别上做了脱敏处理。共有四列：

第一列是文章的索引(id)
第二列是文章正文在“字”级别上的表示，即字符相隔正文(article)
第三列是在“词”级别上的表示，即词语相隔正文(word_seg)
第四列是这篇文章的标注(class)。
注：每一个数字对应一个“字”，或“词”，或“标点符号”。“字”的编号与“词”的编号是独立的！

test_set.csv

此数据用于测试。数据格式同train_set.csv，但不包含class。
注：test_set与train_test中文章id的编号是独立的。

数据大小

原始数据
训练集：(102277, 4)
测试集：(102277, 3)
TfidfVectorizer处理后对article和word进行拼接
训练集：(102277, 12503911)
测试集：(102277, 12503911)

数据下载地址

猜你喜欢

转载自blog.csdn.net/Datawhale/article/details/82634235

达观杯_比赛简介

达观杯比赛总结

达观杯比赛复盘专题

达观杯文本分类比赛

达观杯文本分类比赛 | (1) 比赛介绍

达观杯文本处理比赛（二）

达观杯文本处理比赛(一)

达观杯文本处理比赛深度学习实践

2018.08.17达观杯比赛历程（一）LR_V0

达观杯文本分类比赛 | (2) 单模型融合(机器学习模型)

达观杯_概率融合

达观杯_分类融合

达观杯linghtgbm(五)

达观杯-特征工程 1

达观杯_构建模型（三）lightGBM

达观杯_构建模型（一）linearSVM

达观杯文本分类竞赛 0

达观杯数据竞赛系列（一）

Datawhale-达观杯nlp复盘

达观杯文本处理（一）

【达观杯】数据竞赛学习篇（二）

【达观杯】数据竞赛学习篇（一）

达观杯数据竞赛系列（四）

达观杯数据竞赛系列（二）

【达观杯】数据竞赛学习篇（三）

“达观杯” 经验分享（排名：87/5986）

达观数据：kubernetes简介和实战

蓝桥杯比赛模板

蓝桥杯比赛安排

蓝桥杯比赛考点

今日推荐

周排行

LRU cache算法

windows10, 自带的OpenSSH, key权限问题, 文件权限问题

测试用例书写方法

HIVE-默认分隔符的（linux系统的特殊字符）查看，输入和修改

最贵的AMD 7nm显卡来了！这设计够狂野

java多线程简单demo

[ 转载 ]在Android系统上使用busybox——最简单的方法

QT connect学习

BFSIFT算法分析

Xcode10：library not found for -lstdc++.6.0.9 临时解决

每日归档

更多

2024-08-06(0)

2024-08-05(0)

2024-08-04(0)

2024-08-03(0)

2024-08-02(0)

2024-08-01(0)

2024-07-31(0)

2024-07-30(0)

2024-07-29(0)

2024-07-28(0)