1.28学习日记

#继上次学习记录,我已经20天没有学习了,光玩了,快死了啊。

1.目前还是在看MTB的代码,其中预训练的部分,有很多不明白的,地方:

使用的预训练的数据集是cnn.txt,不知道是否是使用的QA数据集https://cs.nyu.edu/~kcho/DMQA/

它整个的格式是这个样子的:

分为两个部分:一个是短文,另一个是4个@highlight,强调部分的文字并不标准在短文中出现,是summary性的。

从上述的链接中可以知道,这些附带的是问题,缺少一个单词或短语,可以从短文中找到。(也就是说也是个完形填空的类型?)

cnn数据集中有大约9万个文档,有38万个问题。

#不对,上面应该是理解错了,上面是story,下面才是问题question:

下载下来就是为了看里面的格式,但是发现看不懂啊,是@entity用来替换上面的吗?那这是为什么呢?

那么既然有这个question文件,要story还有啥用?

2.作者给出了预训练模型的文件,太开心了啊!

猜你喜欢

转载自www.cnblogs.com/BlueBlueSea/p/12240265.html