TSM视频测试——中间篇二

哈喽，大家好，明天北京朝阳公园上午小明哥【就是寡人】粉丝见面会，欢迎到场，哈哈

接上一篇：https://blog.csdn.net/SPESEG/article/details/103732829

据我测试中发现，似乎是整个视频的帧都要进入模型，而最后的shape为一样的

torch.Size([1, 288, 224, 224])

这就不明觉厉了。难道所有不同帧的最后都是统一的？？

但实际进入模型net的是

torch.Size([6, 16, 3, 224, 224])

So what's the meaning of the 6?

If I just set the frame num equal to 1,and the place will be 6 ?? the same shape ??

and torch.no_grad is similar to tf.Session ?

with torch.no_grad():

我已经将它的源码简化了，得到同样的结果，但是我想说torch的推断真的真的太慢了，我电脑CPU不行？？？

下一步就查看TSNDataset那个玩意，这个必须换成单个视频的图像的输入，不能再是对象了，这样很麻烦。

但其实我想说的是既然要取mean，对6取，当初又何必搞这个6呢？

难道这个6就是所谓的两倍采样？？？这个两倍采样为何为舍弃视频中的部分帧呢？难道没有吗？

我看一下，强行画图试试看，请不要走开哦。

从中挑了一个172305视频的图，原来共有35个图，但最后都是6*16个图，这种采样或者说是6倍采样，或者说有Compose带来的转换，但都是为了增加数据。

如图下，这就是最终进入模型的数据，最后得到一个标签，也就是说总的35个图片其中可能被交错使用了

鉴于这种情况，我如果用来提取特征是否可以降采样，每秒抽一帧然后整个视频一分钟就60帧，最终也能得到类似的图，这也算是一种特征提取方法吗？？经过网络后是6*174，因为是174个类别。这种特征是否可以拿来用？？？孤决定可以尝试。

当然也可试试kinetics400或者600【600暂时没有训练好的模型】提取特征。

下面重要的就是TSNDataset了，且看下回分解，不要走开哦。

朝阳公园见哦。

【今天是12月30日，前天的粉丝见面会真是万人空巷，没想到看帅哥的这么多，哈哈】

TSNDataset这玩意想要真正的理解，还是要打印看一下。

下面这种写法不知道有什么用，输入为列表，这都搞个类，小题大做。

class VideoRecord(object):
    def __init__(self, row):
        self._data = row

    @property
    def path(self):
        return self._data[0]

    @property
    def num_frames(self):
        return int(self._data[1])

    @property
    def label(self):
        return int(self._data[2])

其实本来写个for循环就解决的问题，然而这里写了个对象，这样做要么是照搬别人的，要么就是装13，这种做法最令人讨厌，就是用来屏蔽小白的，然而我不怕，事无巨细，事必躬亲，身体力行。

有一个问题我实在是搞不懂，为啥选择的帧与总的帧数有关系呢？？？

directory:  74225 ,idx : 2
directory:  74225 ,idx : 6
directory:  74225 ,idx : 10
directory:  74225 ,idx : 14
directory:  74225 ,idx : 18
directory:  74225 ,idx : 22
directory:  74225 ,idx : 26
directory:  74225 ,idx : 30
directory:  74225 ,idx : 34
directory:  74225 ,idx : 38
directory:  74225 ,idx : 42
directory:  74225 ,idx : 46
directory:  74225 ,idx : 50
directory:  74225 ,idx : 54
directory:  74225 ,idx : 58
directory:  74225 ,idx : 62
directory:  74225 ,idx : 1
directory:  74225 ,idx : 4
directory:  74225 ,idx : 8
directory:  74225 ,idx : 12
directory:  74225 ,idx : 16
directory:  74225 ,idx : 20
directory:  74225 ,idx : 24
directory:  74225 ,idx : 28
directory:  74225 ,idx : 32
directory:  74225 ,idx : 36
directory:  74225 ,idx : 40
directory:  74225 ,idx : 44
directory:  74225 ,idx : 48
directory:  74225 ,idx : 52
directory:  74225 ,idx : 56
directory:  74225 ,idx : 60

另外一个的idx则不同，这个idx的选取与总的帧数有关，这纯属扯淡

directory:  116154 ,idx : 2
directory:  116154 ,idx : 5
directory:  116154 ,idx : 9
directory:  116154 ,idx : 12
directory:  116154 ,idx : 15
directory:  116154 ,idx : 18
directory:  116154 ,idx : 22
directory:  116154 ,idx : 25
directory:  116154 ,idx : 28
directory:  116154 ,idx : 31
directory:  116154 ,idx : 35
directory:  116154 ,idx : 38
directory:  116154 ,idx : 41
directory:  116154 ,idx : 44
directory:  116154 ,idx : 48
directory:  116154 ,idx : 51
directory:  116154 ,idx : 1
directory:  116154 ,idx : 4
directory:  116154 ,idx : 7
directory:  116154 ,idx : 10
directory:  116154 ,idx : 14
directory:  116154 ,idx : 17
directory:  116154 ,idx : 20
directory:  116154 ,idx : 23
directory:  116154 ,idx : 27
directory:  116154 ,idx : 30
directory:  116154 ,idx : 33
directory:  116154 ,idx : 36
directory:  116154 ,idx : 40
directory:  116154 ,idx : 43
directory:  116154 ,idx : 46
directory:  116154 ,idx : 49

这种错位方法有待商榷，如果不知道总的帧数咋办，也就是说不能边读边预测了？或者说读完整个视频帧才做预测？？？

不能人为选取帧来预测？？？

另外是否与视频时长有关？

且看下一篇吧，【为了阅读方便】

请来看看我吧。Please Do not Keep me Waiting.

另外有相关问题可以加入QQ群讨论，不设微信群

QQ群：868373192

语音图像深度-学习群

或者发我邮箱：

[email protected]

SpeechImageKing

发布了189 篇原创文章 · 获赞 170 · 访问量 2万+

私信关注

TSM视频测试——中间篇二

猜你喜欢