哈喽,大家好,明天北京朝阳公园上午小明哥【就是寡人】粉丝见面会,欢迎到场,哈哈
接上一篇:https://blog.csdn.net/SPESEG/article/details/103732829
据我测试中发现,似乎是整个视频的帧都要进入模型,而最后的shape为一样的
torch.Size([1, 288, 224, 224])
这就不明觉厉了。难道所有不同帧的最后都是统一的??
但实际进入模型net的是
torch.Size([6, 16, 3, 224, 224])
So what's the meaning of the 6?
If I just set the frame num equal to 1,and the place will be 6 ?? the same shape ??
and torch.no_grad is similar to tf.Session ?
with torch.no_grad():
我已经将它的源码简化了,得到同样的结果,但是我想说torch的推断真的真的太慢了,我电脑CPU不行???
下一步就查看TSNDataset那个玩意,这个必须换成单个视频的图像的输入,不能再是对象了,这样很麻烦。
但其实我想说的是既然要取mean,对6取,当初又何必搞这个6呢?
难道这个6就是所谓的两倍采样???这个两倍采样为何为舍弃视频中的部分帧呢?难道没有吗?
我看一下,强行画图试试看,请不要走开哦。
从中挑了一个172305视频的图,原来共有35个图,但最后都是6*16个图,这种采样或者说是6倍采样,或者说有Compose带来的转换,但都是为了增加数据。
如图下,这就是最终进入模型的数据,最后得到一个标签,也就是说总的35个图片其中可能被交错使用了
鉴于这种情况,我如果用来提取特征是否可以降采样,每秒抽一帧然后整个视频一分钟就60帧,最终也能得到类似的图,这也算是一种特征提取方法吗??经过网络后是6*174,因为是174个类别。这种特征是否可以拿来用???孤决定可以尝试。
当然也可试试kinetics400或者600【600暂时没有训练好的模型】提取特征。
下面重要的就是TSNDataset了,且看下回分解,不要走开哦。
朝阳公园见哦。
【今天是12月30日,前天的粉丝见面会真是万人空巷,没想到看帅哥的这么多,哈哈】
TSNDataset这玩意想要真正的理解,还是要打印看一下。
下面这种写法不知道有什么用,输入为列表,这都搞个类,小题大做。
class VideoRecord(object):
def __init__(self, row):
self._data = row
@property
def path(self):
return self._data[0]
@property
def num_frames(self):
return int(self._data[1])
@property
def label(self):
return int(self._data[2])
其实本来写个for循环就解决的问题,然而这里写了个对象,这样做要么是照搬别人的,要么就是装13,这种做法最令人讨厌,就是用来屏蔽小白的,然而我不怕,事无巨细,事必躬亲,身体力行。
有一个问题我实在是搞不懂,为啥选择的帧与总的帧数有关系呢???
directory: 74225 ,idx : 2
directory: 74225 ,idx : 6
directory: 74225 ,idx : 10
directory: 74225 ,idx : 14
directory: 74225 ,idx : 18
directory: 74225 ,idx : 22
directory: 74225 ,idx : 26
directory: 74225 ,idx : 30
directory: 74225 ,idx : 34
directory: 74225 ,idx : 38
directory: 74225 ,idx : 42
directory: 74225 ,idx : 46
directory: 74225 ,idx : 50
directory: 74225 ,idx : 54
directory: 74225 ,idx : 58
directory: 74225 ,idx : 62
directory: 74225 ,idx : 1
directory: 74225 ,idx : 4
directory: 74225 ,idx : 8
directory: 74225 ,idx : 12
directory: 74225 ,idx : 16
directory: 74225 ,idx : 20
directory: 74225 ,idx : 24
directory: 74225 ,idx : 28
directory: 74225 ,idx : 32
directory: 74225 ,idx : 36
directory: 74225 ,idx : 40
directory: 74225 ,idx : 44
directory: 74225 ,idx : 48
directory: 74225 ,idx : 52
directory: 74225 ,idx : 56
directory: 74225 ,idx : 60
另外一个的idx则不同,这个idx的选取与总的帧数有关,这纯属扯淡
directory: 116154 ,idx : 2
directory: 116154 ,idx : 5
directory: 116154 ,idx : 9
directory: 116154 ,idx : 12
directory: 116154 ,idx : 15
directory: 116154 ,idx : 18
directory: 116154 ,idx : 22
directory: 116154 ,idx : 25
directory: 116154 ,idx : 28
directory: 116154 ,idx : 31
directory: 116154 ,idx : 35
directory: 116154 ,idx : 38
directory: 116154 ,idx : 41
directory: 116154 ,idx : 44
directory: 116154 ,idx : 48
directory: 116154 ,idx : 51
directory: 116154 ,idx : 1
directory: 116154 ,idx : 4
directory: 116154 ,idx : 7
directory: 116154 ,idx : 10
directory: 116154 ,idx : 14
directory: 116154 ,idx : 17
directory: 116154 ,idx : 20
directory: 116154 ,idx : 23
directory: 116154 ,idx : 27
directory: 116154 ,idx : 30
directory: 116154 ,idx : 33
directory: 116154 ,idx : 36
directory: 116154 ,idx : 40
directory: 116154 ,idx : 43
directory: 116154 ,idx : 46
directory: 116154 ,idx : 49
这种错位方法有待商榷,如果不知道总的帧数咋办,也就是说不能边读边预测了?或者说读完整个视频帧才做预测???
不能人为选取帧来预测???
另外是否与视频时长有关?
且看下一篇吧,【为了阅读方便】
请来看看我吧。Please Do not Keep me Waiting.
另外有相关问题可以加入QQ群讨论,不设微信群
QQ群:868373192
语音图像深度-学习群
或者发我邮箱: