【数据共享】深度学习异常行为数据集—疲劳驾驶数据集—行为分析数据集

今天分享一下这几种数据集：
异常行为数据集
疲劳驾驶数据集
行为分析数据集

文章目录

行为分析数据集：
疲劳驾驶数据集
异常行为监控数据集
三维卷积特征提取器：

100G异常行为数据集送上：

异常行为数据集（图像）

公众号来袭

行为分析数据集：

oops数据集，近21000个视频的异常行为视频帧，截取保存下来，有各种行为，多为异常行为与失败行为。

链接：https://pan.baidu.com/s/1vmqbmct_wsym_0UqO-g96Q
提取码：5l80

$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-bTl48luF-1595057697902)(D:\CSDN\pic\数据共享\1595055390837.png)]$

疲劳驾驶数据集

链接：https://pan.baidu.com/s/1qWBpTtWXGOGUzMtUsUWxGw
提取码：2051

异常行为监控数据集

【转载于知乎：CV上手之路，网址：https://zhuanlan.zhihu.com/p/98928534】

数据集的内容包括了（括号前数字为总视频数量，括号内为训练视频数量，约10%，数据来自论文的表格2）：

1. Abuse 虐待，50（48）
2. Arrest 抓捕，50（45）
3. Arson 纵火，50（41）
4. Assault 突袭，50（47）
5. Burglary 盗窃，100（87）
6. Explosion 爆炸，50（29）
7. Fighting 斗殴，50（45）
8. Normal_Videos_event 正常事件，950（800）
9. RoadAccidents 交通事故，150（127）
10. Robbery 当街抢劫，150（145）
11. Shooting 枪击，50（27）
12. Shoplifting 商店抢劫，50（29）
13. Stealing 偷窃，100（95）
14. Vandalism 恶意毁坏，50（45）

视频总数量为1900个，共128小时，平均帧率是 7274帧，MP4格式，帧率似乎是30fps。视频尺寸大部分是 240x320，接近250p。虽然解压后这1900个视频文件有104GB，然而，当我们不统计超过200MB的视频文件时（共170个，占总数的9%），剩下的1870个视频只有50GB。

250P：320x250，360P：480x360，720P：1280x720，1080P：1920x1080

图3，条形图：纵轴是视频数量，横轴是视频时长min，视频长度大部分在1分钟以下

2019-12-29 初版
2020-01-14 增加我对这篇文章的复现结果，修改了题目

我先摆出我的观点：这个数据集不太好，但是还不至于不可用。你需要注意的问题如下（严重程度由高到低）：

有些过短的视频通过重复播放来凑出时长！
有些视频并非是真实监控视频
有些异常视频竟然存在分镜切换！
有些视频中的异常行为，我作为人类难以判断
视频不全是彩色视频，存在夜视视频（灰度），且视频尺寸、缩放不统一
异常视频与正常视频在异常事件以外的差异非常明显（在镜头中异常事件未发生前，作为人类，我可以根据拍摄角度与视频质量直接猜出这个视频接下来是否有异常事件发生）
大部分异常视频片段的前面为正常片段，异常事件发生后才是异常片段，而标记将整段视频都标记为异常（弱监督），因此对算法提出了更高的要求。

详细的说明见下方正文**「这个数据集不太好，但是还不至于不可用」**。基于正文中对这个数据集的分析，我对在此数据集上使用其标记数据进行训练的模型性能表示强烈的怀疑。然而，当前好用的异常行为数据集非常稀少（如 UCSD Ped x， Subway xxx，Abnormal crowd），并且这个真实监控视频数据集的视频总时长非常多（收集异常行为的难度非常大！），因此这篇文章发布数据集的辛劳还是值得肯定的。

异常检测方法：多实例学习（Multiple Instance Learning）

这篇论文提出的异常检测方法非常简单（文章2018-01发表在ArXiv，后投中CVPR 2018，由于此论文发布了数据集，因此引用量虚高，截至2019-12为105），如下：

输入32帧的监控视频截图到三维卷积特征提取器（Facebook的C3D）中，得到特征
基于提取到的特征，训练3层FC（全连接层）对这些特征进行分类，输出一段长度为n的向量 ，表示输入视频属于各个类别的分数。
由于只要有任何一种异常行为发生，这段视频就是异常视频，因此取向量中的最大值作为视频是否异常的判别结果

图6，ROC曲线，表格3、表格4

经过分析，我认为这个数据集有问题，因此即便看到了上面的ROC曲线与表格指标，我也不敢花费时间去复现这篇论文。尽管我不相信它的量化结果，但是它异常分数曲线还是不错的，很有说服力——虽然数据集没有标出异常视频中具体是哪一段存在异常行为，但是根据下方的异常分数曲线，模型可以识别出具体哪一段（红色区间）发生了异常行为。（

@月半可可

和我都复现过，这个指标是可信的。）

2020-01-14 补充：下图是我的复现结果：

红色折线 AnoDet CVPR2018 C3D_4096+FC 是我对这篇文章提出方法的复现
橙色折线 I3D_400 + RNN+Reg 是我自己的方法
蓝色折线 I3D_1024 + RNN+Reg 也是我自己的方法

可以看到，红色折线与论文的结果比较接近，它使用了在 sports1m 上的预训练的C3D。蓝色橙色折线得到的结果更好，它使用了在 Imagenet 上预训练的 I3D（当然这不是主要原因，换成C3D照样比原论文好）。I3D_400 是指使用 I3D当特征提取器，输出logits的400个特征，I3D_1024 则是输出1024个特征。尽管蓝色橙色折线差异不大，但是我还是推荐使用蓝色折线 I3D_1024 。

RNN+Reg 是我自己的方法，因为文章还没有发，这里就先不讲了，它的雏形是LSTM入门例子：根据前9年的数据预测后3年的客流（PyTorch实现）。在它的基础上进行一些适应弱监督数据集（指UCF Crime）的魔改，再稍微构造合适的训练输入，超越这篇论文的算法就完成了。

接下来回到这篇论文：

异常分数曲线，纵轴为异常得分，横轴为帧的序号

如果你想要了解损失函数的构造（其实就用在时序上用了 hinge loss + L2正则），那么你可以看见其他人写的论文笔记：[CVPR 2018论文笔记] 真实监控场景中的异常事件检测。注意，那篇笔记中出现数据集的下载地址已经失效，请以我下方提供的为准。

上传于

三维卷积特征提取器：

关于特征提取器，论文使用了在其他大型数据集上进行预训练的特征提取器C3D，这是Facebook 在2017年提出来的 Convolution 3D （C3D），在2018年更新到了 C3D-v1.1。然而，DeepMind在2018-04 发布的 I3D拥有比C3D更好的性能。作者本人也在Github上承认并建议大家在复现的时候使用 I3D取代C3D。以下内容引用自论文Github的 README.md文件：

Q: Should I use C3D or I3D?
Ans: Several people have emailed me that in their experiments, I3D performs much better than C3D. So I would suggest to first try I3D. Obviously, for this, we need to re-train the model and make small modifications in training and testing codes.

Facebook Convolution 3D (C3D-v1.0， C3D-v1.1)，需要TensorFlow 1.X，tornado
DeepMind I3D in Kinetics dataset，需要Tensorflow 1.X+sonnet (deepmind 自己开发的，类似于Keras？)，注意 Kinetics dataset 是一个室内视频数据集
DeepMind I3D in pytorch，需要Pytorch 0.3，里面将Tensorflow 在 Kinetics dataset 和 Imagenet dataset 上面训练的预训练文件（每个模型文件约50MB）转化为Pytorch的格式。含有基于彩色图片和光流法的两种模型文件。
我自己修改并得到了 I3D in Pytorch 1.X 的版本，并放在Github上（待上传）

补充内容

「这个数据集不太好，但是还不至于不可用」

建立这样一个数据集是非常辛苦的，而且免费发布出来对学界有很大的好处，我在这里列出一些注意事项，给那些使用此数据集的人提醒：

有些过短的视频通过重复播放来凑出时长！
有些视频并非是真实监控视频
有些异常视频竟然存在分镜切换！
有些视频中的异常行为，我作为人类难以判断
视频不全是彩色视频，存在夜视视频（灰度），且视频尺寸、缩放不统一
异常视频与正常视频在异常事件以外的差异非常明显（在镜头中异常事件未发生前，作为人类，我可以根据拍摄角度与视频质量直接猜出这个视频接下来是否有异常事件发生）
大部分异常视频片段的前面为正常片段，异常事件发生后才是异常片段，而标记将整段视频都标记为异常（弱监督），因此对算法提出了更高的要求。

下面出现的视频均来自于这个100GB的数据集 ./UCF_Crimes/Video/

有些过短的视频通过重复播放来凑出时长！下面是 Abuse001x264.mp4. 30fps。下面的截图显示了视频中存在的重播现象。室内有一女性背对出口站立，有两名男子进入，一男子偷走女性的包，另一名男子出拳将女性击倒，随后二人逃离现场，女性受到击打后没有站起。本来视频已经在600帧的时候结束了，但是这600帧内容被多次重播，直到2729帧才结束。另外，我们可以看到发生的事件是抢劫与虐待？这种视频很难进行标记。

第1帧，第2xx帧，第3xx帧，第1xxx帧，第2xxx帧，第2729帧（最后一帧）

有些异常视频竟然存在分镜切换！然而，真实监控视频的画面不可能会发生切换

Fighting032

视频不全是彩色视频，存在夜视视频（灰度），且视频尺寸、缩放不统一，摄像头的焦距也不统一。另外，Stealing068也存在分镜切换的问题。

左上角：Normal013，其余图片：Stealing068

有些视频并非是真实监控视频。如下：这种拍摄角度与监控视频有明显不同，并且也存在镜头切换。我认为正常视频里面收录这种“非真实监控视频”+镜头切换+画面长宽调整的视频是比较合适的。

Normal567

**视频尺寸、缩放不统一。**注意，左边的视频帧率可能为 5fps，明显低于平均帧率 30fps

左：Normal881，右：Normal904

**有些视频中的异常行为，我作为人类难以判断。**下面是入室盗窃Burglary062 的画面，我还以为是偷车。此处分镜头切换频繁。如果没有第一个镜头拍到他们在撬门，那么其他镜头其实都是正常的。CAM19拍到了作案车辆没有关好车门便慌张地开走，这一段镜头我还以为是偷车。然而，我只能通过视频的标签才得知这是入室盗窃Burglary。

Burglary062

如视频 Arson???，我从视频中完全看不出来这是纵火。

Arson???，我忘记记下此视频的序号了

异常视频与正常视频在异常事件以外的差异非常明显（在镜头中异常事件未发生前，作为人类，我可以根据拍摄角度与视频质量直接猜出这个视频接下来是否有异常事件发生）。如枪击Shooting052，监控镜头拉近，拍到白车中的黑衣男子持枪射击红色车辆；如Shooting，它的片头与片尾都有提醒画面；如Arson025，这些视频把异常画面用红圈，高光标出来。如果让没有常识的机器利用这样的数据学习，即便机器只是识别到镜头缩放或提醒画面（而没有识别到异常事件），它也能完成任务，在测试中得到高分。（Testing Normal 910 也存在画面缩放等镜头调整动作）

第一行：Shooting052，第二行：Shooting047，第三行：Arson025

100G异常行为数据集送上：

链接：https://pan.baidu.com/s/1-et9bxsk35qx8KEuQ4shlA
提取码：8zom

异常行为数据集（图像）

（1）USCD(University of California, San Diego)异常检测数据库[32]. 数据由加州大学圣地亚哥分校创建,
数据是通过安装在一定高度、俯视人行道的摄像机,采集自然状态下发生的异常行为. 异常行为包含两类:
非人实体闯入和人行为异常. 异常种类包括骑自行车、滑冰、小推车、行人横穿人行道、侵入草地等, 同
时也记录人在轮椅上的几个实例. 数据由98 个视频组成, 被分成2 不同的场景的子集, 每个场景录制的视
频录像被分成约200 帧的各个片段. 该数据库主要针对是人群中个体行为的识别研究.

(2) UMN(University of Minnesota)数据库[33]. 明尼苏达州大学创建的一个数据库, 由11 个视频组成, 包
含了正常和异常视频. 每个视频起始部分是正常行为,随后为异常行为视频序列. 人群异常行为主要包括:人群单方向跑动、人群四散等. 该视频数据库采集的视频人为安排的异常行为. 该数据库针对的整体人群行为识别.

(3) UCF(University of Central Florida)数据库[34].该数据库由中佛罗里达大学创建, 包含了99 个视频片段. 该数据库主要是收集BBC Motion Gallery 、Youtube、Thought Equity 和Getty-Images 等网站视频数据, 用于公开的科学研究. 特点是在照明和视野的变化, 可以用于拥挤场面开发的算法的性能评价. 该数据集包含的人群和其他高密度移动物体的视频. 可以用于人群行为识别研究以及拥挤人群行为研究.

(4) VIF(violent flow)数据库[35]. 由以色列开放大学创建的人群数据库, 主要关注的是人群暴力行为.由246个视频组成, 所有的视频从YouTube 下载的, 视频来源是真实的现实暴力录影. 数据库旨在为检验暴力/非暴力分类和暴力标准提供测试依据. 视频中, 最短剪辑的持续时间为1.04 秒,最长剪辑6.52 秒, 视频片段的平均长度为3.60 秒.

下载链接：https://www.openu.ac.il/home/hassner/data/violentflows/

(5) CUHK(Chinese University of Hong Kong) 数据库[36]. 该数据集用于拥挤场景下活动或行为研究. 它包括两个子数据集: 交通数据集(麻省理工学院的交通录像)和行人数据集. 交通数据集包括90 分钟长的交通视频序列, 一些抽样帧的行人基础事实是手动标记的. 行人数据集记录了纽约的大中央车站, 包含一个长30 分钟的视频, 无任何标记或事实的数据.

(6) MALL 数据库[37]. 该数据集有两个子集: 第一是三个不同的密集的十字路口近60 分钟的交通流视频; 第二个是从一个可公开访问的购物中心的网络相机上获取的视频. 对2000 帧视频中的60000行人进行了标记, 每一个行人的头部位置也进行了标记. 因此,这个数据集方便于人群计数和轮廓分析的研究.

下载地址：https://amandajshao.github.io/projects/WWWCrowdDataset.html（WWW dataset)

相关链接：http://personal.ie.cuhk.edu.hk/~ccloy/datasets.html

(7) PETS 2009(Performance Evaluation of Trackingand Surveillance) 数据库[38]. 此数据集包含了多传感器的不同人群的活动序列, 共有9 个视频. 它由五个组成部分: 校准数据、训练数据、计数和密度估计数据、跟踪数据以及流量分析和事件识别数据. 每个子集包含多个视频序列, 每个序列由4 到8 个不同视角拍摄.

下载链接：http://www.cvg.reading.ac.uk/PETS2009/data.html

(8) RWC(Rodriguezs Web-Collected)收集网络数据库[39]. 罗德里格斯的网络收集的数据集, 由520 个视频组成. 抓取和下载搜索引擎和素材网站的视频源,例如, Gettyimages 和YouTube 等, 构建其数据库. 除了大量人群视频外, 数据集还随机从集合中选择所有运动的人中, 记录了100 个人的地面真实轨迹. 该数据集是不向公众开放的.

下载链接：https://www.di.ens.fr/willow/research/datadriven/

下载链接：http://www.mikelrodriguez.com/datasets-and-source-code/#datadriven

(9) UH(University of Haifa)数据库[40]. 视频来自五个采集点的八个摄像机, 分别是食堂1 个, 地铁入口1个, 地铁出口1 个, 车库出口1 个, 公交车站1 个, 商场3 个, 食堂和公交车站采用人为架设摄像机采集,其它地点来自监控. 所有视频中事件都进行了人为标记, 方便算法的测试. 数据库从食堂采集11 分钟视频,地铁入口1 小时36 分视频, 地铁出口43 分钟视频, 车库出口5 小时20 分视频, 公交车站2 分20 秒视频, 商场共155 分钟视频. 异常行为有自然发生, 也有人为设计的.

下载地址：datasets are available for public use upon request

(10) UCF-Crime

下载链接：https://webpages.uncc.edu/cchen62/dataset.html

(11) BEHAVE

下载链接：http://groups.inf.ed.ac.uk/vision/BEHAVEDATA/INTERACTIONS/

公众号来袭

收集于网络资源，觉得有用的话，可以关注一下我的公众号：DeepAI 视界

$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-D5SHj6VI-1595057697972)(D:\CSDN\pic\WeChat Image_20200716151357.jpg)]$

人群异常数据库已经有一定的规模, 且基本都是公开的, 可以用于人群异常行为的研究. 但是, 目前的人群数据库还没有形成体系, 更多的都是研究团队自己采集的视频, 没有相关标准, 视频种类繁多, 这样一定程度限制了人群行为识别的研究. 因此, 标准的人群数据库的建立是需要进一步开展的相关工作.