搜寻图像集的方法(持续更新)
做图像识别的孩子,都会遇到这个问题,如何找适合的图片去做训练集,测试集。在这里,我会持续地总结我所学到的搜寻方法。
一.各类比赛网站
- Kaggle(https://www.kaggle.com/datasets)
- 天池(https://tianchi.aliyun.com/dataset)
- Kesci(https://www.kesci.com/home/dataset)
- DataFountain(https://www.datafountain.cn/datasets)
- DataCastle(https://www.dcjingsai.com/common/share/shareCenter.html?type=3)
二.CSDN站内搜索
这里可以下载很多资源https://download.csdn.net/
或者在csdn里搜索“比赛数据集”,这里面有很多,大家分享出来的比赛数据集
三.在知乎里面搜索
关键词:公开 图像数据,里面有大佬们分享的数据
三.论文链接下载
论文里一般有图片数据的来源
四.爬取图库网站的图片
国内外的图库网站很多,这里不细说。
图库网站的图片与关键词的相关性较强。
五.爬取百度/谷歌图片
在这里吐槽一下,这种方法爬取的照片与搜索关键词的相关性真的不高。
关键词的搜索技巧是找近义词。比如如果你的关键词“不开心”,可以同时搜索“哭”,“失落”等
六.社交网站爬虫
这种方法爬出来的照片与关键词的相关性也不高。
不过好处是能爬到较为真实的图片。
七.数据集网站下载
- UCI (https://archive.ics.uci.edu/ml/index.php)
- Visualdata (https://www.visualdata.io)
- 亚马逊数据集(https://registry.opendata.aws)
- 谷歌数据集(https://toolbox.google.com/datasetsearch)
- awesomedata的ImageProcessing栏目(https://github.com/awesomedata/awesome-public-datasets#imageprocessing)
- 聚数力(http://dataju.cn/Dataju/web/home)