20200221;
1.做分类问题的时候,给定你标签,你想知道每一类标签的出现频数,可以使用这个函数:np.bincount()。
如果想分析一下数据样本是否均衡的时候,可以考虑这种操作,代码十分简明。
2.
当需要查看数据集中两个Key对应的数据是否是统一数据转化而来的时候:
输入:
from sklearn.datasets import load_digits
digits=load_digits()
digits.keys()
n_samples,n_features=digits.data.shape
print((n_samples,n_features))
print(digits.data.shape)
print(digits.images.shape)
import numpy as np
print(np.all(digits.images.reshape((1797,64))==digits.data))
输出:
(1797, 64)
(1797, 64)
(1797, 8, 8)
True
在这个数据集中,其实对于每一张图像image中是8*8的,而data是1*64的就是了。
20200308:
3.
引入一个包:tqdm(anaconda自带)
这个包是用来显示进度条的,很漂亮,使用很直观(在循环体里边加个tqdm),而且基本不影响原程序效率。这样在写运行时间很长的程序时,可以用到。
使用方式见下图:
在循环体内套一个tqdm(),就可以实现每执行一遍循环,进度条就会前进1,十分直观。
但是有个问题,如果循环里面要进行输出的话,就有点难受了。
import time
from tqdm import tqdm
for i in tqdm(range(20)):
time.sleep(0.5)
print('hello',i)