该案例展示了如何利用进化算法+多进程/多线程来优化SVM中的两个参数:C和Gamma。
在执行本案例前,需要确保正确安装sklearn,以保证SVM部分的代码能够正常执行。
本函数需要用到一个外部数据集,存放在同目录下的iris.data中,
并且把iris.data按3:2划分为训练集数据iris_train.data和测试集数据iris_test.data。
有关该数据集的详细描述详见http://archive.ics.uci.edu/ml/datasets/Iris
在执行脚本main.py中设置PoolType字符串来控制采用的是多进程还是多线程。
注意:使用多进程时,程序必须以“if __name__ == '__main__':”作为入口,
这个是multiprocessing的多进程模块的硬性要求。
import numpy as np
import geatpy as ea
from sklearn import svm
from sklearn import preprocessing
from sklearn.model_selection import cross_val_score
import multiprocessing as mp
from multiprocessing import Pool as ProcessPool
from multiprocessing.dummy import Pool as ThreadPool
"""
该案例展示了如何利用进化算法+多进程/多线程来优化SVM中的两个参数:C和Gamma。
在执行本案例前,需要确保正确安装sklearn,以保证SVM部分的代码能够正常执行。
本函数需要用到一个外部数据集,存放在同目录下的iris.data中,
并且把iris.data按3:2划分为训练集数据iris_train.data和测试集数据iris_test.data。
有关该数据集的详细描述详见http://archive.ics.uci.edu/ml/datasets/Iris
在执行脚本main.py中设置PoolType字符串来控制采用的是多进程还是多线程。
注意:使用多进程时,程序必须以“if __name__ == '__main__':”作为入口,
这个是multiprocessing的多进程模块的硬性要求。
"""
class MyProblem(ea.Problem):
def __init__(self, PoolType):
name = 'MyProblem'
M = 1
maxormins = [-1]
Dim = 2
varTypes = [0, 0]
lb = [2**(-8)] * Dim
ub = [2**8] * Dim
lbin = [1] * Dim
ubin = [1] * Dim
ea.Problem.__init__(self, name, M, maxormins, Dim, varTypes, lb, ub, lbin, ubin)
fp = open('iris_train.data')
datas = []
data_targets = []
for line in fp.readlines():
line_data = line.strip('\n').split(',')
data = []
for i in line_data[0:4]:
data.append(float(i))
datas.append(data)
data_targets.append(line_data[4])
fp.close()
self.data = preprocessing.scale(np.array(datas))
self.dataTarget = np.array(data_targets)
self.PoolType = PoolType
if self.PoolType == 'Thread':
self.pool = ThreadPool(2)
elif self.PoolType == 'Process':
num_cores = int(mp.cpu_count())
self.pool = ProcessPool(num_cores)
def aimFunc(self, pop):
Vars = pop.Phen
args = list(zip(list(range(pop.sizes)), [Vars] * pop.sizes, [self.data] * pop.sizes, [self.dataTarget] * pop.sizes))
if self.PoolType == 'Thread':
pop.ObjV = np.array(list(self.pool.map(subAimFunc, args)))
elif self.PoolType == 'Process':
result = self.pool.map_async(subAimFunc, args)
result.wait()
pop.ObjV = np.array(result.get())
def test(self, C, G):
fp = open('iris_test.data')
datas = []
data_targets = []
for line in fp.readlines():
line_data = line.strip('\n').split(',')
data = []
for i in line_data[0:4]:
data.append(float(i))
datas.append(data)
data_targets.append(line_data[4])
fp.close()
data_test = preprocessing.scale(np.array(datas))
dataTarget_test = np.array(data_targets)
svc = svm.SVC(C=C, kernel='rbf', gamma=G).fit(self.data, self.dataTarget)
dataTarget_predict = svc.predict(data_test)
print("测试集数据分类正确率 = %s%%"%(len(np.where(dataTarget_predict == dataTarget_test)[0]) / len(dataTarget_test) * 100))
def subAimFunc(args):
i = args[0]
Vars = args[1]
data = args[2]
dataTarget = args[3]
C = Vars[i, 0]
G = Vars[i, 1]
svc = svm.SVC(C=C, kernel='rbf', gamma=G).fit(data, dataTarget)
scores = cross_val_score(svc, data, dataTarget, cv=30)
ObjV_i = [scores.mean()]
return ObjV_i
源代码