Pipleine Mitie
1.MitieNLP
mitie必须在配置中指定一个语言模型文件
example
pipeline:
-name: “MitieNLP”
#language model to load
model: “data/total_word_feature_extractor.dat”
该MITIE后端为小型数据集表现良好,但培训可以采取很长的,如果你有超过几百例子。我们可能会在将来弃用MITIE后端。
第一次运行
pip install git+https://github.com/mit-nlp/MITIE.git
pip install rasa_nlu[mitie]
然后下载 MITIE模型。你需要的文件是total_word_feature_extractor.dat。将它保存在某处,如果你想使用mitie,你需要告诉它在哪里找到这个文件。
完整的mitie管道
language: “en”
pipeline:
-name: “MitieNLP”
model: “data/total_word_feature_extractor.dat”
-name: “MitieTokenizer”
-name: “MitieEntityExtractor”
-name: “EntitySynonymMapper”
-name: “RegexFeaturizer”
-name: “MitieFeaturizer”
-name: “SklearnIntentClassifier”
单独使用MITIE可能会很慢,但您可以使用此配置
language: “en”
pipeline:
-name: “MitieNLP”
model: “data/total_word_feature_extractor.dat”
-name: “MitieTokenizer”
-name: “MitieEntityExtractor”
-name: “EntitySynonymMapper”
-name: “RegexFeaturizer”
-name: “MitieIntentClassifier”
完整的mitie 模型
意图多训练速度慢
解决方法mitie + sklearn
1、sklearn快速而良好的意图分类
2、MITIE生成的良好的特征向量和实体识别
如果超出10个意图,MITIE训练会花费很长时间。
2.SpacyNLP
3.MitieFeaturizer
4.SpacyFeaturizer
5.NgramFeaturizer
6.CountVectorsFeaturizer
7.KeywordIntentClassifier
8.MitieIntentClassifier
9.SklearnIntentClassifier
10.EmbeddingIntentClassifier
11.RegexFeaturizer
12.WhitespaceTokenizer
13.JiebaTokenizer
创建中文标志
14.MitieTokenizer
15.SpacyTokenizer
16.MitieEntityExtractor
17.SpacyEntityExtractor
18.EntitySynonymMapper
19.CRFEntityExtractor
20.DucklingHTTPExtractor
spaCy 和 sklearn 一般是首选