刘焕勇, liuhuanyong,语言学及应用语言学硕士,2017年毕业于北京语言大学,目前就职于中国科学院软件研究所,主要从事信息抽取,知识图谱,情感分析, 社会计算等自然语言处理研发工作,兴趣包括:
- 语言资源构建
- 信息抽取与知识图谱
- 舆情监测与社会计算
联系邮箱:[email protected]
github主页:https://github.com/liuhuanyong
github项目主页:https://liuhuanyong.github.io/
一、参会总结
项目名称 | 中文名称 | 项目技术点 |
---|---|---|
CCKS2018Summary | CCKS2018会议总结 | 知识图谱,个人心得 |
CCL2018Summary | CCL2018参会总结 | 自然语言处理,心得 |
二、语言资源构建
项目名称 | 中文名称 | 项目技术点 |
---|---|---|
SentimentWordExpansion | 情感词扩展 | SOPMI |
BaikeInfoExtraction | 百科信息抽取 | Urllib,xpath |
SougouWordCollector | 搜狗词库自动构建 | Urllib,Scrapy |
LanguageResources | 语言资源 | 语言资源库,语义库,常用词典 |
BaikeKnowledgeSchema | 百科知识体系构建 | Urllib,xpath,递归,知识库本体概念 |
三、自然语言处理基本组件
项目名称 | 中文名称 | 项目技术点 |
---|---|---|
WordSegment | 分词 | HMM, MAXCUT,Ngram |
HuanNLP | 自然语言处理组件 | HMM, maxent, CRF |
Pinyin2Chinese | 拼音转文字 | Trie树,HMM, bigram |
QueryCorrection | 查询纠错 | edit-distance |
ChineseCixing | 中文词形查询 | 字形,音形 |
ChineseAntiword | 中文反义词查询 | 反义词 |
四、信息抽取
项目名称 | 中文名称 | 项目技术点 |
---|---|---|
WordMultiSenseDisambiguation | 中文多义词词义消歧 | 百科知识库,词义语义表示,词义语义相似度计算 |
TextFeatureExtraction | 文本特征提取 | IG,CHI ,DF,MI |
WordCollocation | 搭配抽取 | MI |
KeyInfoExtraction | 关键信息提取 | TFIDF,TextRank |
EventTriplesExtraction | 事件三元组提取 | dependency parser |
项目名称 | 中文名称 | 项目技术点 |
---|---|---|
CrimeKgAssitant | 法律罪行智能助手 | 知识图谱, 智能预判, 自动问答 |
QASystemOnMedicalKG | 医疗知识图谱与自动问答 | 知识图谱构建及自动问答 |
ComplexEventExtraction | 复合事件图谱 | 复合事件,条件事件、反转事件抽取 |
CausalityEventExtraction | 因果事件图谱 | 因果图谱,因果事件抽取 |
SequentialEventExtration | 顺承事件图谱 | 动宾短语提取,事件图谱 |
LanguageKnowledgeGraph | 语言政策知识图谱 | Neo4j,Echarts,D3js |
HyponymyExtraction | 上下位关系图谱 | 模式匹配,上下位概念表示 |
MusicLyricChatbot | 歌词对对碰 | es搜索,歌词知识库 |
五、文本挖掘与社会计算
项目名称 | 中文名称 | 项目技术点 |
---|---|---|
DocSentimentAnalysis | 基于句法依存的情感分析 | Template, Dependencyparser |
LearningBasedSentiment | 基于深度学习的情感分析 | CNN,RNN,ML |
TextGrapher | 文本结构化图谱表示 | EventExtraction,知识表示 |
ImportantEventExtractor | 文本重要性计算 | textrank |
ZhuguanDetection | 文本主观性计算 | subjective knowledge base |
SentenceSimilarity | 句子相似度计算 | distance, hash, haiming ,eidtdistance |
TopicCluster | 文本话题聚类 | LDA,Kmeans |
EventMonitor | 特定事件追踪 | 新闻采集,事件监测架构,scrapy |
PoemMining | 中国古代诗词挖掘 | 语料库构建,文本挖掘 |
LawCrimeMining | 司法文本挖掘 | 语料库构建,文本挖掘 |
HumorMining | 幽默计算 | 语料库构建,文本挖掘 |
LanguagePlatform | 集成自然语言处理技术的语言平台 | Neo4j,Echarts,Django |
六、深度学习与语义表示
项目名称 | 中文名称 | 项目技术点 |
---|---|---|
DeepLearningInaction | 深度学习练习 | Keras, Tensorflow |
Seq2SeqTranslation | 端到端的翻译模型 | keras, lstm |
Word2Vector | 词向量表示 | CBOW, SKIP-GRAM,Co-Matrix |
Sentence2Vector | 句子向量表示 | CBOW |
BiLSTM-NER | 基于BI-LSTM的命名实体识别 | keras, bi-lstm |
七、舆情信息采集
项目名称 | 中文名称 | 项目技术点 |
---|---|---|
WeiboIndexSpyder | 微博指数采集 | selenium,xpath |
BaiduIndexSpyder | 百度指数采集 | xpath,selenium |
AliIndexSpyder | 阿里指数采集 | selenium,xpath |
懂语言者,得天下。要做好理解人类语言这件事,需要语言学家和计算机科学家一起努力,作为一个语言学背景而又敲代码的小菜来说,希望能够从点滴做起,从语言资源出发,构建器尽可能全和优质的语言资源,包括基础词库、知识库、知识图谱,并结合当下的一些业务,解决一些实际问题,这条路,将一直走下去。
若有交流,可联系:
刘焕勇,中国科学院软件研究所,北京市海淀区中关村南四街四号。
邮箱:[email protected]
github主页:https://github.com/liuhuanyong
github项目主页:https://liuhuanyong.github.io/