在“3_人民日报语料”中统计“日语借词”的词频;

其他 2018-09-26 20:05:56 阅读次数: 0

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/Kangyucheng/article/details/80948028

3. 在“3_人民日报语料”中统计“日语借词”的词频;

pyhton方法

# -*- coding: utf-8 -*-
import json
japanese_words_file = open('japanese_words.txt')  # japanese_words.txt是日语借用词
japanese_words = []   # list 用于存储日语借用词
for i in japanese_words_file:
    japanese_words.append(i.replace('\r\n', ''))
japanese_words_file.close()
data_file = open('3.txt')  # 3.txt 是人民日报语料
result = {}       # 存储词频统计结果
for i in data_file:
    word_lists = i.split()
    for each_word in word_lists:
        word = each_word.split('/')[0]
        if word in japanese_words:
            if word in result:
                result[word] += 1
            else:
                result[word] = 1
data_file.close()
print json.dumps(result, encoding="UTF-8", ensure_ascii=False)  # 输出结果

猜你喜欢

转载自blog.csdn.net/Kangyucheng/article/details/80948028

在“3_人民日报语料”中统计“日语借词”的词频;

统计“3_人民日报语料”文本中的字符数和词数，把文件分别保存为 ansi， UTF8，UTF16，unicode 格式

去掉“3_人民日报语料”中每行前边的数字编号，改成“1, 2,......”

使用keras搭建BiLSTM对人民日报语料进行分词

山果（转载《人民日报》）

人民日报自动下载脚本

python 简单爬虫 --- 人民日报

人民日报也搞搜索了~goso.cn

人民日报：青春为何“累觉不爱”？

crf++完成分词任务（人民日报）

人民日报——大力发展数字经济

人民日报：视频云AI编辑部赋能人民日报两会全媒体报道

人民日报三问人工智能给法律制度带来哪些挑战？

评"人民日报：一些贫者从暂时贫困走向跨代贫穷"

评“人民日报刊文为狗定性：既是伴侣也是食材”

人民日报:中国企业没有参与菲律宾南海石油开采竞标

人民日报：与其羡慕“拼爹” 不如趁早好好奋斗

人民日报:中国企业未参与菲律宾石油开采竞标

人民日报发推欢迎Google回归，但前提是遵守中国法律

人民日报锐评：美国“极限施压”，显然打错了算盘

海南即将变身区块链之城，人民日报：我觉得ok！

绿之韵人民日报，张秀蓉创业事迹

人民日报评水源地整治：年底完成整改清单问题岂能被推..

绿之韵人民日报描述董事长事迹一二

人民日报海外版评中国经济：饱经风浪大海永在

人民日报：莫斯科出租车网络技术含量骤增

人民日报评“科创板”：关键打好“创新牌”

人民日报海外版：民营经济发展风起帆扬

人民日报：重视人工智能的溢出带动效应

人民日报：“双11”见证中国网购变迁

今日推荐

周排行

Access的四舍五入取整

8.23 前端学习过程

入门学习过程方向与漏洞复现总结：

操作分布式文件之八：如何批量并行读写远程文件和事务补偿处理

应邀出个教程（搭建tensorflow跑网络环境）

Kubernetes之Pod控制器应用进阶

14-[mysql内置功能]--

HDU6212 区间dp 好题

VS2015生成代码图

验证手机号的工具类

每日归档

更多

2024-10-21(0)

2024-10-20(0)

2024-10-19(0)

2024-10-18(0)

2024-10-17(0)

2024-10-16(0)

2024-10-15(0)

2024-10-14(0)

2024-10-13(0)

2024-10-12(0)