Spark从本地文件中统计包含某个字母的行数 - 代码天地

Spark从本地文件中统计包含某个字母的行数

其他 2018-08-30 12:38:14 阅读次数: 0

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/u010675669/article/details/81704276

Spark从本地文件中统计包含某个字母的行数:

import org.apache.spark.SparkConf;
import org.apache.spark.sql.Dataset;
import org.apache.spark.sql.SparkSession;
/**
 * spark从文件中统计包含某个字段的记录数
 * @author admin
 *
 */
public class SparkWordCount {

	public static void main(String[] args) {
		
		String path = SparkWordCount.class.getClassLoader().getResource("").getPath();
		String logFile = path+"/file/README.md"; // Should be some file on your system
		
		String appName = "SparkWordCount";
		String master = "local";
		// 配置
		SparkConf conf = new SparkConf().setAppName(appName).setMaster(master);
	    SparkSession spark = SparkSession.builder().config(conf).getOrCreate();
	    
	    //文件的每一行作为一条记录
	    Dataset<String> logData = spark.read().textFile(logFile).cache();
	    
	    // 统计
	    long numAs = logData.filter(s -> s.contains("a")).count();
	    long numBs = logData.filter(s -> s.contains("b")).count();

	    System.out.println("Lines with a: " + numAs + ", lines with b: " + numBs);

	    spark.stop();
	}

}

猜你喜欢

转载自blog.csdn.net/u010675669/article/details/81704276

Spark从本地文件中统计包含某个字母的行数

Linux系统中统计文件中某个字符出现次数命令详细教程

excel如何删除包含某个字段的行数

当前目录下包含某个字符的文件

SHELL判断文件是否包含某个字串

grep 统计文件中某个字段出现的次数

SQL SERVER中判断某个字段是否包含大写字母

查询某个字段都是字母

SQL查询以某个字母开头

39.统计一个表中某个字符出现最多的字母

Linux查找某个目录下包含某个字段的文件

mongodb 统计某个字段的和

（篇九）C语言统计某个字母的个数、统计各种字符的个数、统计单词的个数

java 查找目录下文件内容包含某个字符串的文件

js 判断字符串中是否包含某个字符串(字母、数字、符号...)

【Linux】如何查找目录下包含某个字符串的所有文件

PHP删除目录下包含某个字符串的全部文件

centos 查询目录中包含某个字符串的文件

linux命令--查询文件中是否包含某个字符

linux下如何找出包含某个字符串的所有文件

linux 如何搜索出包含某个字符串的所有文件

if判断某个字符串中包含某个字符

Oracle 判断某个字段是否包含某个字符或字符串

[codeforces 1304C] Cow and Friend 26个字母中的某个字母前缀和+(26个字母中的某个字母)之前的(26个字母中的某个字母)的数量+int溢出

shell统计文件中某个字符串出现的个数

linux统计文件中某个字符串出现的次数

Linux统计文件中某个字符出现的次数(详细)

linux命令统计文件中某个字符串出现的次数

ORACLE中用某个字段的首字母排序

Windows中查找某个目录下的所有文件中包含某个字符串的命令

今日推荐

周排行

成为C++高手之宏与枚举

在CAD二次开发中使用进度条

Js插件ECharts，HighCharts学习网址整理

Celery提交任务出错(on windows.)

cephfs内核客户端性能追踪

thinkphp中PHPExcel用法

EntityFramework动态组合多排序字段

汇编语言（八）实验9 根据材料编程

安装ubuntu后必须做的事情（对我而言）

JS函数式编程

每日归档

更多

2024-10-22(0)

2024-10-21(0)

2024-10-20(0)

2024-10-19(0)

2024-10-18(0)

2024-10-17(0)

2024-10-16(0)

2024-10-15(0)

2024-10-14(0)

2024-10-13(0)