1.准备单词文件words.txt
apple orange pear apple
banana peach pear
orange apple
2.新建word_r表
create table word_r(
line string
)
3.load进数据到表
load data local inpath '/apps/words.txt' overwrite into table word_r;
4.验证
select * from word_r;
以上本质上是将txt中的行数据,转换到数据库的line列的一个单元格中。
5.编写查询sql:
explode函数的使用,其作用是可以将一个数组以列的形式组织出来
可以先在beeline中执行以下语句,将line列的单元格数据以列的形式展示出来
select explode(split(line,' ')) as word from word_r
然后进行分组count聚合统计,并将单词以升序排序
select word,count(1) as count from
(select explode(split(line,' ')) as word from word_r) w
group by word
order by word;
每次执行时候都要编写该sql,较为复杂,可以通过create select的方式建一个新的表:
create table word_count as
select word,count(1) as count from
(select explode(split(line,' ')) as word from word_r) w
group by word
order by word;
以后使用
select * from word_count
即可进行查询。