实习项目之(一)ETL过程的简单手动实现

微博数据ETL

项目角色: 核心研发 开发组人员: 3

工作内容:

通过javase解析、结构化源数据并load到hive数据仓库中,并使用hivesql、数据分析函数进行活跃度、影响力排行等分析工作。

一、项目简介

这个项目是自己在实习期间参与的第一个项目,我们的数据来源于

公司内部的爬虫部门,整个ETL过程是自己手写的UDF函数完成的

涉及到IO读取,正则匹配,以指定格式输出(利用面向对象的思

想,将指定的格式封装成对应的属性的对象,List),我们当时的研

究对象是新浪微博数据的一个主题下的评论区的内容,经过这个过

程呢,格式化就结束了,加载到数据仓库中,这个ETL过程就算初

步OK了。

二、相关内容

(1)load数据的sql语句:

load data local inpath inpathname overwrite into table tablename;

(2)hivesql与mysql的区别

在sql语句方面:hive中不支持delete和update等操作

(3)名词解析

活跃度:一般是指线上产品的用户在线时长以及登录频次

影响力:影响力是用一种别人所乐于接受的方式,改变他人的思想和行动的能

力。

(4)关于ETL工具

了解过 kettle,但是并未有过具体使用。

业界最有名的开源ETL工具。开源当然就免费,免费的有些东西使用就不是很方便

下载地址:http://kettle.pentaho.com/

---------------后续继续补充

猜你喜欢

转载自blog.csdn.net/Griezmann_7/article/details/83932700