微博数据ETL
项目角色: 核心研发 开发组人员: 3
工作内容:
通过javase解析、结构化源数据并load到hive数据仓库中,并使用hivesql、数据分析函数进行活跃度、影响力排行等分析工作。
一、项目简介:
这个项目是自己在实习期间参与的第一个项目,我们的数据来源于
公司内部的爬虫部门,整个ETL过程是自己手写的UDF函数完成的
涉及到IO读取,正则匹配,以指定格式输出(利用面向对象的思
想,将指定的格式封装成对应的属性的对象,List),我们当时的研
究对象是新浪微博数据的一个主题下的评论区的内容,经过这个过
程呢,格式化就结束了,加载到数据仓库中,这个ETL过程就算初
步OK了。
二、相关内容
(1)load数据的sql语句:
load data local inpath inpathname overwrite into table tablename;
(2)hivesql与mysql的区别
在sql语句方面:hive中不支持delete和update等操作
(3)名词解析
活跃度:一般是指线上产品的用户在线时长以及登录频次
影响力:影响力是用一种别人所乐于接受的方式,改变他人的思想和行动的能
力。
(4)关于ETL工具
了解过 kettle,但是并未有过具体使用。
业界最有名的开源ETL工具。开源当然就免费,免费的有些东西使用就不是很方便
下载地址:http://kettle.pentaho.com/
---------------后续继续补充