实习项目之（一）ETL过程的简单手动实现 - 代码天地

实习项目之（一）ETL过程的简单手动实现

其他 2018-11-15 01:57:26 阅读次数: 0

微博数据ETL

项目角色: 核心研发开发组人员: 3

工作内容：

通过javase解析、结构化源数据并load到hive数据仓库中，并使用hivesql、数据分析函数进行活跃度、影响力排行等分析工作。

一、项目简介：

这个项目是自己在实习期间参与的第一个项目，我们的数据来源于

公司内部的爬虫部门，整个ETL过程是自己手写的UDF函数完成的

涉及到IO读取，正则匹配，以指定格式输出（利用面向对象的思

想，将指定的格式封装成对应的属性的对象，List），我们当时的研

究对象是新浪微博数据的一个主题下的评论区的内容，经过这个过

程呢，格式化就结束了，加载到数据仓库中，这个ETL过程就算初

步OK了。

二、相关内容

（1）load数据的sql语句：

load data local inpath inpathname overwrite into table tablename;

(2)hivesql与mysql的区别

在sql语句方面：hive中不支持delete和update等操作

（3）名词解析

活跃度：一般是指线上产品的用户在线时长以及登录频次

影响力：影响力是用一种别人所乐于接受的方式，改变他人的思想和行动的能

力。

（4）关于ETL工具

了解过 kettle，但是并未有过具体使用。

业界最有名的开源ETL工具。开源当然就免费，免费的有些东西使用就不是很方便

下载地址：http://kettle.pentaho.com/

---------------后续继续补充

猜你喜欢

转载自blog.csdn.net/Griezmann_7/article/details/83932700

实习项目之（一）ETL过程的简单手动实现

Oracle 数据库的简单手动注入

Mysql数据库的简单手动注入思路

Mac OS X下Adware/malware 的简单手动排除方法

阿里云k8s服务简单手动部署

手动配置一个简单的EJB项目

手动搭建简单的vue项目

手动HashMap的简单实现

手动实现简单的深度拷贝

手动实现简单HashMap。

Spring AOP（一） —— 手动实现

决策树之剪枝算法手动计算+R语言简单实现——（二）

Android开发之EventBus3.1.1的源码简单分析以及手动实现自己的EventBus

手动实现TensorFlow的训练过程：示例

手动创建简单webpack项目及React使用

自己手动实现一个简单的线程池

javascript实现一个简单的图片轮播和手动播放

Linux系统手动实现一个简单cp功能

Linux系统手动实现一个简单cp功能

手动实现一个简单JDK版动态代理

手动模拟一个简单的servlet容器的实现

手动模拟一个很简单的web server服务器实现

记录一次手动杀毒过程

sigmoid函数求导----简单手写推导过程

手动控制跳转到对应activity的简单实现

手动简单实现Vue双向数据绑定

自己手动实现简单的双向数据绑定 mvvm

vue之简单手写实现几个特性（精简版推荐）

Vue项目中实现手动翻页效果

bundle is not defined 手动搭建项目架构（一）

今日推荐

周排行

成为C++高手之宏与枚举

在CAD二次开发中使用进度条

Js插件ECharts，HighCharts学习网址整理

Celery提交任务出错(on windows.)

cephfs内核客户端性能追踪

thinkphp中PHPExcel用法

EntityFramework动态组合多排序字段

汇编语言（八）实验9 根据材料编程

安装ubuntu后必须做的事情（对我而言）

JS函数式编程

每日归档

更多

2024-10-22(0)

2024-10-21(0)

2024-10-20(0)

2024-10-19(0)

2024-10-18(0)

2024-10-17(0)

2024-10-16(0)

2024-10-15(0)

2024-10-14(0)

2024-10-13(0)