简介
对电商用户行为:
- 访问行为
- 购物行为
- 广告点击
进行复杂的分析 结果
- 辅助PM 数据分析师 管理分析现有状况
- 改进产品设计 调整公司战略业务
- 提升业绩 营业额以及市场占有率提升
技术简介
业务模块
- 用户访问session分析
- 页面单跳转转化率统计
- 热门商品离线统计
- 广告流量实时统计
技术
- Spark 离线计算和实时计算业务
- Spark Core
- Spark SQL
- Spark Streaming
功能模块简介
用户访问Session分析Spark Core
- session的聚合指标计算
- 按时间比例随机抽取session
- 点击 下单购买排名前10商品
页面转换率统计Spark Core
- 计算关键页面之间的单步跳转转换率
- 页面切片算法 页面流匹配算法
热门商品离线统计Spark SQL
- 实现每天统计Top3热门商品
- 用Oozie进行离线统计任务定时调度
- Zeppeline进行数据可视化报表展示
广告流量实时统计Spark Streaming
- 动态黑名单
- 黑名单过滤
- 滑动窗口内的各个城市的广告展现流量
- 广告点击流量统计
环境介绍
- Centos 6.4
- CDH 5.3.6
- Spark 1.5.1
- Zookeeper 3.4.5
- kafaka
- Flume
- Java(Scala)----java生态更好
- IDEA
环境搭建
oracle vm vrtualbox
1 创建虚拟机
分配1024M内存
后面选项全部运用默认的设置
2 设置虚拟机的网卡
3 安装Centos
跳过
遇到的问题:硬盘不支持
OSX上不支持的硬件CentOS 6.x VirtualBox
原因:inter的CPU不支持 跳过吧 历史遗留问题
后面选项默认
时区选择上海
reboot
4 网络的配置
- 临时设置ip
ifconfig eth0 192.168.1.110
在/etc/hosts文件中配置本地ip到hosts的映射
- 配置hosts文件
ping通来检查
- 使用putty链接虚拟机
- 永久性配置Centos网络
vi /etc/sysconfig/network-scripts/ifconfig-eth0
- 重启网卡
service network restart
虚拟机无法Ping通的解决方法
被公司这个172的网差点整自闭! 昨天折腾了一天,今早又整理了一下思路 真能解决哎 只是方法有点暴力 果真不能996,一点都不高效!
1 进入到network-scripts
cd /etc/sysconfig/network-scripts
2 查看网卡 发现存在eht0 但是没应用 进去修改一下吧
vi ifcfg-eth0
昨天指定ip还是ping不通 现在换成自动分配ip看了看 果真可以哎
DEVICE=eth0
TYPE=Ethernet
ONBOOT=yes
BOOTPROTO=dhcp
3 重新启动方法 或者重启机器也行
Service network restart
//sudo reboot
成功! 我是折腾了一天的计算机网络吗?
ip永久性的配置
1 刚才激活了eth0 然后又让系统随机分配了一个内存,就可以用这个IP改成static了
vi ifcfg-eth0
DEVICE=eth0
TYPE=Ethernet
ONBOOT=yes
BOOTPROTO=dhcp
IPADDR=172.16.181.138
NETMASK=255.255.255.0
GATEWAY=172.16.181.1
说明:系统分配给我的gateway是181.255 但是重启网卡的时候这里显示error 我也不知道为什么 改成181.1就可以了
2 重启网卡
service network restart
再次配置hosts映射
环境安装
前言:上午测试环境在虚拟机中进行 还是有一些问题的 有点小自闭 下午我打算直接在一百多万的服务器上跑! 希望不会把实验室给炸了
由于服务器财产贵重,以下操作我会进行脱敏处理
ip地址多重映射
由于服务器上已经存在其他的bigdata项目,映射可能会出现问题
以前只做过一个一个ip映射一个主机名 原来还能映射两个,涨知识了
配置一个位置的多个主机名
将软件安装包上传至服务器
scp -r -v ./软件包 root@s03:/ifeng
//无需再输入用户名
scp -r -v ./软件包 root@s01:/ifeng
JDK安装
rpm -ivh jdk-7u68...rpm