今天接触到登录集群环境,以前没有接触过,简直一脸懵逼。请教了同事大神后,在这儿简单的复述一遍登录过程。
1、集群四台机器,其中一台是GPU环境,主机名为emr-worker-3,内网IP为:10.0.3.182,其中显卡为:Tesla P4
2、集群中安装有Hadoop和Spark环境, Spark版本为2.2.1。
3、目前只有master节点(116.62.210.89) 有外网IP,也只有这台机器能上外网。
2、账号与权限管理
root权限:......
普通权限:......(用户名为各自全拼)
后期,如果发现权限方面有什么问题,可以调整哈。
3、登录机器
外网只能登录master节点,IP地址为:116.62.210.89,ssh端口默认22
本地可配置证书登录,也建议添加一个~/.ssh/config文件:
配置好上面的config文件后,可以直接使用:ssh mldata
登录到master节点。
4、登录上master节点后
1、root用户,可以su - hadoop用户,然后可以ssh 主机名登录到其它三台worker节点的hadoop用户。
2、普通权限的用户,直接ssh emr-worker-3可直接登录到gpu机器的自己对应的账户。
三台worker节点的ip与主机名如下:
可以直接使用如下方式登录:
5. Python环境
目前,master节点上面,已经安装了两个版本Python环境,路径分别为:
/opt/anaconda2 # python2环境,绝对路径为:/opt/anaconda2/bin/python
/opt/anaconda3 # python3环境,绝对路径为:/opt/anaconda3/bin/python
推荐大家统一使用Python3环境,Python2好多库,慢慢都不会更新和支持了。
不推荐使用Centos系统自带的Python环境。
请在各自的主目录下文件:~/.bashrc中添加:
记得:source ~/.bashrc配置文件就可以了。
讲解如下:
登录账号和密码是配置集群的人给的,使用: ssh 账号@116.62.210.89 登录,然后会提示输入密码,输入管理员给的密码即可。这个时候就会来到阿里云的服务界面。
接下来:
ssh-keygen配合~/.ssh/config免密码登录远程服务器
打开终端,本地生成id_rsa(私钥),id_rsa.pub(公钥):
ssh-keygen -t rsa然后 一路按enter键,
公钥(id_rsa.pub)和私钥(id_rsa)默认生成在:
~/.ssh/ 目录下。
拷贝公钥到远程服务器上,或则其他地方whatever…
scp ~/.ssh/id_rsa.pub [email protected]:~/.ssh/
上面的username换成你的用户名,和服务器地址。然后你需要登录到你的远程服务器上操作。
登录远程服务器操作
ssh [email protected]
输入密码后登录,也许是你最后一次登录服务器需要密码。
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
此外,
配置SSH CONFIG
touch ~/.ssh/config 新建一个自定义ssh config文件
vim ~/.ssh/config 用VIM或者其他编辑器打开config文件,配置config, 粘贴如以下格式内容,保存:
配置好上面的config文件后,可以直接使用:ssh mldata
登录到master节点