- 安装虚拟机后的环境——host:主机 ,vmware:虚拟机, client:客户机
- 虚拟机的三种网络连接方式
2.1. 桥接:
客户机就相当于真实主机,可以访问互联网,设置ip,互相访问。如果环境没有网络,主机之间无法联通。
2.2. NAT:网络地址转换(常用,ip不变)
client和宿主机形成网络,客户机可以访问互联网,由宿主机做DNS和NAT。
IP也是由宿主机分配,客户机无法访问网络中的其他主机。
没有网络的环境下,宿主机和客户形成的网络任然是连通的,但客户机不能修改ip。
2.3. Only host:和NAT非常像,只不过client不能访问互联网。 - 在虚拟机ubuntu系统中安装jdk和hadoop,使用安装包安装,手动添加环境变量。
- hadoop(海量数据存储)配置模式
(1)独立模式<无需配置> ; (2)伪分布模式; (3)完全分布式模式 - namenode:名称节点,关键,所以目录和路径。datanode:数据节点,有若干备份(replication)。secondaryNamenode:相当于名称节点的备份。HDFS:分布式文件系统,解决存储问题,是基础。其上层是MapReduce,解决运算问题。yarn:一种MapReduce的框架。
- MapReduce:Google提出的一个软件架构,用于大规模数据集(大于1TB)的并行运算,包括Map(映射)和Reduce(归纳)。
伪分布模式配置:只有一个数据节点,一个数据备份。进入hadoop-2.7.7/etc/hadoop,其下有许多xml配置文件。其中需要配置的是: core-site.xml,hdfs-site.xml ,mapred-site.xml,yarn-site.xml。修改xml文件里面的内容如下。其中mapred-site.xml需要自己创建。
<?xml version="1.0"?> <!-- core-site.xml --> <configuration> <property> <name>fs.defaultFS</name> <value>hdfs://localhost/</value> </property> </configuration> <?xml version="1.0"?> <!-- hdfs-site.xml --> <configuration> <property> <name>dfs.replication</name> <value>1</value> </property> </configuration> <?xml version="1.0"?> <!-- mapred-site.xml --> <configuration> <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property> </configuration> <?xml version="1.0"?> <!-- yarn-site.xml --> <configuration> <property> <name>yarn.resourcemanager.hostname</name> <value>localhost</value> </property> <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property> </configuration>
配置ssh,启动守护进程
- 通过web页面查看伪分布配置
http://localhost:50070/
http://localhost:8088/
http://localhost:19888/
补充:
- 复制文件夹及子目录: cp -R xxx yyy
- ubuntu中返回上一次目录:cd -
- 对称加密和非对称加密
重点是:为了解决对称加密不安全和非对称加密效率低的问题——办法是将对称加密的密钥使用非对称加密的公钥进行加密,然后发送出去,接收方使用私钥进行解密得到对称加密的密钥,然后双方可以使用对称加密来进行沟通。 - rsa加密算法