04_数据类型丶字符编码丶类型转换

知识框架

数据类型概述

Java的数据类型分为两大类：

基本数据类型：包括整数、浮点数、字符、布尔。
引用数据类型：包括类、数组、接口等等.

数据类型在程序中起到什么作用呢？实际上是这样的，软件的存在主要是进行数据的处理，现实生活中的数据有很多，所以编程语言对其进行了分门别类，然后就产生了数据类型，不同数据类型的数据会给其分配不同大小的空间进行存储。也就是说，数据类型作用就是决定程序运行阶段给该变量分配多大的内存空间。这就是数据类型的主要作用。那么 java 中的数据类型都包括哪些呢？实际上 Java 中的数据类型就包括两大类，一类是基本数据类型，另一类是引用数据类型，其中，基本数据类型又包括 4 类 8 种：

第 1 类：整数型（不带小数的数字）：byte,short,int,long
第 2 类：浮点型（带小数的数字）：float,double
第 3 类：字符型（文字，单个字符）：char
第 4 类：布尔型（真和假）：boolean

大家可以看到，在以上的基本数据类型范畴中未发现字符串类型（带双引号的是字符串），所以，在这里我要告诉大家，Java 中的字符串属于引用数据类型，不属于基本数据类型的范畴。通过以上的学习，我们知道八种基本数据类型指的是：byte、short、int、long、float、double、boolean、char。接下来我们来看一下八种基本数据类型的详细信息，请看下表：

实际上计算机在任何情况下都只能识别二进制，什么是二进制呢？计算机毕竟是一台通电的机器，电流只有正极、负极，所以只能表示两种情况，也就是 1 和 0。对于一串由 1 和 0 组成的数字来说就是二进制，所谓的二进制就是满2 进 1。关于计算机存储单位？1字节 = 8bit（8比特）即1byte = 8bit 1bit就是一个1或0。不同的进制之间可以互相转换。在计算机当中，一个二进制位最左边的是符号位，当为0时表示正数，当为1时表示负数。

整数类型：byte、short、int、long

整型用于表示没有小数部分的数值，允许是负数
Java各整数类型有固定的表数范围和字段长度，不受具体OS的影响，以保证java程序的可移植性。
java的整型常量默认为 int 型，声明long型常量须后加‘l’或‘L’
java程序中变量通常声明为int型，除非不足以表示较大的数，才使用long
bit: 计算机中的最小存储单位。byte:计算机中基本存储单元。

所有数字在计算机底层都以二进制形式存在。

对于整数，有四种表示方式：

二进制(binary)：0,1 ，满2进1.以0b或0B开头。
十进制(decimal)：0-9 ，满10进1。
八进制(octal)：0-7 ，满8进1. 以数字0开头表示。
十六进制(hex)：0-9及A-F，满16进1. 以0x或0X开头表示。此处的A-F不区分大小写。如：0x21AF +1= 0X21B0

/*

    在java语言中整数型字面量有4种表示形式：
        十进制：最常用的。
        二进制
        八进制
        十六进制
*/
public class IntTest01{
    public static void main(String[] args){
        // 十进制
        int a = 10; 
        System.out.println(a); // 10

        // 八进制
        int b = 010;
        System.out.println(b); // 8

        // 十六进制
        int c = 0x10;
        System.out.println(c); // 16

        int x = 16; //十进制方式
        System.out.println(x);

        // 二进制（JDK8的新特性，低版本不支持。）
        int d = 0b10;
        System.out.println(d); // 2
    }
}

浮点类型：float、double

与整数类型类似，Java 浮点类型也有固定的表数范围和字段长度，不受具体操作系统的影响。

浮点型常量有两种表示形式：

十进制数形式：如：5.12 512.0f .512 (必须有小数点）
科学计数法形式:如：5.12e2 512E2 100E-2
float:单精度，尾数可以精确到7位有效数字。很多情况下，精度很难满足需求。
double:双精度，精度是float的两倍。通常采用此类型。

Java 的浮点型常量默认为double型，声明float型常量，须后加‘f’或‘F’。

字符类型：char

char 型数据用来表示通常意义上“字符”(2字节)。在Java程序中，强烈建议不要使用char类型。因为char类型描述了utf-16编码中的一个代码单元。short和char实际上容量相同，不过char可以表示更大的数字。因为char表示的是文字，文件没有正负之分，所以char可以表示更大的数字。

Java中的所有字符都使用Unicode编码，故一个字符可以存储一个字母，一个汉字，或其他书面语的一个字符。单引号中间不能为空。

/*
    字符型：
        char

        1、char占用2个字节。
        2、char的取值范围：[0-65535]
        3、char采用unicode编码方式。
        4、char类型的字面量使用单引号括起来。
        5、char可以存储一个汉字。
*/
public class CharTest01{
    public static void main(String[] args){
        // char可以存储1个汉字吗？
        // 可以的，汉字占用2个字节，java中的char类型占用2个字节，正好。
        char c1 = '中';
        System.out.println(c1);

        char c2 = 'a';
        System.out.println(c2);

        // 0如果加上单引号的话，0就不是数字0了，就是文字0，它是1个字符。
        char c3 = '0';
        System.out.println(c3);

        // 错误: 不兼容的类型: String无法转换为char
        //char c4 = "a";

        // 错误: 未结束的字符文字
        //char c5 = 'ab';

        // 错误: 未结束的字符文字
        //char c6 = '1.08';

    }
}

字符型变量的三种表现形式：

字符常量是用单引号(‘ ’)括起来的单个字符。例如：char c1 = 'a'; char c2 = '中'; char c3 = '9';
Java中还允许使用转义字符‘\’来将其后的字符转变为特殊字符型常量。例如：char c3 = ‘\n’; // '\n'表示换行符
直接使用 Unicode 值来表示字符型常量：‘\uXXXX’。其中，XXXX代表一个十六进制整数。如：\u000a 表示 \n。char类型是可以进行运算的。因为它都对应有Unicode码。

/*
    关于java中的转义字符
        java语言中“\”负责转义。
            \t 表示制表符tab
*/

public class Demo02Char {
    public static void main(String[] args) {

        // 普通的't'字符
        char c1 = 't';

        // 经过测试以下代码 \t 实际上是1个字符，不属于字符串
        // 两个字符合在一起表示一个字符，其中 \t 表示“制表符tab”
        char c2 = '\t'; //相当于键盘上的tab键

        // \的出现会将紧挨着的后面的字符进行转义。\碰到t表示tab键。
        System.out.println("abc\tdef");

        System.out.print("abc");
        //char c3 = 'n'; // 普通的n字符
        char c3 = '\n'; // 换行符

        // 假设现在想在控制台输出一个 ' 字符怎么办？
        // System.out.println('''); 错误: 空字符文字
        // \' 表示一个普通不能再普通的单引号字符。（\'联合起来表示一个普通的 '）
        System.out.println('\'');

        // 假设现在想在控制台输出一个 \ 字符怎么办？
        // System.out.println('\'); 错误: 未结束的字符文字
        // 在java中两个反斜杠代表了一个“普通的反斜杠字符”
        System.out.println('\\');

        // 希望输出的结果是："test"
        //  System.out.println(""test""); 错误: 需要')'
        System.out.println("“test”"); //内部的双引号我用中文的行吗？可以。

        System.out.println("");
        // System.out.println(""");编译报错。
        System.out.println("\"test\"");

        // 这个可以输出吗？
        // 这个不需要专门进行转义。
        // 这个 ' 在这里只是一个普通的字符，不具备特殊含义。
        System.out.println("'");

        //以下都有问题
        //System.out.println(''');
        //System.out.println(""");

        // 可以的。
        System.out.println("'这样呢'");

        // 编译报错，因为：4e2d 是一个字符串
        // char x = '4e2d'错误: 未结束的字符文字

        // 反斜杠u表示后面的是一个字符的unicode编码。
        // unicode编码是十六进制的。
        char x = '\u4e2d';
        System.out.println(x); // '中'
    }

}

布尔类型：boolean

boolean类型数据只允许取值true和false，无null。不可以使用0或非 0 的整数替代false和true，这点和C语言不同。Java虚拟机中没有任何供boolean值专用的字节码指令，Java语言表达所操作的 boolean值，在编译之后都使用java虚拟机中的int数据类型来代替：true用1表示，false 用0表示。

boolean 类型用来判断逻辑条件，一般用于程序流程控制：

if条件控制语句；
while循环控制语句；
do-while循环控制语句；
for循环控制语句；

字符编码

对于以上的八种基本数据类型来说，其中七种类型 byte,short,int,long,float,double,boolean计算机表示起来是很容易的，因为这七种类型底层直接就是数字，十进制的数字和二进制之间有固定的转换规则，所以计算机可直接表示和处理。但是大家别忘了，除了以上的七种数据类型之外，还有一种类型叫做字符型 char，这个对于计算机来说表示起来就不是那么容易了，因为字符毕竟是现实世界当中的文字，而文字每个国家又是不同的，计算机是如何表示文字的呢？实际上，起初的时候计算机只支持数字，因为计算机最初就是为了科学计算，随着计算机的发展，为了让计算机起到更大的作用，因此我们需要让计算机支持现实世界当中的文字，一些标准制定的协会就制定了字符编码（字符集），字符编码其实就是一张对照表，在这个对照表上描述了某个文字与二进制之间的对应关系。

什么是字符编码？

字符编码是人为的定义的一套转换表。
在字符编码中规定了一系列的文字对应的二进制。
字符编码其实本质上就是一本字典，该字段中描述了文字与二进制之间的对照关系。
字符编码是人为规定的。（是某个计算机协会规定的。）

计算机中储存的信息都是用二进制数表示的，而我们在屏幕上看到的数字、英文、标点符号、汉字等字符是二进制数转换之后的结果。按照某种规则，将字符存储到计算机中，称为编码。反之，将存储在计算机中的二进制数按照某种规则解析显示出来，称为解码。比如说，按照A规则存储，同样按照A规则解析，那么就能显示正确的文本f符号。反之，按照A规则存储，再按照B规则解析，就会导致乱码现象。字符编码 Character Encoding : 就是一套自然语言的字符与二进制数之间的对应规则。编码和解码，它们都是什么，我们拿字符'a'来解释一下：'a'是 97，97 对应的二进制是 01100001，那么从'a'到二进制 01100001的转换过程称为编码，从二进制 01100001 到'a'的转换过程称为解码。大家一定要注意：编码和解码要采用同一种字符编码方式（要采用同一个对照表），不然会出现乱码。这也是乱码出现的本质原因。

字符集

字符集 Charset ：也叫编码表。是一个系统支持的所有字符的集合，包括各国家文字、标点符号、图形符号、数字等。计算机要准确的存储和识别各种字符集符号，需要进行字符编码，一套字符集必然至少有一套字符编码。常见字符集有ASCII字符集、GBK字符集、Unicode字符集等。

可见，当指定了编码，它所对应的字符集自然就指定了，所以编码才是我们最终要关心的。

ASCII字符集 ：

ASCII（American Standard Code for Information Interchange，美国信息交换标准代码）是基于拉丁字母的一套电脑编码系统，用于显示现代英语，主要包括控制字符（回车键、退格、换行键等）和可显示字符（英文大小写字符、阿拉伯数字和西文符号）。
基本的ASCII字符集，使用7位（bits）表示一个字符，共128字符。ASCII的扩展字符集使用8位（bits）表示一个字符，共256字符，方便支持欧洲常用字符。常见的 ASCII 码需要大家能够记住几个，在 ASCII 码中规定'a'对应 97，'b'对应 98，以此类推，'A'对应 65，'B'对应 66，以此类推，'0'字符对应 48，'1'字符对应 49，以此类推，这些常见的编码还是需要大家记住的。其他字符编码都向上兼容 ASCII 码。

ISO-8859-1字符集：

拉丁码表，别名Latin-1，用于显示欧洲使用的语言，包括荷兰、丹麦、德语、意大利语、西班牙语等。
ISO-5559-1使用单字节编码，兼容ASCII编码。

GBxxx字符集：

GB就是国标的意思，是为了显示中文而设计的一套字符集。
GB2312：简体中文码表。一个小于127的字符的意义与原来相同。但两个大于127的字符连在一起时，就表示一个汉字，这样大约可以组合了包含7000多个简体汉字，此外数学符号、罗马希腊的字母、日文的假名们都编进去了，连在ASCII里本来就有的数字、标点、字母都统统重新编了两个字节长的编码，这就是常说的"全角"字符，而原来在127号以下的那些就叫"半角"字符了。
GBK：最常用的中文码表。是在GB2312标准基础上的扩展规范，使用了双字节编码方案，共收录了 21003个汉字，完全兼容GB2312标准，同时支持繁体汉字以及日韩汉字等。
GB18030：最新的中文码表。收录汉字70244个，采用多字节编码，每个字可以由1个、2个或4个字节组成。支持中国国内少数民族的文字，同时支持繁体汉字以及日韩汉字等。

Unicode字符集 ：

Unicode编码系统为表达任意语言的任意字符而设计，是业界的一种标准，也称为统一码、标准万国码。
它最多使用4个字节的数字来表达每个字母、符号，或者文字。有三种编码方案，UTF-8、UTF-16和UTF- 32。最为常用的UTF-8编码。

UTF-8编码，可以用来表示Unicode标准中任何字符，它是电子邮件、网页及其他存储或传送文字的应用中，优先采用的编码。互联网工程工作小组（IETF）要求所有互联网协议都必须支持UTF-8编码。所以，我们开发Web应用，也要使用UTF-8编码。它使用一至四个字节为每个字符编码，编码规则：

128个US-ASCII字符，只需一个字节编码。
拉丁文等字符，需要二个字节编码。
大部分常用字（含中文），使用三个字节编码。
其他极少使用的Unicode辅助字符，使用四字节编码。

基本数据类型转换

基本数据类型之间是存在固定的转换规则的，现总结出以下 6 条规则，无论是哪个程序，将这 6 个规则套用进去，问题迎刃而解：

八种基本数据类型中，除 boolean 类型不能转换，剩下七种类型之间都可以进行转换；
如果整数型字面量没有超出 byte,short,char 的取值范围，可以直接将其赋值给byte,short,char 类型的变量；
小容量向大容量转换称为自动类型转换，容量从小到大的排序为：byte < short(char) <int < long < float < double，其中 short 和 char 都占用两个字节，但是 char 可以表示更大的正整数；
大容量转换成小容量，称为强制类型转换，编写时必须添加“强制类型转换符”，但运行时可能出现精度损失，谨慎使用；
byte,short,char 类型混合运算时，先各自转换成 int 类型再做运算；
多种数据类型混合运算，各自先转换成容量最大的那一种再做运算；

自动类型转换：容量小的类型自动转换为容量大的数据类型就是自动类型转换

数据类型按容量大小排序为：

代码演示，自动类型转换

/*
在java中有一条非常重要的结论，必须记住：
    在任何情况下，整数型的“字面量/数据”默认被当做int类型处理。（记住就行）
    如果希望该“整数型字面量”被当做long类型来处理，需要在“字面量”后面添加L/l
    建议使用大写L，因为小写l和1傻傻分不清。
*/

public class Demo03Int {
    public static void main(String[] args) {

        // 分析这个代码存在类型转换吗，以下代码什么意思？
        // 不存在类型转换
        // 100 这个字面量被当做int类型处理
        // a变量是int类型，所以不存在类型的转换。
        // int类型的字面量赋值给int类型的变量。
        int a = 100;
        System.out.println(a);

        // 分析这个程序是否存在类型转换？
        // 分析：200这个字面量默认被当做int类型来处理
        // b变量是long类型，int类型占4个字节，long类型占8个字节
        // 小容量可以自动转换成大容量，这种操作被称为：自动类型转换。
        long b = 200;
        System.out.println(b);

        // 分析这个是否存在类型转换？
        // 这个不存在类型转换。
        // 在整数型字面量300后面添加一个L之后，300L联合起来就是一个long类型的字面量
        // c变量是long类型，long类型赋值给long类型不存在类型转换。
        long c = 300L;
        System.out.println(c);

        // 题目：
        // 可以吗？存在类型转换吗？
        // 2147483647默认被当做int来处理
        // d变量是long类型，小容量可以自动赋值给大容量，自动类型转换
        long d = 2147483647; // 2147483647是int最大值。
        System.out.println(d);

        // 编译器会报错吗？为什么？
        // 在java中，整数型字面量一上来编译器就会将它看做int类型
        // 而2147483648已经超出了int的范围，所以在没有赋值之前就出错了。
        // 记住，不是e放不下2147483648，e是long类型，完全可以容纳2147483648
        // 只不过2147483648本身已经超出了int范围。
        // 错误: 整数太大
        //long e = 2147483648;

        // 怎么解决这个问题呢？
        long e = 2147483648L;
        System.out.println(e);

        byte f = 1;
        short g = 2;
        char h = '3';
        //byte + short +char --->int + int + int -->int
        int result = f + g + h;
        System.out.println(result);//54


    }
}

强制类型转换：自动类型转换的逆过程，将容量大的数据类型转换为容量小的数据类型就是强制类型转换。

特点：代码需要进行特殊的格式处理，不能自动完成。
格式：范围小的类型范围小的变量名 = (范围小的类型) 原本范围大的数据;

代码演示，强制类型转换

/*
    1、小容量可以直接赋值给大容量，称为自动类型转换。

    2、大容量不能直接赋值给小容量，需要使用强制类型转换符进行强转。
    但需要注意的是：加强制类型转换符之后，虽然编译通过了，但是运行
    的时候可能会损失精度。
*/
public class Demo04Int {
    public static void main(String[] args) {

        long x = 100L;

        // x是long类型，占用8个字节，而y变量是int类型，占用4个字节
        // 在java语言中，大容量可以“直接”赋值给小容量吗？不允许，没有这种语法。
        // 编译错误信息：错误: 不兼容的类型: 从long转换到int可能会有损失
        //int y = x;

        // 大容量转换成小容量，要想编译通过，必须加强制类型转换符，进行强制类型转换。
        // 底层是怎么进行强制类型转换的呢？
        // long类型100L：00000000 00000000 00000000 00000000 00000000 00000000 00000000 01100100
        // 以上的long类型100L强转为int类型，会自动将“前面”的4个字节砍掉：00000000 00000000 00000000 01100100

        // 格式：范围小的类型 范围小的变量名 = (范围小的类型) 原本范围大的数据;
        int y = (int) x; // 这个(int)就是强制类型转换符，加上去就能编译通过。
        // 但是要记住：编译虽然过了，但是运行时可能损失精度。
        System.out.println(y); // 100

        // long强制转换成为int类型,数据溢出
        int num2 = (int) 6000000000L;
        System.out.println(num2); // 1705032704

        // double --> int，强制类型转换，精度损失
        int num3 = (int) 3.99;
        System.out.println(num3); // 3，这并不是四舍五入，所有的小数位都会被舍弃掉

        // 定义变量a int类型，赋值100
        int a = 100;
        int b = a; // 将变量a中保存的值100复制一份给b变量。
        System.out.println(b);

    }
}

编译器的2个优化

优化1

对于byte/short/char三种类型来说，如果右侧赋值的数值没有超过范围，那么javac编译器将会自动隐含地为我们补上一个(byte)(short)(char)。

如果没有超过左侧的范围，编译器补上强转。
如果右侧超过了左侧范围，那么直接编译器报错。

代码演示：

public class DemoNotice {
    public static void main(String[] args) {
        // 右侧确实是一个int数字，但是没有超过左侧的范围，就是正确的。
        // int --> byte，不是自动类型转换
        byte num1 = /*(byte)*/ 30; // 右侧没有超过左侧的范围
        System.out.println(num1); // 30
        
        // byte num2 = 128; // 右侧超过了左侧的范围
        
        // int --> char，没有超过范围
        // 编译器将会自动补上一个隐含的(char)
        char zifu = /*(char)*/ 65;
        System.out.println(zifu); // A
    }
}

优化2：

在给变量进行赋值的时候，如果右侧的表达式当中全都是常量，没有任何变量，那么编译器javac将会直接将若干个常量表达式计算得到结果。short result = 5 + 8; // 等号右边全都是常量，没有任何变量参与运算编译之后，得到的.class字节码文件当中相当于【直接就是】：short result = 13;右侧的常量结果数值，没有超过左侧范围，所以正确。这称为“编译器的常量优化”。但是注意：一旦表达式当中有变量参与，那么就不能进行这种优化了。

代码演示

public class DemoNotice {
    public static void main(String[] args) {
        short num1 = 10; // 正确写法，右侧没有超过左侧的范围，
        
        short a = 5;
        short b = 8;
        // short + short --> int + int --> int
        // short result = a + b; // 错误写法！左侧需要是int类型
        
        // 右侧不用变量，而是采用常量，而且只有两个常量，没有别人
        short result = 5 + 8;
        System.out.println(result);
        
        short result2 = 5 + a + 8; // 18
    }
}

原码、反码、补码

二进制

Java整数常量默认是int类型，当用二进制定义整数时，其第32位是符号位；当是long类型时，二进制默认占64位，第64位是符号位

二进制的整数有如下三种形式：

原码：直接将一个数值换成二进制数。最高位是符号位
负数的反码：是对原码按位取反，只是最高位（符号位）确定为1。
负数的补码：其反码加1。

计算机以二进制补码的形式保存所有的整数。

正数的原码、反码、补码都相同
负数的补码是其反码+1

为什么要使用原码、反码、补码表示形式呢？

计算机辨别“符号位”显然会让计算机的基础电路设计变得十分复杂! 于是人们想出了将符号位也参与运算的方法. 我们知道, 根据运算法则减去一个正数等于加上一个负数, 即: 1-1 = 1 + (-1) = 0 , 所以机器可以只有加法而没有减法, 这样计算机运算的设计就更简单了。

/*
    1、计算机在任何情况下都只能识别二进制
    2、计算机在底层存储数据的时候，一律存储的是“二进制的补码形式”
        计算机采用补码形式存储数据的原因是：补码形式效率最高。
    3、什么是补码呢？
        实际上是这样的，二进制有：原码 反码 补码 
    4、记住：
        对于一个正数来说：二进制原码、反码、补码是同一个，完全相同。
            int i = 1;
            对应的二进制原码：00000000 00000000 00000000 00000001
            对应的二进制反码：00000000 00000000 00000000 00000001
            对应的二进制补码：00000000 00000000 00000000 00000001
        对于一个负数来说：二进制原码、反码、补码是什么关系呢？
            byte i = -1;
            对应的二进制原码：10000001
            对应的二进制反码（符号位不变，其它位取反）：11111110
            对应的二进制补码（反码+1）：11111111
    5、分析 byte b = (byte)150;
        这个b是多少？
            int类型的4个字节的150的二进制码是什么？
                00000000 00000000 00000000 10010110
            将以上的int类型强制类型转为1个字节的byte，最终在计算机中的二进制码是：
                10010110
        
        千万要注意：计算机永远存储的都是二进制补码形式。也就是说上面
        10010110 这个是一个二进制补码形式，你可以采用逆推导的方式推算出
        这个二进制补码对应的原码是啥！！！！！！
            10010110 ---> 二进制补码形式
            10010101 ---> 二进制反码形式
            11101010 ---> 二进制原码形式 
*/
public class IntTest05{
    public static void main(String[] args){

        // 编译报错：因为150已经超出了byte取值范围，不能直接赋值，需要强转
        //byte b = 150;
        byte b = (byte)150;

        // 这个结果会输出多少呢？
        System.out.println(b); // -106
    }
}