第1章网络空间安全概述

1.1 工作和生活中的网络安全

1.1.1 生活中常见的网络安全问题

账号密码被盗
信用卡被盗刷
网络诈骗和钓鱼网站

出现网络安全问题的原因：

因为公众对网络安全问题的警惕性不高；
公众也缺乏抵御网络安全威胁的知识。

1.1.2 工作中常见的网络安全问题

网络设备面临的威胁
操作系统面临的威胁
应用程序面临的威胁

1.2 网络空间安全的基本认识

国内尚未对网络空间安全有公认的、准确的定义。
网络空间安全涉及的领域众多，内涵丰富。

1.3 网络空间安全的技术架构

本书各章的主要内容：
物理安全、网络安全、系统安全、应用安全、数据安全、大数据背景下的先进计算安全问题、舆情分析、隐私保护、密码学及应用、网络空间安全实战和网络空间安全治理。

1.4 我国网络空间安全面临的机遇与挑战

1.4.1 我国网络空间安全发展的重大机遇

信息传播的新渠道。
生产生活的新空间。
经济发展的新引擎。
文化繁荣的新载体。
社会治理的新平台。
交流合作的新纽带。
国家主权的新疆域。

1.4.2 我国网络空间安全面临的严峻挑战

网络渗透危害政治安全。
网络攻击威胁经济安全。
网络有害信息侵蚀文化安全。
网络恐怖和违法犯罪破坏社会安全。
网络空间的国际竞争方兴未艾。
网络空间机遇和挑战并存，我们必须坚持积极利用、科学发展、依法管理的原则，维护网络空间安全。

第2章物理安全

2.1 物理安全概述

2.1.1 物理安全的定义

物理安全：
保护信息系统的软硬件设备、设施以及其他介质免遭地震、水灾、火灾、雷击等自然灾害、人为破坏或操作失误，以及各种计算机犯罪行为导致破坏的技术和方法。

在信息系统安全中，物理安全是基础。

2.1.2 物理安全范围

一般分为环境安全、设备和介质安全。

环境安全：是指对系统所在环境的安全保护，如区域保护和灾难保护。
设备安全和介质安全：主要包括设备的防盗、防毁、防电磁信息辐射泄露、防止线路截获、抗电磁干扰及电源保护，以及硬件的安全，包括介质上数据的安全及介质本身的安全。

2.2 物理环境安全

要保证信息系统的安全、可靠，必须保证系统实体处于安全的环境中。这个安全环境就是指机房及其设施，它是保证系统正常工作的基本环境。

物理位置的选择
物理访问控制
防盗窃和防破坏
防雷击
防火
防水和防潮
防静电
温湿度控制
电力供应
电磁防护

2.3 物理设备安全

2.3.1 安全硬件

PC网络物理安全隔离卡
网络安全物理隔离器
物理隔离网闸

2.3.2 芯片安全

安全芯片其实可以描述成一个可信任平台模块(TPM)，它是一个可独立进行密钥生成、加解密的装置，内部拥有独立的处理器和存储单元，可存储密钥和特征数据，为计算机提供加密和安全认证服务。

安全芯片配合专用软件可以实现以下功能：

存储、管理密码功能
加密
对加密硬盘进行分区

第6章数据安全

6.1 数据安全概述

导致数据泄露的主要原因包括：
黑客通过网络攻击、木马、病毒窃取，设备丢失或被盗，使用管理不当等。

6.2 数据安全的范畴

6.2.1 数据安全的要素

定义：
数据安全是指保障数据的合法持有和使用者能够在任何需要该数据时获得保密的、没有被非法更改过的纯原始数据。

数据安全的要素：Confidentiality(保密性)、Integrity(完整性)和Availability(可获得性)，简称CIA。

数据的保密性就是指具有一定保密程度的数据只有让有权读到或更改的人进行读取和更改。
数据的完整性是指在存储或传输的过程中，原始的数据不能被随意更改。
数据的可获得性是指对于该数据的合法拥有和使用者，在他们需要这些数据的任何时候，都应该确保他们能够及时得到所需要的数据。

6.2.2 数据安全的组成

分为以下几个方面：

数据本身的安全：主要是指采用现代密码算法对数据进行主动保护，如数据保密、数据的完整性、双向强身份认证等。
数据防护的安全：主要是指采用现代信息存储手段对数据进行主动防护，像之前提过的通过磁盘阵列、数据备份、异地容灾等手段来保证数据的安全。这时，数据安全是一种主动的包含措施，数据本身的安全一定是基于可靠的加密算法与安全体系，比如对称加密和非对称加密方式。
数据处理的安全：是指如何有效地防止数据在录入、处理、统计或打印中由于硬件故障、断电、死机、人为的误操作、程序缺陷、病毒或黑客等造成的数据库损坏或数据丢失现象。如果某些敏感或保密的数据被不具备资格的人员操作或阅读，会造成数据泄密等后果。
数据的存储安全

6.3 数据保密性

保密性涵盖两个部分，即数据加密和数据泄露防护。

6.3.1 数据加密

加密的基本作用：

防止不速之客查看机密的数据文件。
防止机密数据被泄露或篡改。
防止特权用户(如系统管理员)查看私人数据文件。
使入侵者不能轻易地查找到某个系统的文件。

具体的加密方式包括对称加密、非对称加密、Hash(散列算法)等。

对称加密：指加密和解密用同一个密钥，速度快，但要格外注意密钥保存。常用的对称加密算法有DES、3DES、AES、IDEA等。安全级别较高的是AES(高级加密标准)。
非对称加密：指加密和解密需由一对密钥共同完成：公钥和私钥。若是公钥加密，必须由私钥解密，反之亦然。需要提醒的是：私钥是私有的、不能公开，公钥可以告知他人。在应用时，用公钥加密，私钥解密，是为了实现数据的机密性；而用私钥加密，公钥解密，则是为了操作的不可否认性(数字签名)。常用的非对称加密算法有RSA和DSA。
Hash(散列)算法：一般用在需要认证的环境下的身份确认或不考虑数据的还原的加密。因为Hash是一种单向散列算法，只能由一种状态变为另一种状态而不可逆。常用的散列算法有MD5算法和SHA算法。

6.3.2 DLP

DLP(Data Leakage(Loss) Prevention,数据泄露防护)就是通过内容识别达到对数据的防控。防护的范围主要包括网络防护和终端防护。网络防护主要以审计、控制为主，终端防护除审计与控制能力外，还应包括传统的主机控制能力、加密和权限控制能力。

DLP其实是一个综合体。最终实现的效果是智能发现、智能加密、智能管控、智能审计，这是一整套数据泄露防护方案，从另一个角度保证数据机密。

6.4 数据存储技术

6.4.1 数据的存储介质

存储介质是指存储数据的载体。目前常用的存储介质是基于闪存(Nand flash)的介质，比如U盘。
分为以下几类：

1. 磁性媒体

(1) 磁带机(Tape Drive)
特点：经济、可靠、容量大、速度快的备份设备。
它采用具有高纠错能力的编码技术和写后即读通道技术。
根据装带方式分为：手动装带磁带机和自动装带磁带机(自动加载磁带机)。

(2) 硬盘

固态硬盘(Solid State Disk、IDE Flash Disk)
固态硬盘是用固态电子存储芯片阵列制成的硬盘，由控制单元和存储单元(Flash芯片)组成。
特点：
1)读写速度快：因为采用闪存作为存储介质，读取速度相对机械硬盘更快。而且因为固态硬盘不使用磁头，寻道时间几乎为0。
2)低功耗、无噪音、抗震动、低热量、体积小、工作温度范围大。因为内部不存在机械活动部件，因此不会发生机械故障，也不怕碰撞、冲击、振动。
移动硬盘
常用的移动硬盘包括2.5寸硬盘和3.5寸台式机硬盘
2.5寸硬盘是专门为笔记本设计的，具有良好的抗震性能、尺寸较小、重量较轻，在目前移动硬盘中应用最多。
混合硬盘
混合硬盘是把磁性硬盘和闪存集成到一起的一种硬盘，就像是固态硬盘(SSD)+机械硬盘(HDD)。理论上性能提高了。

2. 光学媒体

我们比较熟悉的光学媒体是CD (DVD)。与磁性媒体相比，光学媒体的可靠性极好。对于磁体、静电电荷或其他载体，其上的信息会因强磁性而损坏。而光学媒体不存在这种风险，因为它是以物理方式写入光盘的。目前，基于光学媒体的存储设备已经成为传输和存档的主要选择。光学媒体的优点是每MB成本很低，几乎是不可破坏的。其不足在于，很多时候一旦信息写入后，信息就不可改变了。

3. 半导体存储器

半导体存储器指的是一种以半导体电路作为存储媒体的存储器。按其制造工艺可分为双极晶体管存储器和MOS晶体管存储器。
半导体存储器的优点是:存储速度快、存储密度高、与逻辑电路接口容易。主要用作高速缓冲存储器、主存储器(内存)、只读存储器、堆栈存储器等，有RAM和ROM两大类。ROM是只读存储器，像主板BIOS、硬件防火墙的引导代码等都保存在其中，一般不可写。 RAM指随机存储器，往往指的是内存条。特点是断电即消失数据。

6.4.2 数据的存储方案

存储方案：就是用单独的软硬件将磁盘/磁盘组管理起来，供主机使用。
根据服务器类型分为：封闭系统的存储(主要指大型机的存储)和开放系统的存储(主要基于Windows、UNIX、Linux等操作系统的服务器)。
开放系统的存储又分为：内置存储和外挂存储。
外挂存储又分为：直连式存储(DAS)和网络存储(FAS)。
网络存储又分为：网络接入存储(NAS)和存储区域网络(SAN)。
目前的外挂存储解决方案主要分为三种：

1. DAS

DAS与普通的PC存储架构一样，外部存储设备直接挂接在服务器内部总线上，数据存储设备是整个服务器结构的一部分。
DAS存储结构主要适用于以下环境:

小型网络:因为网络规模较小，数据存储量小，且结构不复杂，采用这种存储方式对服务器的影响不会很大。而且这种存储方式十分经济，适合拥有小型网络的企业用户。
地理位置分散的网络:如果企业网络规模较大，但在地理分布上很分散，通过SAN或NAS在它们之间进行互联非常困难，那么各分支机构的服务器可采用DAS存储方式，这样可以降低成本。
特殊应用服务器:在一些特殊应用服务器上，如某些大企业的集群服务器或某些数据库使用的原始分区，均要求存储设备直接连接到应用服务器。

虽然DAS有一定的方便之处，但是其也有弱点。在服务器与存储的各种连接方式中，DAS是一种低效率的结构，不方便进行数据保护。由于直连存储无法共享，因此经常出现某台服务器的存储空间不足，但其他服务器却有大量存储空间闲置的情况。如果存储不能共享，也就谈不上容量分配与使用需求之间的平衡。

2. NAS

NAS方式有效克服了DAS低效的弱点。它采用独立于服务器、单独为网络数据存储而开发的一种文件服务器来连接存储设备，自形成一个网络。这样，数据存储就不再是服务器的附属，而是作为独立网络节点存在于网络之中，可由所有的网络用户共享。
NAS存储系统为那些访问和共享大量文件系统数据的企业环境提供了一个高效、性能价格比优异的解决方案。数据的整合减少了管理需求和开销，而集中化的网络文件服务器和存储环境，包括硬件和软件都确保了可靠的数据访问和数据的高可用性。
因为NAS存储系统与应用服务器之间交换的是文件，而SAN或DAS架构下，服务器与存储设备交换的是数据块，所以NAS存储系统产品适合于文件存储，而不适合数据库应用。办公自动化系统、税务行业、广告设计行业、教育行业都经常采用此方案。

NAS的优点如下:

真正的即插即用: NAS是独立的存储节点，存在于网络之中，与用户的操作系统平台无关，真正实现即插即用。
存储部署简单: NAS不依赖通用的操作系统，而是采用一个面向用户设计的专门用于数据存储的简化操作系统，内置了与网络连接所需要的协议，因此使整个系统的管理和设置较为简单。
存储设备位置非常灵活。
管理容易且成本低。

但NAS依然有其不足之处，包括存储性能较低以及可靠度不高。

3. SAN

1991年，IBM 公司在S/390服务器中推出了ESCON ( Enterprise System Connection)技术。它是基于光纤介质，最大传输速率达17MB/s的服务器访问存储器的种连接方式。在此基础上，进一步推出了功能更强的ESCON Diretor (FC SWitch),构建了一套最原始的SAN系统。
SAN (Storage Area Network,存储区域网络)存储方式实现了存储的网络化，顺应了计算机服务器体系结构网络化的趋势。
SAN的支撑技术是光纤通道(Fiber Channel,FC)技术，它是ANSI为网络和通道10接口建立的一个标准集成。FC技术支持HIPPI、IPI、SCsI、IP、ATM等多种高级协议，其优点是将网络和设备的通信协议与传输物理介质隔离开，这样多种协议可在同一个物理连接上同时传送。

SAN的硬件基础设施是光纤通道，用光纤通道构建的SAN由以下三个部分组成:

存储和备份设备:包括磁带、磁盘和光盘库等。
光纤通道网络连接部件:包括主机总线适配卡、驱动程序、光缆、集线器、交换机、光纤通道和SCSI间的桥接器。
应用和管理软件:包括备份软件、存储资源管理软件和存储设备管理软件。

当前，大多数企业在存储方案方面遇到的困难主要源自数据与应用系统紧密结合所产生的结构性限制，以及目前小型计算机系统接口(SCSI) 标准的限制。由于SAN便于集成，能改善数据可用性及网络性能、减轻管理作业，因此被认为是未来企业级的存储方案。可以看出，SAN主要用于存储量大的工作环境，如ISP、银行等，并有着广泛的应用前景。

基于上述介绍，我们可以总结SAN的优点如下:

网络部署容易。
高速存储性能。因为SAN采用了光纤通道技术，所以它具有更高的存储带宽，存储性能明显提高。San的光纤通道使用全双工串行通信原理传输数据，传输速率高达1062.5Mb/s。
良好的扩展能力。由于SAN采用了网络结构，扩展能力更强。光纤接口提供了10km的连接距离，这使得实现物理上分离、不在本地机房的存储变得非常容易。

在现实环境中，上述这三种存储方式共存，互相补充，从而很好地满足企业信息化应用。

需要说明的是，在上述几种方案中，都用到了RAID技术。因此，接下来我详细介绍一下RAID。

RAID ( Redundant Arrays of Independent Disks)是指由独立磁盘构成的具有冗余能力的阵列。磁盘阵列是由很多价格较便宜的磁盘组合而成的一个容量巨大的磁盘组，利用个别磁盘提供数据所产生的加成效果提升整个磁盘系统效能。利用这项技术，就可以将数据切割成许多区段，分别存放在各个硬盘上。

磁盘阵列还能利用同位检查(Parity Check)的观念，在组中任意一个硬盘故障时，仍可读出数据;在数据重构时，将数据经计算后重新置人新硬盘中。

磁盘阵列有三种样式:一是外接式磁盘阵列柜，二是内接式磁盘阵列卡，三是利用软件来仿真。

外接式磁盘阵列柜:常用于大型服务器上，具可热交换( Hot Swap) 的特性，这类产品的价格较高。
内接式磁盘阵列卡:价格便宜，但需要熟练的安装技术，适合技术人员使用。这种硬件阵列能够提供在线扩容、动态修改阵列级别、自动数据恢复、驱动器漫游、超高速缓冲等功能。是使用阵列卡专用的处理单元来进行操作的。
利用软件仿真的方式:是指通过网络操作系统自身提供的磁盘管理功能将连接的普通接口卡上的多块硬盘配置成逻辑盘，组成阵列。例如，Windows 系统或Linux系统、UNIX系统都可以实现系统管理下的RAID,俗称软RAID。这种RAID也可以提供数据冗余功能，但是磁盘子系统的性能会有所降低，有的降低幅度还比较大(达30%左右)，因此会减慢机器的速度，不适合大数据流量的服务器。

6.5 数据存储安全

6.5.1 数据存储安全的定义

数据存储安全是指数据库在系统运行之外的可读性。
安全的本质是要达到几个方面的平衡：
安全措施的成本、安全缺口的影响以及入侵者要突破安全措施所需要的资源的多少。
数据存储安全的目标是：
保证数据的机密性、完整性，防止数据被破坏或丢失。

6.5.2 数据存储安全的措施

很多企业面临的问题是如何在安全与运营成本支出之间找到平衡。我们的经验是：人为错误通常是企业存储环境面临的最重要的存储安全威胁。

保证数据存储的安全措施：
首先，要确定问题所在。(事件日志是很重要的安全信息资源)
其次，全年全天候对用户的行为进行检测。
然后，应根据实际应用需求，严格进行访问控制。

预测：未来存储安全的核心是以数据恢复为主，兼顾数据备份。

6.6 数据备份

6.6.1 数据备份的概念

数据备份是指为防止系统出现操作失误或系统故障导致数据丢失，而将全部或部分数据集合从应用主机的硬盘或阵列复制到其他存储介质的过程。

传统的数据备份主要采用内置或外置的磁带机进行冷备份，但这种方式只能防止操作失误等人为故障，而且其恢复时间也很长。
网络备份一般通过专业的数据存储管理软件结合相应的硬件和存储设备来实现。

6.6.2 数据备份方式

1. 定期进行磁带备份

这是指通过远程磁带库、光盘库备份，即将数据传送到远程备份中心制作完整的备份磁带或光盘。这种方式是采用磁带备份数据，生产机实时向备份机发送关键数据。

2. 数据库备份

这种方式就是在与主数据库所在的生产机相分离的备份机上建立主数据库的一个拷贝。分布式数据库技术在构建企业级应用程序中广泛流行，分布式数据库存储方式给企业带来了很多的方便。

3. 网络数据

这种方式是对生产系统的数据库数据和需跟踪的重要目标文件的更新进行监控与跟踪，并将更新日志实时通过网络传送到备份系统，备份系统则根据日志对磁盘进行更新。

4. 远程镜像

通过高速光纤通道线路和磁盘控制技术将镜像磁盘延伸到远离生产机的地方，镜像磁盘数据与主磁盘数据完全一致，更新方式为同步或异步。

5. 正常备份

正常备份也叫完全备份，是普遍使用的一种备份方式。这种方式会将整个系统的状态和数据完全进行备份，包括服务器的操作系统、应用软件以及所有的数据和现有的系统状态。
优点是全面、完整。缺点是需要占用大量的备份空间，并且这些数据有大量重复的内容，在备份的时候也需要花费大量的时间。

6. 差异备份

差异备份是将上一次正常备份之后增加或者修改过的数据进行备份。
这种方式大大节省了备份时所需的存储空间和备份所花费的时间。如果需要恢复数据，只需用两个备份就可以恢复到灾难发生前的状态。

7. 增量备份

增量备份是将上一次备份之后增加或者更改过的数据进行备份。
需要注意，差异备份是备份上一次正常备份之后发生或更改的数据，而增量备份是备份上一次备份之后发生过更改的数据，并不一定是针对上一次正常备份的。
增量备份是备份量最小的方式，但在恢复数据时又是耗时最长的，因为要把每一次的备份都还原。

6.6.3 主要的备份技术

1. LAN备份

传统备份需要在每台主机上安装磁措量不是很大时候，可集中备份。

2. LAN-Free 备份

当需要备份的数据量较大且备份时间窗口紧张时，环境下，这时可采用存储网络的LAN-Free备份。
需要备份的服务器通过SAN连接到磁带机上，在LAN-Free备份客户端牧件的触发下，读取需要备份的数据，通过SAN备份到共享的磁带机。这种独立网络不仅可以使LAN流量得以转移，而且运行所需的CPU资源低于LAN方式，这是因为光纤通道连接不需要经过服务器的TCPIP堆栈，而且某些层的错误检查可以由光纤通道内部的硬件完成。

3. Server-Less 备份

Server-Less备份是备份过程能够在SAN内部完成，大量数据无需流过服务器的技术。这个技术可以极大降低备份操作对生产系统的影响。
Server-Less (无服务器)意味无维护，但Server-Less不代表完全去除服务器，而是代表去除有关对服务器运行状态的监控，比如它们是否在工作、应用是否正常运行等。Server-Less是备份思维方式的转变，从过去构建一个框架运行在一台服务器上，对多个事作进行响应，变为“构建或使用一个微服务或微功能来响应一个事件。” Server-Less在规极扩展性方面充分利用云计算的特点，因此其扩展是平滑的，同时由于Server-Less是基于微服务的，而一些微功能、微服务的云计算是零收费，这些都有助于降低整体运营费用。
数据备份必须要考虑到数据恢复的问题。数据恢复包括双机热备、磁盘镜像或容错、备份磁带异地存放、关键部件冗余等多种灾难预防措施。这些措施能够在系统发生故障后进行系统恢复。但是这些措施一般只能处理计算机单点故障，对区域性、毁灭性灾难则束手无策，则不具备灾难恢复能力。

6.7 数据恢复技术

数据恢复是指通过技术手段，将保存在电脑硬盘、服务器硬盘、存储磁带库、移动硬盘、U盘等设备上丢失的数据进行抢救和还原的技术。

6.7.1 数据恢复的原理

数据恢复的原理是:如果数据没被覆盖，我们就可以用软件，通过操作系统的寻址和编址方式，重新找到那些没被覆盖的数据并组成一个文件。如果几个小地方被覆盖，可以用差错校验位来纠正。当然，如果已全部覆盖，那就无法再进行恢复了。

6.7.2 数据恢复的种类

1. 逻辑故障数据恢复

逻辑故障是指与文件系统有关的故障。常见的逻辑故障有无法进入操作系统、文件无法读取、文件无法被关联的应用程序打开、文件丢失、分区丢失、乱码显示等。因为硬盘数据的写入和读取都是通过文件系统来实现的，如前面介绍的Windows的NTFS文件系统和Linux与UNIX常用的ext3\ext4等文件系统。如果磁盘文件系统损坏，那么计算机就无法找到硬盘上的文件和数据。这些由逻辑故障造成的数据丢失，大部分情况下不可以通过专用数据恢复软件我回。

2. 硬件故障数据恢复

硬件故障也非常常见，占所有数据意外故障一半以上，大家对此应该不陌生。比如，雷击、高压、高温等造成的电路故障；高温、振动碰撞等造成的机械故障；高温、振动碰撞、存储介质老化造成的物理坏磁道扇区故障和意外丢失损坏的固件BIOS信息等都属于硬件故障。硬盘一般由电路板、固件、磁头、盘片、电机等电子器件、软件、机械三部分组成，其中任何一个组件都可能发生故障。

电路故障(PCB burned):硬盘的电路板烧毁，或硬盘电路板上的控制芯片损坏都属于电路故障。由于硬盘电路板使用的都是可编程芯片，因此硬盘电路板的修复不仅仅是“电烙铁”和“焊锡”的工作，还需要使用专门的编程设备。
固件损坏(Firm cormp):固件是控制硬盘正常运转的硬件程序，是硬盘的“大脑”，固件损坏也会造成极大的危害。
磁头和电机故障(Head & motor failed):磁头和电机是硬盘的机械组件，位于密闭的、无尘的盘体内部。磁头老化、变形，电机烧毁、卡住都会造成硬件故障，这两个组件的损坏会使得硬盘彻底报废无法修复，只有使用专门的设备才可恢复数据。
盘片损伤( Platter scratch):盘片是保存数据的载体。硬盘在使用过程中，会由于老化或划伤产生坏扇区。

3. 磁盘阵列RAID数据恢复

磁盘阵列的恢复过程是先排除硬件及软故障，然后分析阵列顺序、块大小等参数，用阵列卡或阵列软件重组或者是使用专用软件(如DiskGenius)虚拟重组RAID,重组后便可按常规方法恢复数据。

6.7.3 常见设备的数据恢复方法

1. 硬盘数据恢复

硬盘故障的数据恢复步骤是先进行诊断，找到故障点。修复硬件故障，然后再修复其他软件故障，最终将数据成功恢复。
修复硬件故障需要有一定的电路基础，并深入了解硬盘工作原理和流程。机械磁头故障需要100级以上的工作台或工作间来进行诊断修复工作。另外，还需要一些软硬件维修工具配合来修复固件区等故障。

同时，还要采用硬盘数据恢复软件来进行数据恢复，如迅龙硬盘数据恢复软件。数据恢复软件一般包含逻辑层恢复和物理层恢复功能。逻辑层恢复通常是指误删除、误克隆、误格式化、病毒感染等情况，物理层恢复是指由于硬件物理损伤引起的丢失数据恢复，如电机卡死、盘片物理坏道、硬盘电脑不识别、磁头移位等。

根据硬盘的损坏程度要采用不同的处理措施。如果损坏很严重，数据很重要的话，直接找专业的数据恢复公司来完成。

上述手段并不能保证100%恢复数据，所以对于一些重要的文件，要定期进行备份，以防万一。

2. U盘数据恢复

U盘损坏或出现电路板故障、磁头偏移、盘片划伤等情况时，可采用开体更换、加载、定位等方法进行数据修复。然后可以使用U盘数据恢复工具(如PC-3000 Flash SSD Edition)进行恢复。

PC-3000 Flash SSD Edition是俄罗斯ACELAB实验室开发出来的针对Flash闪存数据恢复工具。该工具可以直接读取U盘Flash芯片，可以支持BGA芯片，以及SSD固态硬盘。只要是U盘内存卡的存储芯片没有损坏，都可以把上面的信息读出来，之后通过自身携带的信息重组算法程序把原始的数据还原。这款工具属于专业级的数据恢复设备，一般的用户操作起来还有一定的难度，需要对文件系统非常熟悉的数据恢复人员结合多年实际恢复经验结合才可以完成恢复工作。

第7章大数据背景下的先进计算安全问题

7.1 大数据安全

7.1.1 大数据的概念

1. 大数据的定义

作为一个概念，大数据是由全球知名咨询公司麦肯锡定义的。麦肯锡对Big Data的定义是:一种规模大到在获取、存储、管理、分析方面大大超出传统数据库软件工具能力范围的数据集合，具有 海量的数据规模 、快速的数据流转 、多样的数据类型 和 价值密度低 四大特征。

研究机构Gartner对BigData的定义是:大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。

2. 大数据的特点

大数据的4V特征已逐渐得到了业界的广泛认可。

(1)Volume:大容量

数据体量巨大。

(2)Variety:多样性

大数据的数据类型繁多。
数据类型繁多一是指数据种类和格式繁多，已突破了以前所限定的结构化数据的范畴；二是指数据来源广泛。
按数据类型，通常将大数据分为结构化数据(属于传统)、半结构化数据和非结构化数据(属于现代)。

(3)Velocity:快速度

“1秒定律”，即要在秒级时间范围内给出数据分析结果，超出这个时间，数据就失去了价值。
快速度是大数据处理技术和传统的数据挖掘技术的最大区别。
这里的“快”有两个层面的含义：
一是数据产生快；二是数据处理速度快。
大数据有批处理(“静止数据”转变为“正使用数据”)和流处理(“动态数据”转变为“正使用数据”)两种范式。

(4)Veracity:真实性

数据真实性主要是指大数据分析对真实性数据的需求与大数据价值密度极低之间的矛盾。

3. 大数据的分类

按来源不同，大数据一般分为以下三类: 个人大数据、企业大数据、政府大数据。
个人大数据以互联网数据为主，互联网大数据(尤其是社交媒体数据)是近年来大数据的主要来源。
企业大数据种类繁杂，企业可能通过物联网收集大量的感知数据，增长极其迅猛。企业外部数据则日益吸纳社交媒体数据，内部数据不仅有结构化数据，更多的是越来越多的非结构化数据。
政府大数据主要是政府运转过程中产生的大量与社会、与国计民生息息相关的数据。

(1)个人大数据

基于互联网、个人信息中心、本人亲自授权、个性化数据服务、个人隐私、法律授权。

(2)企业大数据

数据已成为企业的核心资产和基本要素，在数据的支持下获得有效的决策，数据的合法拥有和非法占有。

(3)政府大数据

海量的原始的数据，社会发展与运行的基础，综合分析和有效管理，社会价值和经济效益，大数据是智慧城市的核心。

7.1.2 大数据的使用价值和思维方式

1. 大数据的预测价值

数据化指一切内容都通过量化的方法转化为数据，激发潜在价值，数据的实时化。

2. 大数据的社会价值

大数据正在催生以数据资产为核心的多种商业模式。大数据的生态系统，参与决策，革新生活模式。

3. 大数据的思维方式

大数据时代与工业时代相比，具有的新特点：
一是采集数据的方式和路径越来越多，内容和类型日益丰富多元。
二是数据分析不仅仅靠微观采样，更可以全面获得宏观整体的数据。
三是从追求事务的简单线性因果关系转向发现丰富联系的相关关系。

基于大数据的商业分析能够建立在全部样本空间上，我们不必一定遵循因果关系的预测，使得相关关系预测变为可能。这将颠覆传统的逻辑思维方式，改变人类的传统认知世界的方式，对社会科学与商业竞争提出了严峻挑战，将扭转我们的思维定式，引发新的商业模式。

7.1.3 大数据背景下的安全挑战

1. 大数据增加了隐私泄露的风险

大数据分析技术的发展，势必对用户个人隐私产生极大威胁。如今在大数据技术的背景下，由于大量数据的汇集使得用户隐私泄露的风险逐渐增大。同时，在用户数据被泄露后其人身安全也有可能受到一些影响。而应对这一风险的重要的手段便是加快对当前互联网中隐私信息保护的相关法律法规的制定，对广大互联网用户的隐私数据的所有权和使用权进行严格界定。

2. 大数据为高级持续性威胁(APT)提供了便利

APT ( Advanced Persistent Threat,高级持续性威胁)是利用先进的攻击手段对特定目标进行长期、持续性网络攻击的一种攻击形式。APT攻击相对于其他攻击形式而言更为高级和先进，这主要体现在攻击者在发动攻击之前会对攻击对象进行精确的信息收集，在收集的过程中，攻击者还会主动挖掘被攻击目标系统的漏洞，从而利用这些漏洞发起有效的攻击。大数据及其分析技术的发展也为APT攻击者提供了极大的便利。

(1)大数据使APT攻击者收集目标信息和漏洞信息更加便利

在互联网中，大数据环境下的目标信息数据更容易被收集。大数据及大数据挖掘技术也使得攻击者收集目标系统漏洞变得更加容易。

(2)大数据使攻击者可以更容易地发起攻击

3. 大数据下访问控制难度加大

访问控制是实现数据受控共享的有效手段。由于大数据可能被用于多种不同场景，其访问控制需求十分突出，难度加大。大数据访问控制的难点在于:

(1)难以预设角色，实现角色划分。

(2)难以预知每个角色的实际权限。

4. 大数据下审计工作难度加大

在大数据的时代背景下，企业和组织从自身安全的需要出发，采用日志分析与审计能够帮助用户获悉信息系统的安全运行状态，识别针对信息系统的攻击和入侵，以及来自内部的违规和信息泄露，从而为事后的问题分析和调查取证提供必要的信息。
实施大数据安全审计面临极大的挑战，从大数据本身带来的风险来说，当前主要考虑两个层面:一是大数据基础设施的安全性，二是数据自身的安全性。

第9章隐私保护

9.1 网络空间安全领域隐私的定义

隐私的种类通常分为三个方面：

个人身份数据
网络活动数据
位置数据

9.2 隐私泄露的危害

首先，隐私泄露会给个人生活带来困扰。
其次，也很容易升级为针对个人的违法侵害。
此外，隐私泄露还会导致更加严重的犯罪活动。
最后，泄露的隐私数据也会成为黑客攻击的素材。

9.3 个人用户的隐私保护

9.3.1 隐私信息面临的威胁

通过用户账号窃取隐私
通过诱导输入搜集隐私
通过终端设备提取隐私
通过黑客攻击获得隐私

9.3.2 隐私保护方法

加强隐私保护意识
提高账户信息保护能力
了解常见的隐私窃取手段，掌握防御方法

9.4 数据挖掘领域的隐私保护

数据挖掘又称为数据库中的知识发现。
在数据挖掘领域，隐私信息被分为两类：

原始记录中含有私密信息。
原始记录中含有敏感信息。

基于数据处理算法的不同，数据挖掘中的隐私保护有不同的实现方式，可分为三类：

基于数据失真的技术
基于数据加密的技术
基于限制发布的技术

9.4.1 基于数据失真的技术

数据失真技术是通过扰动原始数据来实现隐私保护，它要使扰动后的数据同时满足：

攻击者不能发现真实的原始数据。
失真后的数据仍然保持某些性质不变。

9.4.2 基于数据加密的技术

采用加密技术在数据挖掘过程中隐藏敏感数据是一种常见的隐私保护方法，多用于分布式应用环境。
分布式应用采用两种模式存储数据:垂直划分的数据模式和水平划分的数据模式。
垂直划分数据是指分布式环境中每个站点只存储数据的部分属性，所有站点存储的属性不重复;水平划分数据是将数据记录存储到分布式环境中的多个站点，所有站点存储的数据不重复。这两种模式中，单个节点都不知道完整的数据。
因此，在执行数据挖掘任务时，必须首先进行数据传输和汇集，获得完整数据之后再执行特定计算任务。
在这种情况下，隐私保护的难题有两个:第一，数据在传递过程中不能被外部读取;第二，节点不能知道其他节点的数据信息。

针对这些难题，一种可行的解决方案是将上述问题抽象为无信任第三方参与的安全多方计算问题。安全多方计算(SMC)是解决组互不信任的参与方之间保护隐私的协同计算问题，SMC要确保输人的独立性，计算的正确性，同时不泄露各输人值给参与计算的其他成员。

另种解决方案是采用分布式匿名化。匿名化即隐藏数据或数据来源。分布式下的数据匿名化面临的主要问题是在保证站点数据隐私的前提下，收集到足够的信息，以便实现利用率尽量大的数据匿名。

9.4.3 基于限制发布的技术

限制发布是指为了实现隐私保护，有选择地发布部分原始数据、不发布数据或者发布精度较低的数据。
此类技术的核心是实现“数据匿名化"，即在隐私披露风险和数据精度间进行折中，从而有选择地发布敏感数据及可能披露敏感数据的信息，但保证对敏感数据及隐私的披露风险在可容忍范围内。

常用于数据发布的匿名化方法有很多，大致包括去标识、数据泛化、数据抑制、子抽样、数据交换、插入噪音和分解等。在诸多预处理方法中，泛化和抑制技术使用得最为频繁。

上述方法都是预处理阶段常用的技术，在具体的操作过程中需要考虑隐私保护度和发布数据可用性的平衡。一方面需要对发布数据中包含的敏感信息进行变换以实现隐私保护，另一方面需要尽可能保留原始数据表中的可用信息，以便匿名发布后的数据依然可以用于分析研究和数据挖掘。

9.5 云计算领域中的隐私保护

数据生命周期指数据从产生到销毁的整个过程，通常分为7个阶段。

生成
传输
使用
共享
存储
归档
销毁

9.6 物联网领域中的隐私保护

隐私威胁两大类：

基于位置的隐私威胁
基于数据的隐私威胁

9.6.1 物联网位置隐私保护方法

位置服务的隐私是移动对象对自己位置数据的控制。
获取自己位置的多种方法：

全球定位系统部署的卫星与移动设备经过通信，根据多个卫星与同一移动设备之间通信时在时间上的延迟，使用三角测量方法得到精准的移动物体的经纬度，目前常见的GPS设备可以实现5m以下的精度。
WiFi访问点与它们的准确位置之间的对应关系，可以通过建立特定数据库进行备份和查询。因此，当移动物体连接到某个WiFi访问点时，用户的位置也可以较精确地对应到一个经纬度。
当移动设备位于3个手机基站的信号范围内时，三角测量同样可以获得用户的经纬度，这种方法和方法2都避免了GPS系统无法在建筑物内进行定位的缺点。
移动设备接人互联网时会被分配-个IP地址，IP 地址的分配是和地域有关的，利用已有的IP地址与地区之间的映射关系，可以将移动物体的位置定位到一个城市大小的地域。
目前的很多研究显示，通过传感器捕获的加速度、光学影像等信息，可以用于识别用户的位置信息。

根据不同的隐私保护需求以及不同的实现原理，位置服务的隐私保护技不分为3类:

基于启发式隐私度量的位置服务隐私保护技术。
基于概率推测的位置服务隐私保护技术
基于隐私信息检索的位置服务隐私保护技术。

9.6.2 物联网数据隐私保护方法

物联网的数据隐私保护问题相对于其他领域有独特之处，重点要解决感知层的隐私保护。感知网络-般由传感器网络、射频识别技术、条码和二维码等设备组成，目前研究最多的是射频识别系统和传感器网络中的隐私保护问题。

针对感知层数据的特点，隐私保护方法分为三类：

匿名化方法
加密方法
路由协议方法

9.7 区块链领域中的隐私保护

区块链是由所有节点共同参与维护的分布式数据库系统，具有数据不可更改、不可伪造的特性，也可以将其理解为分布式账簿系统。区块链存储所有交易信息，通过查看区块链上的信息，可以找到每一个账户在历史上任何时刻拥有的价值。

区块链技术的特点包括:去中心化、健壮性、透明性。这些特点一方面给区块链技术带来许多优良的特性，另一方面也给隐私保护带来挑战。

9.7.1 区块链隐私保护需求

区块链应用常见的隐私保护需求包括:

不允许非信任节点获得区块链交易信息。
允许非信任节点获得交易信息，但是不能将交易和用户身份联系起来。
允许非信任节点获得交易信息，并参与验证工作，但是不知道交易细节。

9.7.2 区块链隐私保护技术

在第一种需求中，区块链的验证和维护工作不需要外部节点参与，完全由企业内部可信任的服务器承担相应工作。这种情况下，可以采用访问控制策略对区块链中的节点进行授权控制，没有得到授权的节点无法接人网络，也不能获得通信信息和区块数据，这将从根本上提高隐私保护的效果。

第二种需求的核心是保证交易和用户身份不被关联。最直接的策略是为每一次操作设置一次性的账号，将交易信息分散到不同的账号，增加攻击者的分析难度。此外，可以采用CoinJoin等混币策略降低不同账号之间的关联。CoinJoin 策略支持n个参与方在区块链上合并和分割资产，增加攻击者发现输人账户与输出账户之间对应关系的难度。

第三种需求既要求非信任节点完成交易验证工作，又要确保非信任节点不能获得交易细节。这种情况需要采用复杂的密码学技术，能够支持节点在不看交易原文的情况下完成交易验证工作。例如，基于区块链技术的新型数字货币Zcash采用零知识证明技术实现这种需求。一方面，Zcash 拥有一个公共区块链来展示交易，但它会隐藏区块链交易的发送方、收款方以及交易的价值，只有掌握正确密钥的用户才能查看这些内容。另一方面，采用零知识证明技术满足了区块链中验证交易的需求，而且验证过程不需透露相关信息。

零知识证明是一个非常强大的密码学原语，其定义如下:存在一个私有的输入项I,这个输入项只为证明者所知，另有一些公开的程序P，以及公开的值O,可得P(I)=O,而不需要透露出输入项I的值。

2019-2020-1学期 20192406《网络空间安全专业导论》第八周学习总结

第1章 网络空间安全概述