离散化+去重+二分查找

离散化

离散化，把无限空间中有限的个体映射到有限的空间中去，以此提高算法的时空效率。
通俗的说，离散化是在不改变数据相对大小的条件下，对数据进行相应的缩小。例如：
原数据：1,999,100000,15；处理后：1,3,4,2；
原数据：{100,200}，{20,50000}，{1,400}；
处理后：{3,4}，{2,6}，{1,5}；

离散化是程序设计中一个常用的技巧，它可以有效的降低时间复杂度。其基本思想就是在众多可能的情况中，只考虑需要用的值。离散化可以改进一个低效的算法，甚至实现根本不可能实现的算法。要掌握这个思想，必须从大量的题目中理解此方法的特点。例如，在建造线段树空间不够的情况下，可以考虑离散化。

数据的离散化

有些数据本身很大，自身无法作为数组的下标保存对应的属性。如果这时只是需要这堆数据的相对属性，那么可以对其进行离散化处理。当数据只与它们之间的相对大小有关，而与具体是多少无关时，可以进行离散化。
例 1：
91054 与 52143的逆序对个数相同。
例 2：
设有4个数： 1234567、123456789、12345678、123456
排序：123456<1234567<12345678<123456789
=>1<2<3<4
那么这4个数可以表示成：2、4、3、1
例 3：
比如给你n个数：98998988,32434234,433234556,32434234,8384733,……
让你统计其中每个数出现的次数，传统的做法有好几种，比如一遍一遍的扫过去，比对叠加，这样算法的效率是O(n2)，效率低下；
再比如先排序，再统计连续的相同的个数，这里的效率已经有所提高了，不过假如上面的数据是一道线段树的题目给出的数据，那么建树需要的空间开销实在是太大了。
再改进一下，采用哈希的方法，开一个大于其中最大数的数组并初始化为零，O(n)扫一下，在该数字对应的下标的元素上+1，如果对于比较小的数字还好说，但是对于上面出现的数字直接采用哈希对空间的开销是十分大的也是没有必要的，所以这里用到了数据的离散化。
首先将数字排序：32434234，32434234，43324556，8384733，98998988
去重后给予其对应的索引： 0,0,1,2,3 （一一映射）
分别对应每个数，就可以简化很多操作，减少了很多不必要的资源开销。
除了对于较大整数需要使用离散化之外，对于一些需要使用整型数据结构，但给出的数据却是小数的也可以使用离散化，将其索引为整数就可以了。

那么可以总结出离散化的步骤：

1、排序

2、去重

3、索引
为了简化代码，我们采用STL离散化：

离散化+去重+二分查找

离散化

数据的离散化

猜你喜欢