Skip to the content.

leetcode [295] 数据流的中位数


Contact me:

Blog -> https://cugtyt.github.io/blog/index
Email -> cugtyt@qq.com
GitHub -> Cugtyt@GitHub


中位数是有序列表中间的数。如果列表长度是偶数,中位数则是中间两个数的平均值。

例如,

[2,3,4] 的中位数是 3

[2,3] 的中位数是 (2 + 3) / 2 = 2.5

设计一个支持以下两种操作的数据结构:

void addNum(int num) - 从数据流中添加一个整数到数据结构中。
double findMedian() - 返回目前所有元素的中位数。

示例:

addNum(1)
addNum(2)
findMedian() -> 1.5
addNum(3) 
findMedian() -> 2

进阶:

如果数据流中所有整数都在 0 到 100 范围内,你将如何优化你的算法?
如果数据流中 99% 的整数都在 0 到 100 范围内,你将如何优化你的算法?

来自题解:

排序当然可以,但是如果要优化时间复杂度的话,可以考虑堆。堆的插入可以做到对数。这里维护两个堆,两个堆的容纳量差不超过1,一个最大堆存中位数左边的,一个最小堆存中位数右边的。计算的时候,只需要考虑两个堆的顶点即可。注意插入代码的细节。

import heapq
class MedianFinder:

    def __init__(self):
        self.left = [] # 最大堆,小于中位数
        self.right = [] # 最小堆,大于中位数

    def addNum(self, num: int) -> None:
        # 先插入左边堆,我们的目标是 右边堆数量>= 左边堆数量
        heapq.heappush(self.left, -num)
        # 如果说右边为空,或者插入左边后出现大小问题,或者数量有偏差,那么弹出左边堆的最大值,插入右边堆
        if not self.right or -self.left[0] > self.right[0] or len(self.left) > len(self.right):
            tmp = heapq.heappop(self.left)
            heapq.heappush(self.right, -tmp)
        # 注意,如果插入的数据一直递增,导致右侧堆偏斜,因此需要检查右侧堆是否太大
        if len(self.right) - len(self.left) > 1:
            tmp = heapq.heappop(self.right)
            heapq.heappush(self.left, -tmp)

    def findMedian(self) -> float:
        leng = len(self.left) + len(self.right)
        if leng == 0: return 0
        if leng % 2 != 0:
            return self.right[0]
        else:
            return (self.right[0] - self.left[0]) / 2