CN103635967B

CN103635967B - 视频再混合系统

Info

Publication number: CN103635967B
Application number: CN201180071774.8A
Authority: CN
Inventors: S·马特; I·D·库尔乔; K·达博维
Original assignee: Nokia Technologies Oy; Nokia Inc
Current assignee: Nokia Technologies Oy
Priority date: 2011-06-21
Filing date: 2011-06-21
Publication date: 2016-11-02
Anticipated expiration: 2031-06-21
Also published as: EP2724343B1; EP2724343A1; WO2012175783A1; US9396757B2; EP2724343A4; US20140133837A1; CN103635967A

Abstract

本发明涉及一种用于创建视频再混合的方法和有关装置，所述方法包括：在处理设备中获得多项来源内容；确定将要包括在视频再混合中的来自所述来源内容的多个片段；确定把所述多个片段转换成适合于视频再混合的形式所需的编辑处理；分配所述编辑处理以便在至少一个处理设备中并行地执行；以及把接收自所述编辑处理的多个片段合并到视频再混合中。

Description

视频再混合系统

背景技术

视频再混合是这样一种应用，其中对多个视频记录进行组合以便获得包含从所述多个视频记录当中选择的一些片段的视频混合。因此，视频再混合是一种基本的人工视频编辑应用，为此已经可以获得多种软件产品和服务。此外，存在自动视频再混合或编辑系统，其使用用户生成的或专业记录的多个事例来自动生成组合来自可用来源内容的内容的再混合。一些自动视频再混合系统仅仅依赖于所记录的内容，而其他自动视频再混合系统则能够利用与视频内容一起记录的环境情境数据。所述情境数据例如可以是接收自罗盘、加速度计或陀螺仪的传感器数据或者GPS位置数据。

视频再混合是在计算方面需求较高的任务，特别当可能被编码到不同的不兼容文件格式中的多个记录被用作来源内容时尤其是这样。由于视频再混合系统的瓶颈，获得所期望的最终视频再混合可能会被大大延迟。因此需要更加高效的视频再混合系统。

发明内容

现在已经发明了一种改进的方法以及实施所述方法的技术装备。本发明的各个方面包括一种方法、一种装置、一种系统和一种计算机程序，其特征在于独立权利要求中所阐述的内容。在从属权利要求中公开了本发明的各个实施例。

根据第一方面，提供一种用于创建视频再混合的方法，所述方法包括：在处理设备中获得多项来源内容；确定将要包括在视频再混合中的来自所述来源内容的多个片段；确定把所述多个片段转换成适合于视频再混合的形式所需的编辑处理；分配所述编辑处理以便在至少一个处理设备中并行地执行；以及把接收自所述编辑处理的多个片段合并到视频再混合中。

根据一个实施例，所述来源内容包括视频、音频和/或图像的至少其中之一，并且所述编辑处理包括以下各项的至少其中之一：

-把至少一项来源内容剪切成多个片段；

-对来源内容的一个片段的至少一部分进行解码；

-对来源内容的一个片段的至少一部分进行编码。

根据一个实施例，所述方法还包括：接收针对创建视频再混合的用户请求，所述用户请求包括针对在一定时间段内创建视频再混合的请求；确定编辑处理的最优分配，从而使得根据所述至少一个处理设备的可用处理能力对编辑处理进行优化并且可以在所述时间段内创建视频再混合；以及根据所述最优分配来分配所述编辑处理，以便在至少一个处理设备中并行地执行。

根据一个实施例，所述方法还包括：获得对应于来源视频的至少一些帧的深度图；基于深度图检测来源视频中的视频镜头的类型和/或遮挡视野的对象；以及根据所检测到的视频镜头的类型和/或所检测到的遮挡视野的对象对来源视频进行索引。

根据一个实施例，所述方法还包括：通过把帧的深度图划分成至少两个无重叠的感兴趣区段来分析该帧的深度图，其中一个感兴趣区段是中心感兴趣区段；以及把每一个感兴趣区段的深度计算为深度的加权平均值，其中所述加权是基于深度图的可靠性数值。

根据一个实施例，所述方法还包括：通过把中心感兴趣区段的深度与其余感兴趣区段的深度进行比较而把包括在来源视频中的视频镜头的类型检测为近景镜头、中景镜头或远景镜头，用于检测视频镜头的类型的标准至少包括具有与中心感兴趣区段的深度基本上类似的深度并且处在离中心感兴趣区段的预定义距离内的感兴趣区段的数目。

根据一个实施例，所述方法还包括：检测来源视频中的遮挡视野的对象，这是基于其深度基本上处于遮挡对象的预期位置的深度处的各个感兴趣区段的平均深度与其余感兴趣区段的平均深度之间的差异而实现的。

根据第二方面，提供一种装置，其包括至少一个处理器、包括计算机程序代码的存储器，所述存储器和计算机程序代码被配置成利用所述至少一个处理器使得所述装置至少施行以下步骤：获得多项来源内容；确定将要包括在视频再混合中的来自所述来源内容的多个片段；确定把所述多个片段转换成适合于视频再混合的形式所需的编辑处理；分配所述编辑处理以便在至少一个处理设备中并行地执行；以及把接收自所述编辑处理的多个片段合并到视频再混合中。

根据第三方面，提供一种具体实现在非瞬时性计算机可读介质上的计算机程序，所述计算机程序包括指令，当在至少一个处理器上执行时，所述指令使得至少一个装置：获得多项来源内容；确定将要包括在视频再混合中的来自所述来源内容的多个片段；确定把所述多个片段转换成适合于视频再混合的形式所需的编辑处理；分配所述编辑处理以便在至少一个处理设备中并行地执行；以及把接收自所述编辑处理的多个片段合并到视频再混合中。

根据第四方面，提供一种系统，其包括至少一个处理器、包括计算机程序代码的存储器，所述存储器和计算机程序代码被配置成利用所述至少一个处理器使得所述系统至少施行以下步骤：获得多项来源内容；确定将要包括在视频再混合中的来自所述来源内容的多个片段；确定把所述多个片段转换成适合于视频再混合的形式所需的编辑处理；分配所述编辑处理以便在至少一个处理设备中并行地执行；以及把接收自所述编辑处理的多个片段合并到视频再混合中。

通过后面的各个实施例的详细公开内容，本发明的前述和其他方面以及与之有关的各个实施例将变得显而易见。

附图说明

下面将参照附图更加详细地描述本发明的各个实施例，其中：

图1a和1b示出了根据一个实施例的适于用在自动视频再混合服务中的系统和设备；

图2示出了对应于自动视频再混合服务的一个实现方式实施例的方块图；

图3示出了根据一个实施例的视频片段的部分再编码方法；

图4示出了根据一个实施例的用于基于时间间隔需求的视频再混合生成的系统；

图5是用于在视频帧的深度图中定位一定数量的无重叠感兴趣区段（ROI）的一个实例；

图6示出了用于根据所记录场景的深度图检测视频镜头的类型的一个实施例的流程图；

图7示出了用于根据所记录场景的深度图检测遮挡视野的对象的一个实施例的流程图。

具体实施方式

众所周知，许多现今的便携式设备（比如移动电话、摄影机、平板电脑）配备有高质量摄影机，其允许捕获高质量视频文件和静止图像。除了前面的能力之外，这样的手持式电子设备现在装配有多个传感器，其可以帮助不同的应用和服务情境化所述设备如何被使用。传感器（情境）数据和这样的数据流可以与视频或图像或者其他记录模式（例如话音）一起被记录。

通常来说，在有许多人出席的事件中，比如现场音乐会、体育活动、社交事件，有许多人会利用其便携式设备来记录静止图像和视频。前面提到的传感器可以甚至自动触发对于令人感兴趣的时刻的图像/视频捕获（如果其被传感器检测到的话）。举例来说，聚会中的响亮语音可以是针对视频捕获的声学触发，或者人们突然转向另一个方向可以是接收自便携式设备的罗盘传感器的针对视频捕获的指向（orientation）触发。空间上接近的各个便携式设备可以协同识别出一个事件，并且至少定位对于该事件具有最佳视野的便携式设备。记录内容的设备可能与其他设备断开但是共享所记录的来源内容和相应的传感器数据，其被一同集中在文件服务器中或者用于生成自动再混合的任何此类适当机制。来自这样的事件的出席者的记录以及可能连同各种传感器信息为本发明及其实施例提供了适当的框架。

图1a和1b示出了根据一个实施例的适用于自动视频再混合服务的系统和设备。在图1a中，不同的设备可以通过例如因特网或局域网之类的固定网络210连接；或者通过移动通信网络220连接，比如全球移动通信系统（GSM）网络、第三代（3G）网络、3.5代（3.5G）网络、第四代（4G）网络、无线局域网（WLAN）、或者其他当代和未来网络。不同的网络借助于通信接口280彼此连接。所述网络包括例如路由器和交换机之类的网络元件以用来处置数据（未示出），以及例如基站230和231之类的通信接口以用于为不同设备提供网络接入，并且基站230、231本身通过固定连接276或无线连接277连接到移动网络220。

可以有一定数目的服务器连接到网络，并且在图1a的实例中示出了分别连接到移动网络220的服务器240、241和242，所述服务器可以被设置成作为用于自动视频再混合服务的计算节点来操作（也就是说形成一个计算节点集群或者所谓的服务器农场）。其中一些前述设备（例如计算机240、241、242）可以使其被设置成利用驻留在固定网络210中的通信元件构成去到因特网的连接。

此外还有一定数目的末端用户设备，比如移动电话和智能电话251、因特网接入设备（因特网平板电脑）250、各种尺寸和形式的个人计算机260、电视和其他观看设备261、视频解码器和播放器262以及视频摄影机263和其他编码器。这些设备250、251、260、261、262和263也可以由多个部件构成。各个设备可以通过通信连接而连接到网络210和220，比如去到因特网的固定连接270、272、272，去到因特网210的无线连接273，去到移动网络220的固定连接275，以及去到移动网络220的无线连接278、279和282。连接271-282是通过处在通信连接的对应末端的通信接口而实施的。

图1b示出了根据一个示例性实施例的用于自动视频再混合的设备。如图1b中所示，服务器240包括存储器245、一个或更多处理器246、247以及驻留在存储器245中的例如用于实施自动视频再混合的计算机程序代码248。不同的服务器241、242、290可以包含至少这些元件以便采用与每一台服务器相关的功能。

类似地，末端用户设备251包含存储器252、至少一个处理器253和256以及驻留在存储器252中的例如用于手势辨识的计算机程序代码254。末端用户设备还可以具有用于捕获图像数据（比如立体视频）的一台或更多台摄影机255和259。末端用户设备还可以包含用于捕获声音的一个、两个或更多麦克风257和258。末端用户设备还可以包含用于利用任何适当技术生成深度信息的传感器。不同的末端用户设备250、260可以包含至少这些相同的元件以便采用与每一个设备相关的功能。在本发明的另一个实施例中，在视频再混合系统中可以利用通过解释来自立体（或多台）摄影机的视频记录而获得的深度图（即关于从场景到由摄影机定义的平面的距离的信息）。末端用户设备还可以具有行程时间（time-of-flight）摄影机，从而可以从行程时间摄影机或者从立体视图（或多视图）深度图与行程时间摄影机的组合获得深度图。末端用户设备可以利用任何可用的适当机制为所捕获的内容生成深度图。

末端用户设备还可以包括用于观看单视图、立体图（2视图）或多视图（多于2个视图）图像的屏幕。末端用户设备还可以例如通过能够接收和/或传送信息的通信块293连接到视频眼镜290。所述眼镜可以包含用于左眼和右眼的单独的眼睛元件291和292。这些眼睛元件可以示出用于观看的画面，或者其可以包括快门功能以便例如通过交替方式阻断每隔一个的画面，从而向眼睛提供三维画面的两个视图，或者其可以包括正交偏振滤波器（相对于彼此），其在连接到实现在屏幕上的类似偏振时向眼睛提供单独的视图。对应于视频眼镜的其他设置也可以被用来提供立体观看能力。立体或多视图屏幕还可以是自动立体的，也就是说屏幕可以包括或者可以覆盖有一个光学元件设置，其导致由每一只眼感知到不同的视图。单视图、立体和多视图屏幕还可以操作性地连接到观看者，从而使得观看者跟踪所显示的视图取决于观看者相对于屏幕的位置、距离和/或注视方向。

需要理解的是，不同的实施例允许在不同元件中实施不同部分。举例来说，可以在一个或更多处理设备中实施自动视频再混合的并行化处理；也就是说完全在例如250、251或260之类的一个用户设备中实施，或者在一个服务器设备240、241、242或290中实施，或者在多个用户设备250、251、260之间实施，或者在多个网络设备240、241、242、290之间实施，或者同时在用户设备250、251、260和网络设备240、241、242、290之间实施。如前所述，自动视频再混合处理的各个元件可以被实施为驻留在一个设备上或者分布在几个设备上的软件组件，从而所述设备构成所谓的“云”。

一个实施例涉及一种用于在自动视频再混合服务（即编辑服务）内施行并行的视频剪切、再编码和视频片段合并的方法。所述服务被实施在至少一个但是优选地是多个计算节点（即计算节点集群或服务器农场）中，其能够并行地执行多于一项处理或线程。为自动视频再混合服务提供一个或更多视频记录以及关于来自视频记录的所期望的片段的适当剪切点的信息。关于片段的适当剪切点的信息可以通过多种方式来提供。可以通过任何适当的方法先验地获得剪切点（比如通过对来源视频进行内容分析或者甚至从人类输入人工获得），并且随后将其与一个或更多视频记录一起提供给视频再混合服务。除此之外，通过直接分析所述一个或更多视频记录或者与之相关联的具体情境信息，视频再混合服务可以利用更多剪切点。视频再混合服务可以在没有任何附加信息的情况下分析视频记录，或者可以通过利用例如与来源视频同时记录的传感器（陀螺仪、加速度计、罗盘或其他传感器）数据之类的情境信息来分析视频记录。下面将更加详细地描述涉及此类分析的实施例。

为了实施对于实际再混合的创建，创建一个所期望片段的列表，并且基于所述列表创建一项工作，其可以包括把来源视频剪切成所期望的片段，在来源视频已被编码的情况下解码至少一个所期望的片段，以及/或者对至少一个所期望的片段进行视频编码从而使其开始于内部编码帧。

根据一个实施例，如果来源视频已利用所期望的视频编码器被编码，则在进行所述剪切和再编码时使得剪切片段不被完全再编码，而是仅有处在所期望的剪切位置与后面的内部编码帧的位置之间的各帧被编码。如果所期望的剪切位置指向一个内部编码帧，则不施行对于该片段的再编码。

根据另一个实施例，如果至少一个所期望的片段将被完全再编码，则可以分配附加的剪切点以便确保最大片段持续时间小于一个预定义阈值。所述附加剪切点可以改进剪切和再编码的并行化。

当定义了必要的一项或更多项工作时，其被发送到实现在计算节点中的工作调度器以供并行地执行。在所有工作都完成之后，还可以例如通过遵循二元树路径并行地施行片段合并，其中在每一个步骤中合并每两个连续的片段，并且这一操作继续到最终视频再混合被创建为止。

现在将参照图2更加详细地说明如前所述的并行视频剪切和视频片段再编码的实现方式，其中公开了对应于自动视频再混合服务的实现方式的一个实例。自动视频再混合服务包括控制单元205，其用于确定所期望的视频再混合以及将要包括在其中的片段。作为用于视频再混合服务的输入数据，提供多个来源视频201、202、203、204（视频1-视频4），其可以（但是不一定需要）例如通过任何已知的视频编码标准来编码，比如MPEG2、MPEG4、H.264/AVC等等。来源视频可以是起源于一个或更多末端用户设备，或者可以是从连接到网络的计算机或服务器加载的。此外，控制单元205可以被配备或设置成确定将要剪切并且随后将合并在最终的视频再混合中的所期望片段的列表。所述片段列表的各个项目可以优选地包含关于来源视频的信息、将要剪切的片段的起始时间或帧号以及以时间或帧数表示的片段持续时间。

从图2中可以看出，来源视频可能在时域内或多或少地重叠。因此，至少对于这些重叠时段，可以为片段列表中的各个项目指派优先级。根据一个实施例，这可以通过按照片段持续时间的降序对所述列表进行排序而实现的。

如果来源视频已经利用所期望的视频编码器被编码，则通过将要剪切的片段的第一帧的帧类型来确定是否需要再编码。如果所期望的剪切位置的第一帧是内部编码帧，则不需要对于所述片段的任何再编码。如果所期望的剪切位置的第一帧是预测帧，则实施剪切和再编码，从而根据仅有处在所期望的剪切位置与后面的内部编码帧的位置之间的各帧被编码的原则，剪切片段仅被部分地再编码。

这方面在图3中示出，其中来源视频至少包括帧300-328，帧300、310、320和326是内部帧，其余帧则是预测帧。在该例中，将要剪切的片段是帧304-322，即开始于预测帧并且第一内部帧是帧310的片段。因此，仅有帧304、306和308被解码并且再编码，从而第一帧304被编码为内部帧。所述片段的其余部分（即帧310-322）被包括在片段中而没有任何修改。

如果来源视频未被编码或者其被编码但是并非利用所期望的视频编码器被编码，则来自所述来源视频的所有所期望的片段都需要被再编码。根据一个实施例，可以在所述片段中分配附加的剪切点，以便确保最大片段持续时间小于一个预定义阈值T_s。阈值T_s可以被设定成使得最小处理时间将等于持续时间为T_s的片段的编码时间。这样通常会导致对应于持续时间T_s的相对较短的时间间隔（例如0.5-1秒）。

根据另一个实施例，可以从对于计算节点的处理能力的最优利用的角度定义对于阈值T_s的数值。我们把可以并行地执行的最大处理数目标示为N_p；相应地，对于具有分别具有Y个CPU的X个计算节点的集群，N_p=X*Y。在这种情况下，T_s被设定成使得片段总数不小于N_p。其持续时间大于T_s的每一个片段被分离成持续时间短于或等于T_s的片段。

根据一个实施例，如果来源视频包含辅助信息，比如优选地与视频同时被记录并且具有同步时间戳的传感器数据，则可以在所估计的场景改变处或其附近引入附加的剪切点，其中基于传感器数据来估计场景改变的存在。举例来说，可以利用情境传感器数据（例如记录设备的陀螺仪、加速度计或罗盘）检测场景改变，并且可以在所估计的场景改变处或其附近引入附加的剪切点。

按照所述优先级/顺序，控制单元205对于每一个片段创建一项工作，其包括以下编辑处理的至少其中之一：把来源视频剪切成所期望的片段，对于所期望的片段的视频解码（只有在来源视频已被编码的情况下），以及/或者对于所期望的片段的视频编码从而使其开始于一个内部编码帧。

控制单元205向工作调度器206发送所获得的各项工作，从而控制在各个计算节点中并行地执行各项工作。工作调度器206分配各自的任务（处理）以便在至少一个处理设备中并行地执行，但是优选地在服务器农场207的几个节点中执行。所述并行执行可以包括任何剪切、解码和再编码的任务。在所有工作都完成之后，还由合并单元208通过遵循二元树路径并行地施行片段合并，其中在每一个步骤中合并每两个连续的片段，这一操作继续到创建了最终的输出视频再混合209为止。控制单元205、工作调度器206和合并单元208可以被实现为在至少一个处理设备中执行的计算机程序代码；其例如在末端用户设备中执行或者在服务器农场的一个或更多计算节点中执行。

在前面描述的自动视频再混合服务中，有益的做法将是为顾客提供用于创建视频再混合的时间估计。此外还将有益的是允许顾客（例如优先顾客）请求在特定时间段内创建视频再混合。根据一个实施例，通过一种利用来源视频和对应于来源视频的情境数据并且基于时间间隔需求（其在下文中被称作TID）生成视频再混合的方法来解决这些需要。

基于TID的视频再混合生成可以包括工作负荷管理器，其接收来自工作调度器的各项工作并且向多个工作器指派视频片段剪切、解码和再编码工作；在本上下文中，工作器可以是服务器机器或计算节点上的CPU或CPU核心。工作负荷管理器使用一种算法来分担工作负荷，从而使得用于再混合生成的总执行时间被最小化，并且优选地处于所需时间间隔内（即执行时间<TID）。

图4示出了用于生成基于时间间隔需求（TID）的视频再混合生成的系统的示例性图示。在该系统中，请求再混合的用户300或者基于用户优选项/简档302的软件代理300可以用信号向工作负荷管理器306通知TID304，工作负荷管理器306向多个工作器指派视频片段剪切和再编码工作。或者，请求再混合的用户或基于用户优选项/简档的软件代理可以分析服务器310（或服务器农场）上的当前工作负荷308以便计算最适当的TID，并且随后用信号向工作负荷管理器通知TID，工作负荷管理器向多个工作器指派视频片段剪切、解码和再编码工作。除了服务器负荷信息之外，用户或软件代理还可以使用另外的输入参数集合来导出对于在不使服务器农场过载的情况下以最小可能延迟生成再混合来说是最优的TID数值。用于确定TID数值的所述另外的输入参数集合可以包括以下各项当中的一项或更多项：

-针对接收视频再混合的快速响应时间的用户优选项。

-用户付费简档信息。其例如是关于用户是服务的付费（premium）顾客还是受用最佳努力免费版本，从而为付费顾客提供更短的TID。

-用户的当前存在状态。例如如果观察到用户的状态是“不活动的”或“请勿打扰”，则用于视频再混合生成的更长TID可能就足够了。

在接收到TID数值之后，工作负荷管理器基于接收自工作调度器的各项工作312分析视频编辑时间线信息和序列信息314。基于视频编辑时间线和序列信息，如果从所获得的各个单独视频片段长度创建所请求的视频再混合316看起来需要比所请求的TID数值更长的执行时间，则可以把各个单独的视频片段进一步划分成更短的片段以便允许更快的并行处理。

关于服务器负荷信息，显而易见的是对于可用于生成视频再混合的服务器或计算节点的每一种配置，对于可以同时且并行地实施的多个视频片段的处理数量将存在限制。基于所述限制数值以及服务器或计算节点上的主导负荷的测量，服务器负荷信息被收集并且被提供到确定目标TID的软件代理。

用来获得视频再混合的总时间（TTVR）将是针对视频编辑时间线/序列的分析时间（TA）（如果其存在的话）与TID的总和。

TTVR=TID+TA

在接收视频再混合生成请求之前可以对于各个单独的来源视频施行来源视频内容和情境分析。此外，对于构成用于生成所述再混合的输入的来源视频分组所需施行的内容和情境分析可以随着向所述分组添加个别的来源视频而递进地施行。这种方法把做出关于时间线的决定所需的数据的生成与将被包括在视频再混合中的视频片段序列的生成分开。因此，TA分量变成TTVR数值的非常小的一部分，从而使得所述服务能够基于先前提到的TID导出参数而具有关于TTVR数值的估计。

在生成视频再混合之后，服务器农场310递送输出视频再混合316，其随后可以通过任何适当方式被递送给末端用户。

在施行来自多个来源视频的自动视频再混合时，有益的将是知晓包括在片段中的视频镜头的类型。在电影摄影中，视频镜头的类型通常被归类为三个类别的其中之一：远景镜头，中景镜头，以及近景镜头。

近景镜头示出场景的相当小的一部分，比如角色的面部，或者从胸部向上描绘人类角色，其细节几乎充满屏幕。在中景镜头中，下方分帧线通常从腰部以下穿过人类角色的身体以便包括整个身体。在中景镜头中，人类角色和周围场景在一帧中占据大致相等的面积。远景镜头示出相当大的主体（例如一个人）的全部或者大部分以及通常还有很多周围环境。这一类别还包括极远景镜头，其中摄影机与主体处于最远距离，从而突出背景。

该信息允许在具有相容视图的视频片段之间进行适当的切换，比如远景镜头与近景镜头之间的切换，并且避免在不相容的视图之间切换，比如两个远景镜头之间的切换。

根据一个实施例，组合各个来源视频以便获得单一视频再混合的自动视频再混合服务可以利用关于视频镜头类型以及来源视频中的遮挡对象的信息来决定对于视频再混合应当从哪些来源视频当中选择片段。相应地，所检测到的视频镜头类型被用来指定将使用各个单独片段中的哪些视频，从而使得满足以下条件：

-从近景镜头到另一个近景镜头或者到中景镜头或远景镜头的视图切换。

-从中景镜头到近景镜头或者到远景镜头的视图切换。

-从远景镜头到中景镜头或者到近景镜头的视图切换。

除了这些规则之外，还有可能使用另外的可能由用户指定的规则来选择所允许的视频镜头类型。举例来说，可以禁止从近景镜头切换到另一个近景镜头。

根据一个实施例，可以通过包括以下步骤的方法获得关于视频镜头类型和遮挡对象的信息：

-基于所记录场景的深度图确定视频镜头的类型（近景镜头、中景镜头或远景镜头）；

-基于所记录场景的深度图检测遮挡视野的对象（即不合期望的并且阻碍所记录视频的视野的对象）；以及

-利用前面提到的所检测到的事件对相应的视频进行索引。

深度图提供2D图像的深度信息，其中2D图像代表实际的3D场景。深度图的标准表示是一个2D阵列，其索引代表空间坐标，并且其范围（元素数值）传达关于深度的信息，即从场景到由捕获设备定义的平面的距离。在这里假设深度可以被解释为绝对距离（例如以米计）。

存在本身已知的几种用于计算或估计深度图的方法。许多方法允许实时地计算深度图，这是对于TV广播所需要的。如前所述，具有数字立体（或多台）摄影机和/或摄录一体机的便携式设备能够施行深度图估计。此外可以利用其他完善的方法来获得深度图，比如通过使用行程时间（超声、红外或激光）摄影机。

根据一个实施例，通过解释立体（或多台）摄影机视频记录来获得深度图。根据另一个实施例，从行程时间摄影机或者从立体（多）视图深度图与行程时间摄影机的组合获得深度图。但是，被用于计算或估计深度图的方法对于这里的实施例是无关的，假设为来源视频提供了来自这些记录的一些或所有视频帧的深度图。

深度图可以具有不同于视频帧的分辨率，并且可以使用线性或非线性量化来对深度数值进行编码。不管该量化如何，假设可以按照从场景到图像/视频/深度采集设备的传感器平面的绝对距离来解释深度数值。我们把深度图的空间坐标标示为x和y，并且把深度信息标示为Z(x,y)。此外，可以可选地提供相应的深度数值的可靠性R(x,y)以作为与深度图具有相同尺寸的2D阵列。此外，可以检测到的最大深度被标示为Z_max。

为了实施对于视频镜头类型和遮挡对象的检测，对相应的视频帧的深度图进行分析。这例如可以通过在视频帧的深度图中定位特定数量的无重叠感兴趣区段（ROI）来施行。图5给出了利用25个矩形ROI的图示。但是ROI的空间形状和尺寸可以是任意的，并且不限于矩形形状。对于这些ROI的选择的唯一要求是应当有一个ROI被选择为中心ROI以及至少一个其他ROI。随后提取出每一个ROI内的深度。用以实现这一点的一种方法是施行加权平均，

Z_{ROI (K)} = \frac{Σ_{x, y &Element; ROI (k)} Z (x, y) W (x, y)}{Σ_{x, y &Element; ROI (k)} W (x, y)}

其中，ROI(k)包含第k个ROI的空间坐标，并且如果可靠性度量R(x,y)可用的话则被用作权重W(x,y)，否则假设权重W(x,y)是1（即对应于深度数值的平均），

图6示出了用于根据所记录场景的深度图检测视频镜头的类型的一种可能的实现方式。作为第一步骤（600），例如通过前面描述的方式获得所有ROI的深度数值。随后检查（602）所有ROI的深度数值是否满足近景镜头的标准。如果大多数ROI（即由所有ROI的特定百分比N_closeup定义）具有落在围绕中心ROI的深度（其应当不同于Z_max）的一定距离范围内的基本上类似的深度，则检测到（604）近景镜头，其中所述距离范围由距离参数D_closeup预先定义。如果所有ROI的深度数值不满足近景镜头的标准，则检查（606）所有ROI的深度数值是否满足中景镜头的标准。相应地，如果不满足对应于近景镜头的标准并且至少N_medium（其是一个预定义阈值，其中N_medium<N_closeup）百分比的ROI具有属于围绕中心ROI的深度（其应当不同于Z_max）的一定距离范围D_medium的深度，则检测到（608）中景镜头。如果不满足对应于近景镜头或中景镜头的标准，则检测到（610）远景镜头。最后，根据所检测到的镜头类型对来源视频进行索引（612）。

图7示出了用于根据所记录场景的深度图检测遮挡视野的对象的一种可能的实现方式。同样作为第一步骤（700），例如按照前面描述的方式获得所有ROI的深度数值。所述实现方式依赖于关于遮挡对象的预期位置的先验知识。举例来说，当在喧闹区域内记录一项事件时，遮挡对象常常是处于摄影机与感兴趣场景之间的人，并且这些人占据屏幕的下方部分。因此，根据关于视频记录的该信息或假设，可以定义遮挡对象的预期位置（702）。接下来检测落在遮挡对象的预期位置内的所有ROI，并且对所检测到的ROI的深度进行平均（704）。按照类似的方式，对其余ROI的深度进行平均（706）。把落在遮挡对象的预期位置内的所有ROI的平均深度与所有其他ROI的平均深度进行比较（708）。如果所述平均深度之间的差异大于一个预定义阈值D_obs，则检测到遮挡对象，并且随后对来源视频进行索引以包括遮挡对象（710）。很自然的是，包含阻碍所记录视频的视野的对象的视频分段不太可能被包括在自动视频再混合中。

根据另一个实施例，检测视频记录中的遮挡视野场景的对象可以是基于视频镜头类型的改变。在该实施例中，检测到视频镜头类型的短暂改变；观察是否存在其持续时间小于预定阈值的视频镜头类型改变。以下情况被视为对象遮挡视野的情况：如果在远景镜头之后出现其持续时间短于所述预定义阈值的近景镜头或中景镜头，或者如果在中景镜头之后出现其持续时间短于所述预定义阈值的近景镜头。前面的情况被视为包括当一个对象短暂地遮挡去到所期望的场景的视野时的情形。举例来说，在摄影机前方经过的人或车辆可以是这样的遮挡对象。

可以对于具有固定或可变长度的视频片段实施所述检测和索引，从而适应视频记录期间的视频镜头类型或遮挡对象外观的改变。可以通过为所检测到的事件指派时间戳（相对于视频记录的开头）并且将该信息作为视频元数据传送来施行对于具有所检测到的视频镜头类型和遮挡对象的视频的索引。

可以在许多其他实施例中利用深度图。根据一个实施例，深度图被用来滤除具有距离超出一个（多个）预定义阈值的对象的任何内容。可以存在应当超出的最小距离或者不应当超出的最大距离。具有大于所述最大距离或者小于所述最小距离的深度的视频片段可以分别被标记为“太远的内容”或“太近的内容”。该标记信息可以被例如多媒体搜索、多媒体加标签、自动再混合等不同应用所利用。

根据另一个实施例，在某项事件处可能存在多个末端用户图像/视频捕获设备。举例来说，这可以基于基本上类似的位置信息（例如来自GPS或任何其他定位系统）或者通过共同音频场景的存在而自动被检测到。随后来自末端用户设备的深度图可以被用来确定事件的类型。举例来说，如果多个末端用户设备的深度图是静态的或者对于所考虑的一个时间窗口在一定阈值内改变，则这可以被用来确定所述事件涉及静态观看区域。具有超出一个预定义阈值的改变的快速改变的深度图可以被用来确定所述事件是其中用户自由移动的事件。被观察为其改变小于一个预定义阈值的深度图可以被用来确定所述事件是其中用户移动受到限制的事件。

根据另一个实施例，来自存在于某项事件处的多个末端用户设备的深度图和指向信息可以被用来确定所述事件处的各个用户的相对位置。如果至少两个用户的指向处于一定阈值内并且其深度图具有表明类似对象边界的模式，则其深度图的差异可以被用来确定其彼此的相对位置以及关于在深度图中观察到的类似对象模式的位置。

可以基于以下事实来检测例如面部之类的感兴趣对象：其在对象边界内将仅仅表现出很小的深度数值改变。可以把所检测到的对象边界中心处的深度与一个预定义阈值进行比较，以便确定所述对象对于使得更广受众感兴趣来说或者作为个人感兴趣的对象来说是否太近或太远。如果在某项事件处的多于一个末端用户设备的一定时间窗口阈值内检测到相同的对象边界模式，并且其中所述末端用户设备处于一个预定义阈值内的指向数值，则可以根据对应于所述对象的中心的深度图中的差异来近似用户之间的距离。

本领域技术人员会认识到，除非明确地或隐含地声明某些实施例仅仅是针对彼此的替换方案，则前面描述的任何实施例都可以被实施为一个或更多其他实施例的组合。

各个实施例可以提供优于现有技术的优点。举例来说，并行地利用计算节点集群或服务器农场的视频再混合生成系统可以减少用以生成视频再混合的时间。视频再混合生成时间不会与视频再混合的持续时间成正比增加。可以基于服务器负荷和/或可用服务器硬件来控制视频再混合生成时间。通过提供可定制（例如基于付费简档）的视频再混合时间估计以及个人化的视频再混合可用性时间估计可以改进用户体验。可以在没有大计算量的视频内容分析的情况下检测视频镜头类型并且检测遮挡对象。取决于ROI的选择，可以降低所述检测的复杂度以便允许在资源受限的便携式设备上实施。通过利用深度信息可以改进从在各种事件处记录的内容当中检测语义信息的可靠性。

可以借助于计算机程序代码来实施本发明的各个实施例，所述计算机程序代码驻留在存储器中并且使得相关装置实施本发明。举例来说，终端设备可以包括用于处置、接收和传送数据的电路和电子装置、存储器中的计算机程序代码以及处理器，当运行计算机程序代码时，处理器使得所述终端设备实施一个实施例的各项特征。此外，网络设备可以包括用于处置、接收和传送数据的电路和电子装置、存储器中的计算机程序代码以及处理器，当运行计算机程序代码时，处理器使得所述网络设备实施一个实施例的各项特征。各种设备可以包括编码器、解码器和转码器，分组化器和去分组化器，以及传送器和接收器。

显而易见的是，本发明不仅限于前面给出的实施例，而是可以在所附权利要求书的范围内对其进行修改。

Claims

1.一种用于创建视频再混合的方法，所述方法包括：

在处理设备中获得多项来源内容；

确定将要包括在所述视频再混合中的来自所述来源内容的多个片段；

确定把所述多个片段转换成适合于所述视频再混合的形式所需的编辑处理；

分配所述编辑处理以便在至少一个处理设备中并行地执行；以及

把接收自所述编辑处理的所述多个片段合并到所述视频再混合中；

其中，所述来源内容包括被剪切成多个片段的来源视频，响应于所述来源视频是利用所期望的编码器被编码并且片段的剪切点位于预测帧处，所述方法还包括：

仅对从所述预测帧到所述片段的下一个内部编码帧之前的预测帧的视频帧进行解码，或者如果在所述片段中没有后续内部编码帧，则仅对从所述预测帧到所述片段的末尾的视频帧进行解码；并且

利用所述期望的编码器对已解码的视频帧进行编码，从而使得位于所述片段的剪切点处的所述预测帧被编码为内部编码帧。

2.根据权利要求1所述的方法，其中，所述来源内容进一步包括音频和/或图像的至少其中之一，并且所述编辑处理包括以下各项的至少其中之一：

-把至少一项来源内容剪切成多个片段；

-对来源内容的片段的至少一部分进行解码；

-对来源内容的片段的至少一部分进行编码。

3.根据权利要求2所述的方法，其中，

响应于来源内容的片段被解码及再编码，所述方法还包括：

为所述片段分配附加剪切点。

4.根据权利要求3所述的方法，所述方法还包括：

为所述片段分配所述附加剪切点，从而使得最大片段持续时间小于预定义阈值，其中所述阈值被设定成其持续时间等于该阈值的片段的编码时间。

5.根据权利要求3所述的方法，所述方法还包括：

为所述片段分配所述附加剪切点，从而使得最大片段持续时间小于预定义阈值，其中根据所述至少一个处理设备的可用处理能力优化所述阈值。

6.根据权利要求3-5当中的任一条所述的方法，其中，

响应于来源内容包括允许估计一项或更多项场景改变的存在的辅助信息，所述方法还包括：

为处在所估计的一项或更多项场景改变处或者附近的所述片段分配所述附加剪切点。

7.根据权利要求6所述的方法，其中，

所述辅助信息包括具有与来源内容同步的时间戳的传感器数据。

8.根据权利要求1-5和7当中的任一条所述的方法，所述方法还包括：

接收针对创建视频再混合的用户请求，所述用户请求包括针对在一定时间段内创建视频再混合的请求；

确定所述编辑处理的最优分配，从而使得根据所述至少一个处理设备的可用处理能力对所述编辑处理进行优化并且可以在所述时间段内创建所述视频再混合；以及

根据所述最优分配来分配所述编辑处理，以便在至少一个处理设备中并行地执行。

9.根据权利要求1-5和7当中的任一条所述的方法，所述方法还包括：

接收针对创建视频再混合的用户请求，所述用户请求包括针对在一定时间段内创建视频再混合的请求，其中所述时间段已由用户设备根据来自所述至少一个处理设备的工作负荷信息确定。

10.根据权利要求8所述的方法，其中，所述用户请求还包括用于确定针对生成所述视频再混合的所述时间段的输入参数集合，所述输入参数集合还包括以下各项当中的一项或更多项：

-针对接收视频再混合的响应时间的用户优选项；

-用户顾客简档信息；

-用户的当前存在状态。

11.根据权利要求9所述的方法，其中，所述用户请求还包括用于确定针对生成所述视频再混合的所述时间段的输入参数集合，所述输入参数集合还包括以下各项当中的一项或更多项：

-针对接收视频再混合的响应时间的用户优选项；

-用户顾客简档信息；

-用户的当前存在状态。

12.根据权利要求1-5、7、10-11当中的任一条所述的方法，所述方法还包括：

获得对于来源视频的至少一些帧的深度图；

基于所述深度图检测所述来源视频中的视频镜头的类型和遮挡视野的对象的至少其中之一；以及

根据所检测到的视频镜头的类型和所检测到的遮挡视野的对象的至少其中之一对所述来源视频进行索引。

13.根据权利要求12所述的方法，所述方法还包括通过以下步骤来分析帧的所述深度图：

把该帧的深度图划分成至少两个无重叠的感兴趣区段，其中一个感兴趣区段是中心感兴趣区段；以及

把每一个感兴趣区段的所述深度计算为所述深度的加权平均值，其中所述加权是基于所述深度图的可靠性数值。

14.根据权利要求13所述的方法，所述方法还包括：

通过把所述中心感兴趣区段的深度与其余感兴趣区段的深度进行比较而把包括在所述来源视频中的所述视频镜头的类型检测为近景镜头、中景镜头或远景镜头，用于检测所述视频镜头的类型的标准至少包括具有与所述中心感兴趣区段的深度基本上类似的深度并且处在离所述中心感兴趣区段预定义距离内的感兴趣区段的数目。

15.根据权利要求13所述的方法，所述方法还包括：

检测所述来源视频中的遮挡所述视野的对象，这是基于其深度基本上处于遮挡对象的预期位置的深度处的各个感兴趣区段的平均深度与其余感兴趣区段的平均深度之间的差异而实现的。

16.根据权利要求13-15当中的任一条所述的方法，所述方法还包括：

通过为所检测到的视频镜头的类型或者所检测到的遮挡视野的对象指派关于所述来源视频的开头的时间戳来施行所述索引；以及

传送与所述索引有关的信息作为对于所述来源视频的元数据。

17.根据权利要求13-15当中的任一条所述的方法，其中，来自存在于某项事件处的多个用户设备的所述深度图和指向信息被用来确定所述事件处的所述用户的相对位置。

18.根据权利要求13-15当中的任一条所述的方法，其中，来自存在于某项事件处的多个用户设备的所述深度图被用来确定所述事件的类型。

19.一种用于创建视频再混合的装置，所述装置包括：

用于在处理设备中获得多项来源内容的构件；

用于确定将要包括在所述视频再混合中的来自所述来源内容的多个片段的构件；

用于确定把所述多个片段转换成适合于所述视频再混合的形式所需的编辑处理的构件；

用于分配所述编辑处理以便在至少一个处理设备中并行地执行的构件；以及

用于把接收自所述编辑处理的所述多个片段合并到所述视频再混合中的构件；

其中，所述来源内容包括被剪切成多个片段的来源视频，响应于所述来源视频是利用所期望的编码器被编码并且片段的剪切点位于预测帧处，所述装置还包括：

用于仅对从所述预测帧到所述片段的下一个内部编码帧之前的预测帧的视频帧进行解码，或者如果在所述片段中没有后续内部编码帧，则仅对从所述预测帧到所述片段的末尾的视频帧进行解码的构件；并且

用于利用所述期望的编码器对已解码的视频帧进行编码，从而使得位于所述片段的剪切点处的所述预测帧被编码为内部编码帧的构件。

20.根据权利要求19所述的装置，其中，所述来源内容进一步包括音频和/或图像的至少其中之一，并且所述编辑处理包括以下各项的至少其中之一：

-把至少一项来源内容剪切成多个片段；

-对来源内容的片段的至少一部分进行解码；

-对来源内容的片段的至少一部分进行编码。

21.根据权利要求20所述的装置，其中，

响应于来源内容的片段被解码及再编码，所述装置还包括：

用于为所述片段分配附加剪切点的构件。

22.根据权利要求21所述的装置，所述装置还包括：

用于为所述片段分配所述附加剪切点，从而使得最大片段持续时间小于预定义阈值的构件，其中所述阈值被设定成其持续时间等于该阈值的片段的编码时间。

23.根据权利要求21所述的装置，所述装置还包括：

用于为所述片段分配所述附加剪切点，从而使得最大片段持续时间小于预定义阈值的构件，其中根据所述至少一个处理设备的可用处理能力优化所述阈值。

24.根据权利要求21-23当中的任一条所述的装置，其中，

响应于来源内容包括允许估计一项或更多项场景改变的存在的辅助信息，所述装置还包括：

用于为处在所估计的一项或更多项场景改变处或者附近的所述片段分配所述附加剪切点的构件。

25.根据权利要求24所述的装置，其中，

26.根据权利要求19-23和25当中的任一条所述的装置，所述装置还包括：

用于接收针对创建视频再混合的用户请求的构件，所述用户请求包括针对在一定时间段内创建视频再混合的请求；

用于确定所述编辑处理的最优分配，从而使得根据所述至少一个处理设备的可用处理能力对所述编辑处理进行优化并且可以在所述时间段内创建所述视频再混合的构件；以及

用于根据所述最优分配来分配所述编辑处理，以便在至少一个处理设备中并行地执行的构件。

27.根据权利要求19-23和25当中的任一条所述的装置，所述装置还包括：

用于接收针对创建视频再混合的用户请求的构件，所述用户请求包括针对在一定时间段内创建视频再混合的请求，其中所述时间段已由用户设备根据来自所述至少一个处理设备的工作负荷信息确定。

28.根据权利要求26所述的装置，其中，所述用户请求还包括用于确定针对生成所述视频再混合的所述时间段的输入参数集合，所述输入参数集合还包括以下各项当中的一项或更多项：

-针对接收视频再混合的响应时间的用户优选项；

-用户顾客简档信息；

-用户的当前存在状态。

29.根据权利要求27所述的装置，其中，所述用户请求还包括用于确定针对生成所述视频再混合的所述时间段的输入参数集合，所述输入参数集合还包括以下各项当中的一项或更多项：

-针对接收视频再混合的响应时间的用户优选项；

-用户顾客简档信息；

-用户的当前存在状态。

30.根据权利要求19-23、25、28-29当中的任一条所述的装置，所述装置还包括：

用于获得对于来源视频的至少一些帧的深度图的构件；

用于基于所述深度图检测所述来源视频中的视频镜头的类型和遮挡视野的对象的至少其中之一的构件；以及

用于根据所检测到的视频镜头的类型和所检测到的遮挡视野的对象的至少其中之一对所述来源视频进行索引的构件。

31.根据权利要求30所述的装置，所述装置还包括以下构件来分析帧的所述深度图：

用于把该帧的深度图划分成至少两个无重叠的感兴趣区段的构件，其中一个感兴趣区段是中心感兴趣区段；以及

用于把每一个感兴趣区段的所述深度计算为所述深度的加权平均值的构件，其中所述加权是基于所述深度图的可靠性数值。

32.根据权利要求31所述的装置，所述装置还包括：

用于通过把所述中心感兴趣区段的深度与其余感兴趣区段的深度进行比较而把包括在所述来源视频中的所述视频镜头的类型检测为近景镜头、中景镜头或远景镜头的构件，用于检测所述视频镜头的类型的标准至少包括具有与所述中心感兴趣区段的深度基本上类似的深度并且处在离所述中心感兴趣区段预定义距离内的感兴趣区段的数目。

33.根据权利要求31所述的装置，所述装置还包括：

用于检测所述来源视频中的遮挡所述视野的对象的构件，这是基于其深度基本上处于遮挡对象的预期位置的深度处的各个感兴趣区段的平均深度与其余感兴趣区段的平均深度之间的差异而实现的。

34.根据权利要求31-33当中的任一条所述的装置，所述装置还包括：

用于通过为所检测到的视频镜头的类型或者所检测到的遮挡视野的对象指派关于所述来源视频的开头的时间戳来施行所述索引的构件；以及

用于传送与所述索引有关的信息作为对于所述来源视频的元数据的构件。

35.根据权利要求31-33当中的任一条所述的装置，其中，来自存在于某项事件处的多个用户设备的所述深度图和指向信息被用来确定所述事件处的所述用户的相对位置。

36.根据权利要求31-33当中的任一条所述的装置，其中，来自存在于某项事件处的多个用户设备的所述深度图被用来确定所述事件的类型。