TWI798867B - Video processing method and associated system on chip - Google Patents
Video processing method and associated system on chip Download PDFInfo
- Publication number
- TWI798867B TWI798867B TW110138102A TW110138102A TWI798867B TW I798867 B TWI798867 B TW I798867B TW 110138102 A TW110138102 A TW 110138102A TW 110138102 A TW110138102 A TW 110138102A TW I798867 B TWI798867 B TW I798867B
- Authority
- TW
- Taiwan
- Prior art keywords
- sound
- image data
- specific area
- circuit
- detection circuit
- Prior art date
Links
- 238000003672 processing method Methods 0.000 title claims description 11
- 238000001514 detection method Methods 0.000 claims abstract description 57
- 238000012545 processing Methods 0.000 claims abstract description 39
- 230000005236 sound signal Effects 0.000 claims abstract description 34
- 238000000034 method Methods 0.000 claims abstract description 17
- 230000008569 process Effects 0.000 claims abstract description 14
- 230000000694 effects Effects 0.000 claims description 20
- 238000010586 diagram Methods 0.000 description 6
- 230000007246 mechanism Effects 0.000 description 5
- 230000000007 visual effect Effects 0.000 description 5
- 238000013461 design Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/14—Systems for two-way working
- H04N7/15—Conference systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/20—Arrangements for obtaining desired frequency or directional characteristics
- H04R1/32—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
- H04R1/40—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
- H04R1/406—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2201/00—Details of transducers, loudspeakers or microphones covered by H04R1/00 but not provided for in any of its subgroups
- H04R2201/40—Details of arrangements for obtaining desired directional characteristic by combining a number of identical transducers covered by H04R1/40 but not provided for in any of its subgroups
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Otolaryngology (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Image Processing (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Image Analysis (AREA)
Abstract
Description
本發明係有關於即時串流的視訊處理方法。 The invention relates to a video processing method for real-time streaming.
即時串流(live streaming)目前被廣泛應用在社會的許多層面,例如可以被應用在遠端視訊會議中。然而,當遠端視訊會議中有其中一方在影像畫面中包含多個參加者時,另一方的參加者有時候可能難以分辨影像畫面中是誰正在說話。具體來說,假設目前有第一方與第二方正在進行遠端視訊會議,其中第一方有多個參加者在實體會議室,並透過麥克風與相機來擷取實體會議室的影音訊息後透過網路傳遞至遠端第二方的參加者,則由於第一方的多個參加者的姿勢與位置問題,可能會讓第二方的參加者無法看到是哪一位正在發言,造成第二方的參加者的困擾並影響到會議的效率。 Live streaming (live streaming) is currently widely used in many aspects of society, for example, it can be applied in remote video conferencing. However, when one of the parties in the remote video conference includes multiple participants in the image frame, sometimes it may be difficult for the other party's participants to distinguish who is speaking in the image frame. Specifically, assume that the first party and the second party are conducting a remote video conference, and the first party has multiple participants in the physical conference room, and captures the video and audio information of the physical conference room through a microphone and a camera If it is transmitted to the remote second-party participants through the network, due to the posture and position of the first-party participants, the second-party participants may not be able to see which one is speaking, resulting in Participants of the second party are disturbed and affect the efficiency of the meeting.
因此,本發明的目的之一在於提出一種應用於遠端視訊的人物追蹤技術,其可以在影像畫面中強調目前正在發言的人物,以解決先前技術中所述的問題。 Therefore, one of the objectives of the present invention is to propose a person tracking technology applied to remote video communication, which can emphasize the person who is currently speaking in the video frame, so as to solve the problems described in the prior art.
在本發明的一實施例中,揭露了一系統晶片,其包含有一人物辨識電路、一聲音偵測電路以及一處理電路。該人物辨識電路用以自一影像擷取裝置即時地取得一影像資料,並對該影像資料進行人物辨識以產生一辨識結果;該聲音偵測電路用以自多個麥克風取得多個聲音訊號,以判斷出一主要聲音的一聲音特徵值;以及該處理電路耦接於該人物辨識電路與該聲音偵測電路,且用以根據該辨識結果以及該出該主要聲音的該聲音特徵值以判斷出該影像資料中的一特定區域,並對該影像資料進行處理以強調該特定區域。 In one embodiment of the present invention, a system chip is disclosed, which includes a person recognition circuit, a sound detection circuit and a processing circuit. The person recognition circuit is used to obtain an image data from an image capture device in real time, and perform person recognition on the image data to generate a recognition result; the sound detection circuit is used to obtain a plurality of sound signals from a plurality of microphones, to determine a sound characteristic value of a main sound; and the processing circuit is coupled to the person identification circuit and the sound detection circuit, and is used for judging according to the recognition result and the sound characteristic value of the main sound A specific area in the image data is extracted, and the image data is processed to emphasize the specific area.
在本發明的一實施例中,揭露了一種視訊處理方法,其包含有以下步驟:自一影像擷取裝置即時地取得一影像資料,並對該影像資料進行人物辨識以產生一辨識結果;自多個麥克風取得多個聲音訊號,以判斷出一主要聲音的一聲音特徵值;根據該辨識結果以及該出該主要聲音的該聲音特徵值以判斷出該影像資料中的一特定區域;以及對該影像資料進行處理以強調該特定區域。 In one embodiment of the present invention, a video processing method is disclosed, which includes the following steps: obtaining an image data from an image capture device in real time, and performing character recognition on the image data to generate a recognition result; A plurality of microphones obtain a plurality of sound signals to determine a sound feature value of a main sound; according to the recognition result and the sound feature value of the main sound, a specific area in the image data is judged; and for The image data is processed to emphasize the specific area.
110:電子裝置 110: Electronic device
120:電子裝置 120: electronic device
200:系統晶片 200: system chip
202:影像擷取裝置 202: image capture device
204_1~204_N:麥克風 204_1~204_N: Microphone
210:人物辨識電路 210: Character identification circuit
220:語音活性偵測電路 220: Voice activity detection circuit
230:聲音方向偵測電路 230: Sound direction detection circuit
240:處理電路 240: Processing circuit
300~314:步驟 300~314: steps
410~450:區域 410~450: area
第1圖為遠端視訊會議的示意圖。 FIG. 1 is a schematic diagram of a remote video conference.
第2圖為根據本發明一實施例之電子裝置的示意圖。 FIG. 2 is a schematic diagram of an electronic device according to an embodiment of the present invention.
第3圖所示之根據本發明一實施例之視訊處理方法的流程圖。 FIG. 3 is a flowchart of a video processing method according to an embodiment of the present invention.
第4圖為人物辨識電路所辨識出之影像畫面中多個人物的示意圖。 FIG. 4 is a schematic diagram of a plurality of people in an image frame recognized by the person recognition circuit.
第5圖為在影像畫面中強調正在發言之人物的示意圖。 FIG. 5 is a schematic diagram of emphasizing a person who is speaking in a video frame.
第1圖為遠端視訊會議的示意圖。如第1圖所示,在第一會議室中具
有電子裝置110,以供即時地拍攝第一會議室的影像,並即時地錄下第一會議室內的聲音後,透過網路傳送至第二會議室,以供第二會議室中的電子裝置120播放出第一會議室的影像與聲音;同時地,第二會議室的電子裝置120也即時地拍攝第二會議室的影像與錄下第二會議室內的聲音,並透過網路傳送至第一會議室,以供第一會議室中的電子裝置110播放出第二會議室的影像與聲音。在本實施例中,電子裝置110與電子裝置120可以是任何具有影像與聲音收發功能以及網路通訊功能的電子裝置,例如電視、筆記型電腦、平板電腦、手機...等等。
FIG. 1 is a schematic diagram of a remote video conference. As shown in Figure 1, there is a
There is an
如先前技術中所述,當遠端視訊會議中有其中一方在影像畫面中包含多個參加者時,另一方的參加者有時候可能難以分辨影像畫面中是誰正在說話。舉例來說,若是第二會議室的參加者並不熟悉第一會議室中參加者的聲音、或是第一會議室正在發言的參加者並未正面對著攝影機、或是其他的影像傳輸因素,則第二會議室中的參加者有時候可能難以透過電子裝置120所播放的聲音與影像,因而造成困擾。因此,本實施例在電子裝置110中的系統晶片設計了一種可以在影像中強調正在發言的參加者的方法,以使得第二會議室中的參加者可以清楚地知道第一會議室是哪一位參加者正在發言,以解決上述問題。
As described in the prior art, when one party in the remote video conference includes multiple participants in the video frame, sometimes it may be difficult for the other party's participants to distinguish who is speaking in the video frame. For example, if the participants in the second meeting room are not familiar with the voices of the participants in the first meeting room, or the participants in the first meeting room are not facing the camera, or other image transmission factors , the participants in the second conference room may sometimes have difficulty passing through the audio and video played by the
第2圖為根據本發明一實施例之電子裝置110的示意圖。如第2圖所示,電子裝置110包含了一系統晶片200、一影像擷取裝置202以及多個麥克風204_1~204_N,其中N為大於一的任意適合的正整數。此外,系統晶片200包含了一人物辨識電路210、一語音活性偵測(voice activity detection)電路220、一聲音偵測電路(在本實施例中係以一聲音方向偵測電路230為例)以及一處理電路240。在本實施例中,影像擷取裝置202可以是一照相機或是攝影機,以即時地持續擷取第一會議室中的影像以產生影像資料至系統晶片200,其中系統晶片
200所接收的影像資料可以是原始影像資料或是已經經過某些影像處理操作後的資料。麥克風204_1~204_N可以是數位麥克風,其設置在電子裝置110的不同位置,以分別產生多個聲音訊號至系統晶片200。需注意的是,在第2圖的實施例中影像擷取裝置202以及麥克風204_1~204_N係設置在電子裝置110內,然而,在其他的實施例中,影像擷取裝置202以及麥克風204_1~204_N可以外接於電子裝置110。
FIG. 2 is a schematic diagram of an
在系統晶片200內,人物辨識電路210係用來對從影像擷取裝置202接收到的影像資料進行人物辨識,以判斷出所接收到的影像資料內是否有人物的存在,並決定出每一個人物的特徵值及每一個人物在畫面的位置/區域。具體來說,人物辨識電路210可以使用深度學習或類神經網路的方式來對該影像資料中的每一個圖框進行處理,例如使用多個不同的卷積核(convolution filter)來對圖框進行多次卷積運算以辨識出圖框中是否有人物;此外,針對所偵測到的人物,透過先前所採用之深度學習或類神經網路的方式來決定出每一個人物的一特徵值(或是,每一個人物所在之區域的特徵值),其中該特徵值可以表示為一個多維度的向量,例如維度為‘512’的向量。需注意的是,上述關於人物辨識的相關電路設計已為本領域具有通常知識者所熟知,再加上本實施例的重點之一在於人物辨識電路210所辨識出之人物及其特徵值的應用,故人物辨識電路210的其他細節在此不贅述。
In the
語音活性偵測電路220係用來接收來自麥克風204_1~204_N的聲音訊號,並判斷這些聲音訊號中是否有語音成分。具體來說,語音活性偵測電路220主要可以執行以下操作:對接收到的聲音訊號進行降噪處理、將聲音訊號轉換為頻域後對一個區塊進行處理以取得特徵值、將所取得的特徵值與一參考值進
行比較以判斷該聲音訊號是否是語音訊號。需注意的是,由於語音活性偵測的相關電路設計已為本領域具有通常知識者所熟知,再加上本實施例的重點之一在於根據語音活性偵測電路220的判斷結果來進行後續的操作,故語音活性偵測電路220的其他細節在此不贅述。此外,在另一實施例中,語音活性偵測電路220可以僅接收來自麥克風204_1~204_N中部分麥克風的聲音訊號,而不需要接收所有麥克風204_1~204_N的聲音訊號。
The voice
關於聲音方向偵測電路230的操作,由於麥克風204_1~204_N設置在電子裝置110上的位置為已知,故聲音方向偵測電路230可以根據來自麥克風204_1~204_N之聲音訊號的時間差(亦即,所接收之聲音訊號的相位差),以判斷出第一會議室中主要聲音的方位角(azimuth),亦即主要發言人物相對於電子裝置110的方向與角度。在本實施例中,聲音方向偵測電路230只會決定出一個方向,亦即若是第一會議室中有多個人物同時在說話,則會根據所接收到之多個聲音訊號的一些特性(例如,訊號強度)來判斷出主要聲音是來自於哪一個方向。需注意的是,由於聲音方向偵測的相關電路設計已為本領域具有通常知識者所熟知,再加上本實施例的重點之一在於根據聲音方向偵測電路230的判斷結果來進行後續的操作,故聲音方向偵測電路230的其他細節在此不贅述。
Regarding the operation of the sound
關於系統晶片200的整體操作,參考第3圖所示之根據本發明一實施例之視訊處理方法的流程圖。在步驟300中,流程開始,電子裝置110上電且完成與第二會議室之電子裝置120的連線。在步驟302,語音活性偵測電路220接收來自麥克風204_1~204_N的聲音訊號,並判斷這些聲音訊號中是否有語音成分,若是,流程進入步驟304;若否,流程停留在步驟302以持續偵測所接收到的聲音訊號是否包含語音成分。在步驟304,處理電路240在得知語音活性偵測電路
220偵測到聲音訊號有語音成分後,致能人物辨識電路210,以使得人物辨識電路210開始對所接收到的影像資料進行人物辨識,以判斷出所接收到的影像資料內是否有人物的存在,並決定出每一個人物的特徵值及每一個人物在畫面的位置/區域。以第4圖為例來進行說明,人物辨識電路210偵測到影像中有5位人物,因此可以決定出每一個人物在畫面中的區域410~450,並決定出區域410~450內之影像內容的特徵值以分別作為每一個人物的特徵值。在步驟306,處理電路240致能聲音方向偵測電路230,且聲音方向偵測電路230開始根據來自麥克風204_1~204_N之聲音訊號的時間差,以判斷出主要聲音相對於電子裝置110的方向與角度。需注意的是,步驟304與步驟306可以同時執行,亦即本實施例之執行不以第3圖所示的順序為限。
Regarding the overall operation of the
在步驟308,處理電路240根據人物辨識電路210所決定出之影像畫面中每一個人物所在的區域(例如,第4圖的區域410~450),再加上聲音方向偵測電路230所偵測到主要發言人物相對於電子裝置110的方向與角度,便可以判斷出影像畫面中的哪一個人物正在說話。在步驟310,在決定出影像畫面中正在發言的人物之後,處理電路240將來自影像擷取裝置202的影像資料進行處理,以在影像資料中強調主要發言人物。具體來說,參考第5圖,假設處理電路240判斷區域440內的人物為主要發言人物,則處理電路240可以對影像資料進行處理,以將區域440內的人物進行放大、或是加上標籤/箭頭、或是其他任何影像處理方法,以強化區域440內之人物之視覺效果。在對影像資料進行處理以強化區域440內之人物之視覺效果之後,處理電路240便將處理後的影像資料傳送至後端電路進行其他的影像處理,再透過網路傳送至位於第二會議室中的電子裝置120,以使得第二會議室的參加者可以清楚地知道目前第一會議室中正在發言的人物。
In
需注意的是,上述對強化區域440內之人物之視覺效果的實施方式並非一定要對整個區域440都進行視覺強化,而可以僅對區域440的一部分進行視覺強化,這樣也可達到相同的效果。以第5圖為例來進行說明,區域440包含了人物的頭部與身體,而處理電路240可以僅將頭部部分進行放大即可。
It should be noted that the above-mentioned embodiment of enhancing the visual effects of the characters in the
在步驟312,處理電路240持續追蹤之前所強調的人物,並持續將來自影像擷取裝置202的影像資料進行處理,以在影像資料中強調該人物。具體來說,人物辨識電路210可以持續所決定出之影像畫面中每一個人物所在的區域及其特徵值,而處理電路240可以根據之前所強調之人物的特徵值來持續在目前及後續的影像畫面中強調該人物。以第5圖的區域440為例,處理電路240可以追蹤後續所接收之影像畫面中特徵值與區域440之特徵值類似的區域/人物(例如,特徵值差異在一範圍內),以持續在後續的影像畫面中強調該人物,即使所強調的該人物在後續影像畫面中有一小段時間並未說話,且聲音方向偵測電路230也未偵測到該人物向有聲音。
In
需注意的是,由於正在發言的人物可能會移動,且可能不會一直持續說話,故步驟312可以避免影像畫面不斷開啟與關閉強化發言人物之視覺效果,而影響到第二會議室之參加者的感受。 It should be noted that since the person who is speaking may move and may not continue to speak, step 312 can avoid the continuous opening and closing of the video screen to enhance the visual effect of the speaking person, which will affect the participants in the second meeting room feelings.
在步驟314,處理電路240根據人物辨識電路210所決定出之影像畫面中每一個人物所在的區域,再加上聲音方向偵測電路230所偵測到主要發言人物相對於電子裝置110的方向與角度,以及語音活性偵測電路220所偵測到是否有人在發言(亦即,所接收到的聲音訊號有語音成分),以判斷發言的人物是否改變,若否,流程回到步驟312以持續追蹤目前發言的人物;若是,流程回到步驟
308以判斷出新的發言人物。具體來說,由於聲音方向偵測電路230僅能偵測聲音的方向性,而無法得知所判斷之方向的聲音是否是人的聲音,因此,透過搭配語音活性偵測電路220的操作,在語音活性偵測電路220偵測到目前聲音訊號中有語音成分的情形下,若是聲音方向偵測電路230所偵測到主要發言人物相對於電子裝置110的方向與角度改變至另一個人物的位置時,處理電路240才可以判斷發言的人物已經改變。需注意的是,為了避免處理電路240不斷地在影像資料中改變所強調的人物,步驟314的執行會需要偵測一段較長的時間才做判斷。
In
在另一實施例中,為了進一步確認發言的人物是否改變,處理電路240可以另外包含一聲紋辨識機制以用來輔助聲音方向偵測電路230的偵測結果。具體來說,由於每一個人的聲音有獨特的語音特性,故處理電路240中的聲紋辨識機制可以透過持續擷取部分聲音片段來判斷是否這些聲音片段的聲音特徵值是屬於同一個人,以供進行發言人物的判斷。舉例來說,若是根據人物辨識電路210、語音活性偵測電路220與聲音方向偵測電路230判斷出發言的人物已經改變,但聲紋辨識機制判斷聲音片段的聲音特徵值是屬於同一個人物,則處理電路240可以暫緩判斷發言的人物是否已經改變,並再偵測一段時間後再做判斷。
In another embodiment, in order to further confirm whether the speaker has changed, the
在之前的實施例中,係以聲音方向偵測電路230來作為該聲音偵測電路來進行說明,然而,本發明並不以此為限。在其他實施例中,可用聲紋辨識機制取代前述實施例的聲音方向偵測電路230,僅根據聲紋辨識結果判斷發言人物,並據以決定所強調的對象。換句話說,本發明的該聲音偵測電路可以自多個麥克風取得多個聲音訊號以判斷出一主要聲音的聲音特徵值,而該聲音特徵值可以是主要聲音的一方位角或是供聲紋辨識機制之聲音片段的聲音特徵值。
In the previous embodiments, the sound
簡要歸納本發明,在本發明之視訊處理方法中,透過偵測目前正在發言的人物並在影像資料中強調該人物,可以讓遠端會議室的參加者清楚知道目前是誰正在發言,故可以有效地增進會議效率。 To briefly summarize the present invention, in the video processing method of the present invention, by detecting the person who is currently speaking and emphasizing the person in the video data, the participants in the remote conference room can clearly know who is currently speaking, so it can Effectively improve meeting efficiency.
以上所述僅為本發明之較佳實施例,凡依本發明申請專利範圍所做之均等變化與修飾,皆應屬本發明之涵蓋範圍。 The above descriptions are only preferred embodiments of the present invention, and all equivalent changes and modifications made according to the scope of the patent application of the present invention shall fall within the scope of the present invention.
110:電子裝置 110: Electronic device
200:系統晶片 200: system chip
202:影像擷取裝置 202: image capture device
204_1~204_N:麥克風 204_1~204_N: Microphone
210:人物辨識電路 210: Character identification circuit
220:語音活性偵測電路 220: Voice activity detection circuit
230:聲音方向偵測電路 230: Sound direction detection circuit
240:處理電路 240: Processing circuit
Claims (9)
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| US17/750,427 US20220415003A1 (en) | 2021-06-27 | 2022-05-23 | Video processing method and associated system on chip |
Applications Claiming Priority (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| US202163215515P | 2021-06-27 | 2021-06-27 | |
| US63/215,515 | 2021-06-27 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| TW202301870A TW202301870A (en) | 2023-01-01 |
| TWI798867B true TWI798867B (en) | 2023-04-11 |
Family
ID=84694694
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| TW110138102A TWI798867B (en) | 2021-06-27 | 2021-10-14 | Video processing method and associated system on chip |
Country Status (2)
| Country | Link |
|---|---|
| CN (1) | CN115529432A (en) |
| TW (1) | TWI798867B (en) |
Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN110505399A (en) * | 2019-08-13 | 2019-11-26 | 聚好看科技股份有限公司 | Control method, device and the acquisition terminal of Image Acquisition |
| CN112532911A (en) * | 2020-11-12 | 2021-03-19 | 深圳市慧为智能科技股份有限公司 | Image data processing method, device, equipment and storage medium |
| CN112866617A (en) * | 2019-11-28 | 2021-05-28 | 中强光电股份有限公司 | Video conference device and video conference method |
Family Cites Families (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| TWI302609B (en) * | 2006-07-11 | 2008-11-01 | Compal Electronics Inc | Method for tracking vocal target |
| TWI471826B (en) * | 2010-01-06 | 2015-02-01 | Fih Hong Kong Ltd | System and method for detecting sounds and sending alert messages |
| CN103679125B (en) * | 2012-09-24 | 2016-12-21 | 致伸科技股份有限公司 | Methods of Face Tracking |
| CN104021785A (en) * | 2014-05-28 | 2014-09-03 | 华南理工大学 | Method of extracting speech of most important guest in meeting |
| CN108900787B (en) * | 2018-06-20 | 2021-06-04 | 广州视源电子科技股份有限公司 | Image display method, apparatus, system and device, and readable storage medium |
| TWM594202U (en) * | 2019-10-21 | 2020-04-21 | 大陸商南京深視光點科技有限公司 | Speaker audio tracking system |
-
2021
- 2021-10-14 TW TW110138102A patent/TWI798867B/en active
- 2021-10-22 CN CN202111231592.4A patent/CN115529432A/en active Pending
Patent Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN110505399A (en) * | 2019-08-13 | 2019-11-26 | 聚好看科技股份有限公司 | Control method, device and the acquisition terminal of Image Acquisition |
| CN112866617A (en) * | 2019-11-28 | 2021-05-28 | 中强光电股份有限公司 | Video conference device and video conference method |
| CN112532911A (en) * | 2020-11-12 | 2021-03-19 | 深圳市慧为智能科技股份有限公司 | Image data processing method, device, equipment and storage medium |
Also Published As
| Publication number | Publication date |
|---|---|
| CN115529432A (en) | 2022-12-27 |
| TW202301870A (en) | 2023-01-01 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US11343446B2 (en) | Systems and methods for implementing personal camera that adapts to its surroundings, both co-located and remote | |
| KR101497168B1 (en) | Techniques for detecting a display device | |
| WO2019140161A1 (en) | Systems and methods for decomposing a video stream into face streams | |
| CN101223786A (en) | Processing method and apparatus with video temporal up-conversion | |
| US11405584B1 (en) | Smart audio muting in a videoconferencing system | |
| EP3005690B1 (en) | Method and system for associating an external device to a video conference session | |
| WO2022062471A1 (en) | Audio data processing method, device and system | |
| CN117997882A (en) | Conference speaker recognition method, device, equipment and storage medium | |
| CN117135305B (en) | Teleconference implementation method, device and system | |
| US20220415003A1 (en) | Video processing method and associated system on chip | |
| TWI798867B (en) | Video processing method and associated system on chip | |
| TWI813153B (en) | Video processing method and associated system on chip | |
| CN111901621A (en) | Interactive live broadcast teaching throttling device and method based on live broadcast content recognition | |
| CN112752059B (en) | Video conference system and video conference method | |
| TWI857325B (en) | Video processing method for performing partial highlighting with aid of hand gesture detection, and associated system on chip | |
| CN113542466A (en) | Audio processing method, electronic device and storage medium | |
| TWI857326B (en) | Video processing method for performing partial highlighting with aid of auxiliary information detection, and associated system on chip | |
| Hung et al. | Towards audio-visual on-line diarization of participants in group meetings | |
| CN117542071A (en) | Video processing method and system for local emphasis using gesture detection | |
| TWI751866B (en) | Audiovisual communication system and control method thereof | |
| CN113301291B (en) | Anti-interference method, system, equipment and storage medium in network video conference | |
| CN117544745A (en) | Video processing method and system chip for local emphasis by aid of auxiliary information | |
| TWI687917B (en) | Voice system and voice detection method | |
| TW202226222A (en) | External intelligent audio noise-reduction device improving the convenience for human voice data collection within a specific angle range and reducing environmental interfaces | |
| TW202301320A (en) | System for motion detection in viewing direction to control corresponding device and method thereof |