USPTO發布(July 16, 2024發布;July 17, 2024生效)專利適格性審查指南更新版,特別是針對AI相關發明的專利適格性,並提出三個範例(https://www.uspto.gov/sites/default/files/documents/2024-AI-SMEUpdateExamples47-49.pdf)
Example 48: 語音分離
發明關於利用AI方法分析語音訊號,從無關或是背景將語音分離出來,以下列舉專利範圍涉及深度神經網路。
CLAIMS
[Claim 1] A speech separation method comprising:
(a) receiving a mixed speech signal x comprising speech from multiple different sources
s n, where n ∈ {1, . . . N};
(b) converting the mixed speech signal x into a spectrogram in a time-frequency domain
using a short time Fourier transform and obtaining feature representation X, wherein
X corresponds to the spectrogram of the mixed speech signal x and temporal features
extracted from the mixed speech signal x; and
(c) using a deep neural network (DNN) to determine embedding vectors V using the
formula V = fθ(X), where fθ(X) is a global function of the mixed speech signal x.
Claim 1關於一種語音分離方法,方法包括:(a)接收混合語音訊號,其中有多個不同來源的語音訊號;(b)使用短時傅立葉轉換混合語音訊號為時間-頻率域的頻譜中,取得其中特徵;(c)使用深度神經網路判斷其中嵌入向量。
step (a)的解釋(BRI原則)可以涵蓋各種方式取得的語音訊號,如麥克風或各種感測器;step (b)使用傅立葉轉換,將語音訊號轉為time-frequency domain頻譜上,但沒有描述如何取得時間特徵與頻譜;step (c)使用DNN(深度神經網路)並界定一個方程式用以取得嵌入向量,但分析也說沒有描述細節。
TWO-STEP分析:
step 1: YES(判斷是否落於101可專利標的的類別?)
方法屬於35U.S.C.101定義的process。
step 2A, prong one: YES(判斷是否描述法定例外(judicial exception)?)
請求項中step (b)描述使用傅立葉轉換混合語音訊號為time-frequency domain的頻譜,取得特徵,這部分被認為是數學方法,step (c)更描述了數學方程式,使得claim判斷為描述了法定例外的內容,被認為是抽象概念。
step 2A, prong two: NO(判斷請求項之整體是否整合所描述的法定例外為具體應用(practical application),其中評估(1)識別其中超越法定例外的額外元件(additional elements);(2)評估額外元件的個別或組合使否整合法定例外為具體應用?)
判斷claim中step (a)屬於超越法定例外的額外元件之一,另一個額外元件為step (c)中使用DNN判斷嵌入向量的步驟。Claim記載的發明提出解決語音分離的技術,並解決相關技術問題,但是判斷專利範圍並沒有反映出說明書記載的改善方案,而其中記載的DNN技術僅是以一般目的電腦執行的方法,並沒有改善相關技術,因此判定沒有整合法定例外為具體應用。
step 2B: NO(評估專利範圍的整體是否實質超越法定例外,即判斷所述額外元件是否具有進步概念(inventive concept)?)
上述分析中得出claim中具有兩個額外元件,其中step (a)被判定是微不足道的額外解決活動(insignificant extra-solution activity);step (c)的DNN技術在相關領域為已知(well-understood)、常規(routine)與習知(conventional)的技術,因此整體上並沒有實質超越法定例外(數學方法)。
結論:Claim 1不符合專利適格性規定。
[Claim 2] The speech separation method of claim 1 further comprising:
(d) partitioning the embedding vectors V into clusters corresponding to the different
sources s n;
(e) applying binary masks to the clusters to create masked clusters;
(f) synthesizing speech waveforms from the masked clusters, wherein each speech
waveform corresponds to a different source s n;
(g) combining the speech waveforms to generate a mixed speech signal x' by stitching
together the speech waveforms corresponding to the different sources s n, excluding
the speech waveform from a target source s s such that the mixed speech signal x'
includes speech waveforms from the different sources s n and excludes the speech
waveform from the target source s s; and
(h) transmitting the mixed speech signal x' for storage to a remote location.
Claim 2界定一種如Claim 1的語音分離方法,其中更包括:(d)切分內嵌向量為對應多個來源的多個群; (e)套用二進位遮罩,得出遮罩的群;(f)合成語音波形;(g)結合這些語音波形已產生混合語音訊號;(h)傳送混合語音訊號到遠端。
TWO-STEP分析:
step 1: YES
方法屬於35U.S.C.101定義的process。
step 2A, prong one: YES
根據請求項記載,其中運用DNN執行人類心智流程,因此認為請求項描述人類心智活動,為抽象概念。
step 2A, prong two: YES
Claim的step (a)描述資料收集,step (c)描述使用DNN判斷嵌入向量,step (h)描述傳送語音訊號至遠端,屬於微不足道的額外方案。其餘的專利特徵,如step (b)(c)(d)(e)(f)(g)超越抽象概念,特別是step (f)描述合成對應不同來源的語音波形,step (g)描述結合語音波形以產生混和語音訊號但排除了目標來源的語音。如此,判定step (f)(g)整合了抽象概念為具體應用。
整體上,經以上評估,請求項記載之發明改善了現有關於語音分離的電腦技術,並且也整合抽象概念為具體應用。
結論:Claim 2符合專利適格性規定。
[Claim 3] A non-transitory computer-readable storage medium having computer-executable instructions stored thereon, which when executed by one or more processors, cause the one or more processors to perform operations comprising:
(a) receiving a mixed speech signal x comprising speech from multiple different sources s n, where n ∈ {1, . . . N}, at a deep neural network (DNN) trained on source separation;
(b) using the DNN to convert a time-frequency representation of the mixed speech signal x into embeddings in a feature space as a function of the mixed speech signal x;
(c) clustering the embeddings using a k-means clustering algorithm;
(d) applying binary masks to the clusters to obtain masked clusters;
(e) converting the masked clusters into a time domain to obtain N separated speech signals corresponding to the different sources s n; and
(f) extracting spectral features from a target source s d of the N separated speech signals and generating a sequence of words from the spectral features to produce a transcript of the speech signal corresponding to the target source s d.
Claim 3界定一個非暫態電腦可讀取儲存媒體,其中儲存電腦可執行指令,經處理器執行後有以下動作:(a)接收語音訊號;(b)使用DNN轉換混合語音訊號為內嵌向量;(c)使用演算法分群;(d)套用二進位遮罩;(e)轉換遮罩分群為時域的分離語音訊號;(f)取得其中空間特徵,以產生一序列文字。
TWO-STEP分析:
step 1: YES
Claim 3所描述的非暫態電腦可讀取儲存媒體屬於35U.S.C.101規定可專利的"manufacture"類別。
step 2A, prong one: YES
請求項step (a)描述轉換time-frequency的表示方式為嵌入向量,屬於數學方法;step (c)對嵌入向量分群也是數學計算;step (d)應用二進位遮罩取得遮罩的群組,也是數學方法。但是,step (e)轉換遮罩分群為時域以得到不同來源的語音訊號,以及step (f)從空間特徵中產生一序列文字以產生語音訊號的技術,並從目標來源分離取得空間特徵的技術,並非可由人類心智執行,因此,step (e)(f)並非描述法定例外的抽象概念。
但是即便是有步驟評估非抽象概念,但是根據MPEP 2106.04的規定,Claim是否描述抽象概念並非分別評估,因此整體來看,Claim 3還是屬於抽象概念。
step 2A, prong two: NO
經評估,認為claim 3中的step (a)的限制具有高度通用性(high level of generality),使得可解釋為各種取得語音訊號的普通技術;step (b(部分))(c)(d)的描述並沒有加入任何有意義的限制(meaningful limits),僅是微不足道的額外方案活動。
然而,經評估判斷step (b)中使用DNN執行語音分離的技術,屬於超越抽象概念的特徵,但因為其中描述("(b) using the DNN to convert a time-frequency representation of the mixed speech signal x into embeddings in a feature space as a function of the mixed speech signal x;")缺乏細節,並沒有揭露如何產生嵌入向量的步驟,使得其解決方案僅是概念,因此DNN仍是以一般目的電腦執行的數學方法而已。
(補充)審查委員如何判斷僅是實現在電腦的抽象概念的方法:(是否沒有細節、一般電腦僅是一個工具、過於通用性)
再查,本項其餘的特徵,如step (e),轉換遮罩分群為時域上多個分離的語音訊號,以及step (f)取得目標來源的空間特徵,以及其中產生一序列文字的技術,這些步驟已經整合抽象概念為具體應用。使得整體專利範圍反映出改善相關領域的技術,即便有幾個步驟判斷是抽象概念,但整體上實現speech-to-text轉換,具有具體應用,因此step 2A, prong two為YES。
step 2B: NO
結論:Claim 3符合專利適格性規定。
my two cents:
USPTO這些範例的background很詳細地描述這些AI發明的技術內容,對於要學AI寫作的人來說十分有用。以下對各種AI相關發明的申請專利範圍的專利適格性分析也是值得理解與學習,可以作為相關議題答辯的材料。
Ron
沒有留言:
張貼留言