2022年6月7日 星期二

利用神經網路執行深度學習的技術的專利適格性 - Ex parte Hannun (PTAB Apr. 1, 2019)

USPTO指定「Informative」案例 - Ex parte Hannun,其中討論「電腦實現的方法」,特別是採用了神經網路訓練模型的技術,是否符合可專利性專利適格性(判斷是否為可被專利保護的標的,clarified, updated on Aug. 3, 2023)規定(35 U.S.C. § 101)的議題。

Ex parte Hannun案件資訊:
系爭案申請號:14/735,002
PTAB訴願案:2018-003323

本案起源是系爭案在USPTO審查時,審查委員判定其中claims 11–20不具專利適格性(patent eligibility,35 U.S.C. § 101,因為判定發明為數學方法),另還有引用前案(Sompolinsky and Talwar)判定不具非顯而易見性(35 U.S.C. § 103),申請人提起訴願。本篇針對101議題報導。

Claim 11:
11. A computer-implemented method for transcribing speech comprising:
receiving an input audio from a user;
normalizing the input audio to make a total power of the input audio consistent with a set of training samples used to train a trained neural network model;
generating a jitter set of audio files from the normalized input audio by translating the normalized input audio by one or more time values;
for each audio file from the jitter set of audio files, which includes the normalized input audio:
generating a set of spectrogram frames for each audio file;
inputting the audio file along with a context of spectrogram frames into a trained neural network;
obtaining predicted character probabilities outputs from the trained neural network; and
decoding a transcription of the input audio using the predicted character probabilities outputs from the trained neural network constrained by a language model that interprets a string of characters from the predicted character probabilities outputs as a word or words.

系爭案Claim 11涉及電腦實施轉譯口語為文字的方法,方法包括接收輸入音訊、歸一化音訊以與訓練樣本一致、產生音訊中變動、產生音訊光譜圖、隨著光譜圖輸入音訊檔至訓練神經網路、從神經網路中取得預測字元機率、解碼音訊,最後輸出文字串。

以下為申請人自述本發明:

(編按,其中的危險是,申請人表示系爭案發明使用了深度學習法,包括使用一些模型,以及採用神經網路訓練的技術等,這類技術容易被判定僅是數學方法而不具專利適格性/可專利性。但是,在本案例中帶來了轉機。)

判斷所述請求項是否符合專利適格性,其中依據基於MayoAlice建立的TWO-STEP適格性判斷步驟,其中依照的指引就是USPTO於2019年公告的101議題審查指導方針(可參考:USPTO的2019開年禮之一 - 適格性指導方針(https://enpan.blogspot.com/2019/01/uspto2019.html)。

step one是申請專利範圍界定的發明是否關於抽象概念?例如是組織人類活動、基本經濟活動、數學方法、心智活動等,PTAB判決中列舉許多前例,包括可以專利的,以及不可專利的,甚至也引述最高法院指出,並非僅因為使用了數學方程式就判斷不具專利適格性:


當判定發明為抽象概念,即進入step two,檢查專利範圍中是否包括有進步概念(inventive concept)而足以轉換抽象概念為可專利的發明("sufficient to transform the claimed abstract idea into a patent-eligible application"),何謂"inventive concept"?就是專利範圍中具有"額外特徵(additional features)"而超越了抽象概念,不致讓專利範圍僅保護抽象概念。舉例來說,僅使用一般目的電腦的發明不能轉換抽象概念為可專利的發明,還需要"additional features"。

系爭案在USPTO審查階段,審查委員判定系爭案專利範圍中歸一化音訊、產生光譜圖,以及使用數學方法轉換音訊為文字資料,包括其中涉及預測機率的技術僅是數學演算法,因此不符35USC101可專利的規定。

案件進入PTAB訴願階段,PTAB依據USPTO的2019做出的適格性指導方針(https://enpan.blogspot.com/2019/01/uspto2019.html)判斷系爭案申請專利範圍中是否包括:

(1)法定不予專利的例外,如數學概念、組織人類活動、基本經濟活動或是人類心智活動等; 
(2)有任何額外元件(additional element)可以整合法定不予專利例外為實用的應用(practical application)
(3)在專利範圍中是否有加入普遍知悉、常規與習知(well-understood, routine, conventional)的特定限制;
(4)是否僅在法定不予專利例外的專利範圍中附加發明相關領域普遍知悉、常規或習知的活動。

不同於USPTO審查委員判定系爭案發明僅是組織人類動或是心智活動的決定,PTAB委員認為,雖然將語音轉為文字是人類可以執行的,但系爭案發明(如claim 11)中的各步驟(歸一化、產生音訊的變動、產生光譜圖、得到預測字元機率(predicted character probability),最終進行轉換等)並非是可以由人執行,也沒有看到組織人類活動、基本經濟原則、商業活動、或個人行為的內容。

系爭案發明步驟最終得到預測字元機率,或許這是利用了數學演算法(USPTO審查委員參考說明書記載得出),但卻沒有描述在專利範圍中,並且即便專利範圍中有些限制是基於數學概念,但並沒有寫在專利範圍中。也就是說,PTAB委員基於專利範圍並沒有直接引述數學方程式,不認為系爭案發明涉及抽象概念。

更者,即便專利範圍引用了數學方程式,根據step 2A,因為系爭案發明整合法定不予專利例外為實用的應用(practical application),也就表示專利範圍包括了特定特徵可以實現改善技術的解決方案,如其中的深度口語學習法(神經網路)配合語言模型實現轉譯口語為文字的方法。PTAB因此認為系爭案發明並非涉及抽象概念

其中特別的是,系爭案說明書記載的內容,在USPTO階段是拿來作為不符35U.S.C.101的核駁依據,但在PTAB卻是用來證明系爭案發明提供了相關技術領域的改善方案,使得語音辨識與文字化更為簡單。


即便上述判斷系爭案發明並非抽象概念,PTAB還是可續檢查專利範圍,判定其中包括額外元件而能超越法定不予專利的例外(step 2B)。

my two cents:
我個人常接觸人工智慧相關演算法或是解決方案的專利,常常為了描述其中訓練過程與演算法而去研究前案或是Googling,或是找案例來看,因為當發明採用了基於類神經網路的學習演算法時,會可能有不明確的問題,甚至是因為是僅使用一般目的電腦執行的數學方法而被判定不具可專利性專利適格性的疑慮,當然,寫說明書會盡量讓它"超越"純數學的疑慮。

本篇給了「智能演算法、神經網路、深度學習等」很正面的判決範例,就如本案申請人所主張的:一般目的電腦並非是經過訓練的神經網路,經過訓練的神經網路(本案是要從音訊中的變動資訊取得光譜圖...)是更超越一般目的電腦的技術。

"A generic computer is not a trained neural network; but even more, a generic computer is not the claimed trained neural network that has been specially designed and trained to receive sets of context of spectrogram frames from a jitter set of audio files, which includes a normalized input audio file obtained from an input audio, to predict character probabilities from the input audio, which are finally selected by being constrained by a language model that interprets a string of characters from the predicted character probabilities outputs as a word or words."


Ron

沒有留言: