2017年5月19日 星期五

打擊低品質網頁 - 產品與專利

看到幾則新聞,頗有興趣,因為確實發現有人利用這裡enpan的文章(也加上許多別人原創的內容)放在自己的網頁上,成為賺瀏覽率(並未經過本人同意的)的手段,這樣可以賺到點擊廣告的費用。這類網頁雖可能會記載出處或是原創作者(他可能也怕抄襲的法律行為),但是一看就知道是個隨意拿人家內容的「內容農場」,這類內容更新貼出站主自己也不知道的內容,或有大量連結的文章標題,為得是被搜尋引擎找到後賺取瀏覽率、廣告點擊率,甚至還能藉由「打賞」賺錢。

其實,搜尋的人看到這類網頁應該也會很氣,因為都是廣告,或是看到不舒服的隨意排版,更多是假新聞、惡意內容等。

新聞連結如下:
CNET新聞:https://www.cnet.com/news/facebook-takes-on-trashy-ads-and-low-quality-web-page-experiences/
聯合報電子新聞:https://udn.com/news/story/7088/2455860?from=udn_ch2cate7226sub7088_pulldownmenu

--(如果我現在內容結束,這篇也可能被認定是「低品質網頁」)--

所以,基於「專利專業網站」的責任,提供相關專利資訊,從Google, Yahoo, Facebook等搜尋引擎巨頭的專利中,確實有判斷低品質網頁/網站的技術產出,對於搜尋引擎而言,手段之一可以排除這類低品質網站,或是將其搜尋排行降低,或是提示使用者這個網頁的品質指標。

我用"low quality web", "content farm", "link farm"來找專利,列舉以下幾件。

專利一:
根據Google的專利US8775924(Processing web pages based on content quality)描述,所要打擊的低品質網站為「parked web page, a content farm web page, or a link farm web page」,翻成中文是「停放內容的網頁、內容農場網頁,或是連結農場網頁」,這些網頁的特色是,沒有自己的"創作成份"。

內容定義了這些低品質網頁,低品質網頁的特色是文字內容,以及很多的廣告連結,所述「parked web pages」通常是以新的網際網路域名呈現,其中沒有內容,僅用於駐留網頁網際網路位址;「content farm」為收集各式各樣文字內容的網頁,文字是搜尋引擎主要搜尋的對象,因此這類網頁排版很差,就是一大堆文字;以及「link farm」顧名思義,就是存在很多網頁連結的網頁。

這是一件關於根據網頁內容品質的網頁處理方法,從專利流程可知,當使用者搜尋網頁時,搜尋引擎即判斷相關網頁的內容品質是否是「停放內容、內容農場,或是連結農場」,搜尋引擎回應給使用者的內容是通過「圖示元件」提示使用者選擇,或是提供其他相關的替代網頁。


Claim 1如下,一種電腦實現的根據內容品質的網頁處理方法,步驟以搜尋引擎為主詞,包括接收到使用者搜尋請求、判斷連結的網頁的內容品質是否屬於停放內容、內容農場或連結農場,之後給予圖示選項或是替代網頁,當中判斷內容品質的步驟是,查詢資料庫中的網頁對應內容品質值,比對門檻值判斷網頁品質的等級,如果網頁沒有記載在資料庫中,就重新判斷品質,並更新資料庫。
1. A computer-implemented method of processing web pages based on content quality, the method comprising:
receiving, by one or more devices, a request for a web page;
determining, by the one or more devices, the content quality of the requested web page, wherein the content quality of the requested web page is based on whether the requested web page is at least one of a parked web page, a content farm web page, or a link farm web page;
providing, by the one or more devices, for display, based on the content quality of the requested web page, a graphical component providing an option to proceed to the requested web page or to proceed to at least one alternate web page relevant to the request for the web page;
receiving, by the one or more devices, an indication of a selection of an option from the graphical component to proceed to the requested web page or to proceed to the at least one alternate web page; and
providing, by the one or more devices, based on the received indication, the requested web page or the at least one alternate web page,
wherein the determining the content quality comprises:
accessing a database storing references to web pages together with respective content quality values for the web pages;
locating a reference for the requested web page within the database to obtain the respective content quality value; and
comparing the content quality value to a threshold value, to determine the content quality of the requested web page;
if a reference for the requested web page is not within the database:
determining a content quality value of the requested web page based on content provided within the requested web page;
assigning, to the requested web page, the determined content quality value;
comparing the determined content quality value of the requested web page to the threshold value, to determine the content quality of the requested web page; and
updating the database to reference the requested web page and the determined content quality value.
專利二:
YahooUS7809705關於根據各種資訊推斷而判斷網頁品質的方法,就是搜尋引擎會提示使用者每個網頁的等級。


Claim 1界定一個網頁分類的電腦系統,系統包括處理器,請求項內容包括以此處理器執行的指令有:分類引擎,用以判斷網頁品質,每個網頁的種子有文字、連結、域名、時間等資訊,這些資訊成為評估網頁品質的依據。
1. A computer system for classifying a web page, comprising:
one or more processors to execute instructions;
a classification engine for determining a quality of the web page using local features of a seed set of web pages and global web graph information about the seed set of web pages, wherein:
each web page of the seed set of web pages is a web page of a known quality, the local features of the seed set of web pages comprises text, clicking, domain, or time stamp information concerning the seed set of web pages, and
the global web graph information about the seed set of web pages comprises hyperlink or co-citation relationships among the seed set of web pages;
a binary classifier coupled to the classification engine for performing binary classification to provide a binary score for the web page; and
a collective inference engine coupled to the binary classifier for performing collective inference by applying collective inference for binary classification using the local features of the seed set of web pages and the global web graph information about the seed set of web pages, comprising finding a minimum value of a regularized convex dual of a logistic regression loss function for a node of a graph.
其中使用了幾個演算程序來依據資訊判斷網頁品質:


專利三:
MicrosoftUS7853589關於基於網頁搜尋的特徵來分類垃圾網頁(spam page)的方法,其中很重要的是可以依據擷取的特徵反覆學習,以準確找到垃圾網頁,也就是辨識垃圾網頁的能力會持續增加,如果被識別為垃圾網頁的,將會被「降級」或是移除搜尋排行。


Claim 1界定處理網頁內容的方法,先是取得一個搜尋結果,以此產生特徵向量(feature vector),比較得到的特徵向量與網頁資訊,從比較結果辨別出網頁的排行,並以此分類,之後,透過偵測相同搜尋排行特徵的分佈圖形來分類出垃圾網頁,以此更新排行。

其中,系統提供多種網頁範本,每個範本有其屬性與特徵,經過反覆比對,可以根據特徵向量的反覆測試訓練出更好的分類,當接收到搜尋的特徵向量,藉由比對特徵向量與網頁排行來判斷出排行中的網頁是否有在一分佈中的特徵向量,並從排行網頁中辨識出垃圾網頁。

1. A method of processing web pages implemented by a computer with a processor, comprising:
receiving with the processor a search query including at least one term;
generating a query-dependent feature vector of features from the search query;
comparing with a search engine implemented by the processor the query-dependent feature vector to information corresponding to a plurality of web pages to obtain a query-dependent ranking feature vector of query-dependent ranking features indicative of the comparison;
identifying, with a ranking module, a ranked list of web pages relevant to the search query based on the ranking feature vector obtained from the comparison of the query-dependent feature vector to information corresponding to the plurality of web pages;
after identifying the ranked list of web pages, providing the query-dependent feature vector and the ranking feature vector to a classifier and classifying, with the classifier that is separate from the search engine and the ranking module, web spam pages from the ranked list of web pages as a function of the query-dependent feature vector and the ranking feature vector, wherein web pages from ranked list of web pages are classified as web spam pages by detecting distribution patterns of some of the same query-dependent ranking features previously used to identify the web pages in the ranked list as relevant to the search query;
updating the ranked list of web pages based on the identified web spam pages and the plurality of web pages as a function of the search query; and
providing the ranked list of web pages to a user.

my two cents:
從專利內容可以知道這些搜尋引擎如何判斷何謂「低品質網頁」的內容農場。這些專利也是很典型的軟體專利,順便可以學學軟體專利的寫法。

打擊低品質網站當然是搜尋引擎的責任,提出這些專利,或是私下運行調整排行,應該都能幫助大家在資訊滿天飛的時代找到需要的內容。

補充一下,有些網站使用這裡的內容是經過我同意的,應該可以簡單判斷得出來。

相關好文推薦:
https://buzzorange.com/techorange/2017/05/12/content-farmer/

Ron

沒有留言: