閱讀以下說明和流程圖,填補流程圖中的空缺(1)~(5),將解答填入答題紙的對應欄內。
【說明】
指定網頁中,某個關鍵詞出現的次數除以該網頁長度稱為該關鍵詞在此網頁中的詞頻。對新聞類網頁,存在一組公共的關鍵詞。因此,每個新聞網頁都存在一組詞頻,稱為該新聞網頁的特征向量。
設兩個新聞網頁的特征向量分別為:甲(a1,a2,…,ak)、乙(b1,b2,…,bk),則計算這兩個網頁的相似度時需要先計算它們的內積S=a1b1+a2b2+…+akbk。一般情況下,新聞網頁特征向量的維數是巨大的,但每個特征向量中非零元素卻并不多。為了節(jié)省存儲空間和計算時間,我們依次用特征向量中非零元素的序號及相應的詞頻值來簡化特征向量。為此,我們用(NA(i),A(i)|i=1,2,…,m)和(NB(j),B(j)|j=1,2,…,n)來簡化兩個網頁的特征向量。其中:NA(i)從前到后描述了特征向量甲中非零元素A(i)的序號(NB(1)<NA(2)<…),NB(j)從前到后描述了特征向量乙中非零元素B(j)的序號(NB(1)<NB(2)<…)。
下面的流程圖描述了計算這兩個將征向量內積S的過程。