Bayes加密算法

Bayes加密算法是探索、處理不確定性知識領(lǐng)域的一種簡潔而有效的方法,以概率理論為基礎(chǔ),其學(xué)習(xí)和推理都由概率規(guī)則實現(xiàn),Bayes加密算法關(guān)鍵在于使用概率表示各種形式的不確定性。

Bayes加密算法的分類

一、樸素Bayes加密算法

樸素 Bayes加密算法可以與決策樹和神經(jīng)網(wǎng)絡(luò)分類算法相媲美,該算法能運用到大型數(shù)據(jù)庫中,且方法簡單、分類準(zhǔn)確率高、速度快。

樸素Bayes加密算法實現(xiàn)方法

設(shè)每個數(shù)據(jù)樣本用一個n維特征向量來描述n個屬性的值,即:X={x1,x2,…,xn},假定有m個類,分別用C1, C2,…,Cm表示。給定一個未知的數(shù)據(jù)樣本X(即沒有類標(biāo)號),若樸素Bayes分類法將未知的樣本X分配給類Ci,則一定是

P(Ci|X)>P(Cj|X) 1≤j≤m,j≠i

樸素Bayes加密算法的局限性

根據(jù)Bayes定理,由于P(X)對于所有類為常數(shù),最大化后驗概率P(Ci|X)可轉(zhuǎn)化為最大化先驗概率P(X|Ci)P(Ci)。如果訓(xùn)練數(shù)據(jù)集有許多屬性和元組,計算P(X|Ci)的開銷可能非常大,為此,通常假設(shè)各屬性的取值互相獨立,這樣先驗概率P(x1|Ci),P(x2|Ci),…,P(xn|Ci)可以從訓(xùn)練數(shù)據(jù)集求得。

根據(jù)此方法,對一個未知類別的樣本X,可以先分別計算出X屬于每一個類別Ci的概率P(X|Ci)P(Ci),然后選擇其中概率最大的類別作為其類別。

樸素Bayes加密算法成立的前提是各屬性之間互相獨立。當(dāng)數(shù)據(jù)集滿足這種獨立性假設(shè)時,分類的準(zhǔn)確度較高,否則可能較低。另外,該算法沒有分類規(guī)則輸出。

二、TAN加密算法

TAN加密算法通過發(fā)現(xiàn)屬性對之間的依賴關(guān)系來降低NB中任意屬性之間獨立的假設(shè)。它是在NB網(wǎng)絡(luò)結(jié)構(gòu)的基礎(chǔ)上增加屬性對之間的關(guān)聯(lián)(邊)來實現(xiàn)的。

TAN加密算法實現(xiàn)方法

用結(jié)點表示屬性,用有向邊表示屬性之間的依賴關(guān)系,把類別屬性作為根結(jié)點,其余所有屬性都作為它的子節(jié)點。通常,用虛線代表NB所需的邊,用實線代表新增的邊。屬性Ai與Aj之間的邊意味著屬性Ai對類別變量C的影響還取決于屬性Aj的取值。

TAN加密算法的局限性

類別變量沒有雙親結(jié)點,每個屬性有一個類別變量雙親結(jié)點和最多另外一個屬性作為其雙親結(jié)點。找到這組關(guān)聯(lián)邊之后,就可以計算一組隨機(jī)變量的聯(lián)合概率分布如下:

其中ΠAi代表的是Ai的雙親結(jié)點。由于在TAN算法中考慮了n個屬性中(n-1)個兩兩屬性之間的關(guān)聯(lián)性,該算法對屬性之間獨立性的假設(shè)有了一定程度的降低,但是屬性之間可能存在更多其它的關(guān)聯(lián)性仍沒有考慮,因此其適用范圍仍然受到限制。

小知識之加密算法:

數(shù)據(jù)加密的基本過程就是對原來為明文的文件或數(shù)據(jù)按某種算法進(jìn)行處理,使其成為不可讀的一段代碼,通常稱為“密文”,使其只能在輸入相應(yīng)的密鑰之后才能顯示出本來內(nèi)容,通過這樣的途徑來達(dá)到保護(hù)數(shù)據(jù)不被非法人竊取、閱讀的目的。