LDA主題模型涉及到貝葉斯理論、Dirichlet分布、多項(xiàng)分布、圖模型、變分推斷、EM算法、Gibbs抽樣等知識(shí),不是很好懂,LDA那篇30頁(yè)的文章我看了四、五遍才基本弄明白是咋回事。那篇文章其實(shí)有點(diǎn)老了,但是很經(jīng)典,從它衍生出來(lái)的文章現(xiàn)在已經(jīng)有n多n多了。主題模型其實(shí)也不只是LDA了,LDA之前也有主題模型,它是之前的一個(gè)突破,它之后也有很多對(duì)它進(jìn)行改進(jìn)的主題模型。需要注意的是,LDA也是有名的LinearDiscriminant Analysis(線性判別分析)的縮寫。
LDA是一種非監(jiān)督機(jī)器學(xué)習(xí)技術(shù),可以用來(lái)識(shí)別大規(guī)模文檔集(documentcollection)或語(yǔ)料庫(kù)(corpus)中潛藏的主題信息。它采用了詞袋(bag ofwords)的方法,這種方法將每一篇文檔視為一個(gè)詞頻向量,從而將文本信息轉(zhuǎn)化為了易于建模的數(shù)字信息。但是詞袋方法沒(méi)有考慮詞與詞之間的順序,這簡(jiǎn)化了問(wèn)題的復(fù)雜性,同時(shí)也為模型的改進(jìn)提供了契機(jī)http://www.p9k.com。仿真模型每一篇文檔代表了一些主題所構(gòu)成的一個(gè)概率分布,而每一個(gè)主題又代表了很多單詞所構(gòu)成的一個(gè)概率分布。由于Dirichlet分布隨機(jī)向量各分量間的弱相關(guān)性(之所以還有點(diǎn)“相關(guān)”,是因?yàn)楦鞣至恐捅仨殲?),使得我們假想的潛在主題之間也幾乎是不相關(guān)的,這與很多實(shí)際問(wèn)題并不相符,從而造成了LDA的又一個(gè)遺留問(wèn)題http://www.tuiguangwang.com。
這個(gè)圖模型表示法也稱作“盤子表示法”(platenotation)。圖中的陰影圓圈表示可觀測(cè)變量(observed variable),非陰影圓圈表示潛在變量(latentvariable),箭頭表示兩變量間的條件依賴性(conditionaldependency),方框表示重復(fù)抽樣,重復(fù)次數(shù)在方框的右下角。佛山網(wǎng)站優(yōu)化
該模型有兩個(gè)參數(shù)需要推斷(infer):一個(gè)是”文檔-主題“分布 ,色精另外是 個(gè)”主題-單詞“分布 。通過(guò)學(xué)習(xí)(learn)這兩個(gè)參數(shù),我們可以知道文檔作者感興趣的主題,以及每篇文檔所涵蓋的主題比例等。推斷方法主要有LDA模型作者提出的變分-EM算法,還有現(xiàn)在常用的Gibbs抽樣法。
LDA模型現(xiàn)在已經(jīng)成為了主題建模中的一個(gè)標(biāo)準(zhǔn)。如前所述,LDA模型自從誕生之后有了蓬勃的擴(kuò)展,特別是在社會(huì)網(wǎng)絡(luò)和社會(huì)媒體研究領(lǐng)域最為常見。
教學(xué)模型, 仿真模型, 電力模型, 化工模型,