国产伦乱,黑人大屌操小逼视频在线播放,色欲久久国产一区,大香蕉香蕉网成人精品视频

當前位置:主頁 > 社科論文 > 新聞傳播論文 >

在線多源媒體的話題演化分析

發(fā)布時間:2020-06-13 05:36
【摘要】:隨著互聯網信息技術的迅猛發(fā)展,門戶新聞網站、各類新聞媒體平臺和搜索引擎構成的在線多源媒體已然成為了描述各類話題的重要載體。話題在大規(guī)模在線多源媒體中呈現的演化過程逐漸成為信息檢索領域的一個重要的研究方向。主題模型在潛在語義挖掘和主題聚類等領域具有很多優(yōu)勢,近年來被廣泛應用于話題演化研究領域。然而目前模型在話題演化的研究和應用中主要集中于在大型語料庫中挖掘和劃分不同的話題,而分析某一個特定話題演化過程的應用相對不足,其難點在于同一個話題的文本語義過于相似,不利于文本相似性計算或共現性統(tǒng)計,因此傳統(tǒng)的主題模型很難發(fā)揮良好的效果。本文通過研究話題在在線多源媒體環(huán)境下的演化過程,提出基于多維特征的話題演化模型,在分層狄利克雷過程(HDP)的基礎上,綜合考慮話題語料庫中文本的時間、關鍵詞、句法關系和命名實體等特征,通過增量詞向量訓練的方法得到話題上下文語義關系,克服了文本語義顆粒過小導致的模型性能下降的問題,實現了話題在現實中的演化邏輯分析,挖掘話題在不同時期的焦點變化,呈現話題的演化圖譜。本文的主要工作有:(1)構建話題特征集合庫:新聞是話題在在線多源媒體環(huán)境下最直接和客觀的表現形式之一,本文通過句法分析樹分析和提取話題片斷的主體、客體和行為等關系。在句法樹和詞性標注的基礎上,獲取話題片斷的時間、位置、參與對象和組織機構等實體關系。最終實現提取話題片斷的時間特征、句法特征(主體、客體和行為)和命名實體(位置、參與對象和組織機構)并構建話題的特征集合庫。(2)話題語境下的詞向量訓練:針對研究話題的新聞語料庫,在傳統(tǒng)大規(guī)模新聞語料庫的基礎上進行增量詞向量訓練。通過詞向量的訓練結果構建基于話題語境的上下文語義關系,降低話題演化研究過程中的文本語義顆粒度。(3)基于多特征的話題演化模型:基于話題多維特征和詞向量關系,本文提出了基于多特征的話題演化模型(MFTEM)。模型在傳統(tǒng)分層狄利克雷過程(HDP)的基礎上,從橫向上擴展了時間維度,從縱向上增加了話題的多維特征,使模型更加符合話題演化的一般形式,并利用詞向量包含的上下文語義關系,擴展了文本中詞的語義,有利于分析和挖掘話題在不同階段的焦點變化,有效描述了話題在在線多源媒體環(huán)境下的演化過程,建立話題的演化圖譜。(4)實驗驗證:為了驗證話題演化分析的準確性,本文基于現實門戶新聞網站和各類新聞媒體平臺,抓取了五個熱門話題的新聞數據進行實驗,并將實驗結果與第三方人工標注的信息進行對比。從分析和對比結果可以得出:本文提出的MFTEM模型和特征選取方法能夠有效分析和描述話題在現實中的演化過程,并且可以用符合人們對話題演化的認知邏輯呈現話題的演化圖譜。同時,本文提出的模型算法以自動運行為主,對話題本身或模型均無需過多的先驗知識和專業(yè)理論水平,就可以發(fā)揮較好的效果。
【圖文】:

示例,災后重建,災后恢復,抗震救災


圖 1.1 5·12 汶川地震演化圖譜示例表 1.1 5·12 汶川地震演化情況時間 話題內容2008年5月12日 14:28汶川縣發(fā)生8.0級地震2008年5月16日 溫家寶趕往災區(qū)指導抗震2008年5月18日 5月19日至21日為全國哀悼日,省級衛(wèi)視、電視臺的臺標置灰,4:58天安門廣場國旗降半旗,14時28分起全國默哀3分鐘2008年5月21日 建立災后恢復重建基金2008年5月27日 實行一省幫一縣加快恢復重建2008年6月8日 地震災后恢復重建條例公布2008年7月3日 國務院發(fā)布災后重建指導從演化圖譜和百科標注的話題演化信息可看出,汶川地震話題的演化過程經歷了地震發(fā)生、抗震救災、過渡安置和災后重建等多個焦點的變化。在話題演化的各個階段,

框圖,框圖,語料庫,新聞


圖 1.2 整體研究框圖本文的研究內容包括:首先從在線多源媒體中獲取和篩選話題相關新聞語料信息;其次提取新聞的時間特征、句法特征和命名實體特征,為了更精確地解析新聞描述內容的實際時間,本文基于句法依賴關系提取句子中的時間關系子圖得到時間的完整表達式,并建立時間推理模型標準化表達式;同時為了克服同一話題下文本之間語義相似度過高的問題,本文基于話題語境對話題語料庫進行增量詞向量訓練,使每個詞項可以包含文本的上下文語義信息,降低了語義顆粒度;然后在特征提取和詞向量的基礎上,建立基于多特征的話題演化模型,生成各階段子話題的時間、文檔和特征分布;再次基于演化分析結果,根據需求對子話題進行篩選合并,提取各階段子話題的關鍵信息和摘要內容;最后建立話題演化圖譜。從應用場景的角度,,本文較以往研究最大的區(qū)別和特點是以往的研究主要針對大型語料庫(包含多個話題),并從中挖掘和發(fā)現不同的話題劃分,對于話題演化的工作傾向于利用時間關系跟蹤各話題相關的文本,并展示每個單位時間內的關鍵信息。而本文主要針對用戶關心的特定話題,在檢測和跟蹤話題相關文本的基礎上,對該話題內部的演化過程進行進一步精細化劃分,通過生成子話題的分布,得到話題各階段的焦點變化、
【學位授予單位】:東南大學
【學位級別】:碩士
【學位授予年份】:2018
【分類號】:G206;TP391.1

【參考文獻】

相關期刊論文 前4條

1 林盛;金培權;趙旭劍;岳麗華;;時間感知的Web搜索研究[J];計算機學報;2015年11期

2 懷寶興;寶騰飛;祝恒書;劉淇;;一種基于概率主題模型的命名實體鏈接方法[J];軟件學報;2014年09期

3 趙旭劍;楊春明;李波;張暉;金培權;岳麗華;戴文鍇;;一種基于特征演變的新聞話題演化挖掘方法[J];計算機學報;2014年04期

4 周建英;王飛躍;曾大軍;;分層Dirichlet過程及其應用綜述[J];自動化學報;2011年04期



本文編號:2710732

資料下載
論文發(fā)表

本文鏈接:http://m.lk138.cn/xinwenchuanbolunwen/2710732.html


Copyright(c)文論論文網All Rights Reserved | 網站地圖 |

版權申明:資料由用戶e8087***提供,本站僅收錄摘要或目錄,作者需要刪除請E-mail郵箱bigeng88@qq.com