銳研文本分析和挖掘系統(Ring BigResearch TextAnalyzer)

2016-02-06
萌泰科技
摘要:銳研文本分析和挖掘系統(Ring BigResearch TextAnalyzer)是一套基于自然語言處理(NLP)技術的文本分析和挖掘軟件,支持對采集的文本內容進行文本分析,包括文本分詞、詞性標注和詞頻統計。平臺可集成多個中文處理引擎;支持結合系統和用戶自定義的詞匯字典庫進行各類詞頻分析、文本分類、文本聚類、情感分析等。

一、概述

銳研文本分析和挖掘系統(Ring BigResearch TextAnalyzer)是一套基于自然語言處理(NLP)技術的文本分析和挖掘軟件,支持對采集的文本內容進行文本分析,包括文本分詞,詞性標注和詞頻統計。平臺可集成多個中文處理引擎;支持結合系統和用戶自定義的詞匯字典庫進行各類詞頻分析、文本分類、文本聚類、情感分析等。

二、產品功能

(1)系統集成

系統基于純BS架構,作為子系統能集成到統一的大數據研究云平臺,共享云平臺的統一管理功能。

(2)文本分詞

利用自然語言處理(NLP)分詞算法對文本進行分詞,詞性標注;支持選擇不同的分詞算法;支持系統和用戶自定義的詞匯字典庫。

(3)詞頻統計

支持對單篇文章分好的單詞進行詞頻統計;支持批量詞頻統計;支持根據數據源、日期、地域等條件對所有文本進行詞頻統計,文本數量統計。

(4)文本分類

根據一個訓練集,對新的文本進行數據分類。

(5)文本聚類

在沒有訓練集的情況下,根據算法對所有文本進行聚類分析。

(6)情感分析

支持根據情感字典庫來判斷某一個文章的正負情感。

三、特色和優勢

(1)NLP自然語言處理技術

通過自然語義處理(NLP)技術對文本進行中文分詞和語義識別及分析,通過機器學習方法對海量互聯網文本進行分析學習建模,從而實現從分詞、詞性、句法、實體等一系列角度對文本的綜合分析。

(2)可配置的情感特征庫

支持抓取主流門戶、新聞、論壇、文獻等各類數據源;基于可配置的情感特征語料庫實現對特定領域的文本進行情感分析。

(3)文本多維變量統計分析

提取文本的發布時間、地點、點擊率、回復數以及其他可進行結構化轉換的變量,以進行復雜的多維詞頻和數量統計分析。




    發表評論
    評論通過審核后顯示。