銳研本地搜索引擎系統(Ring BigResearch LocalSearch)

2016-02-07
萌泰科技
摘要:銳研本地搜索引擎系統(Ring BigResearch LocalSearch)是銳研大數據研究平臺的內置搜索引擎,能夠對采集的文本內容進行索引,建立本地快照,提供方便的搜索界面。本地專題庫不僅保存了網頁的鏈接地址、標題、摘要、發布人、發布時間等關鍵字段,還保存了所有網頁的純文本內容和網頁HTML快照。本地搜索引擎提供給了對這些文本內容的本地快速檢索服務。

一、概述

銳研本地搜索引擎系統(Ring BigResearch LocalSearch)是銳研大數據研究平臺的內置搜索引擎,能夠對采集的文本內容進行索引,建立本地快照,提供方便的搜索界面。本地專題庫不僅保存了網頁的鏈接地址、標題、摘要、發布人、發布時間等關鍵字段,還保存了所有網頁的純文本內容和網頁HTML快照。本地搜索引擎提供給了對這些文本內容的本地快速檢索服務。

二、產品功能

(1)系統集成

系統基于純BS架構,作為子系統能集成到統一的大數據研究云平臺,共享云平臺的統一管理功能。

(2)文本索引

集成文本搜索引擎,在文本抓取后,能夠對文本的標題、內容進行分詞,并建立專業的文本索引庫。

(3)本地檢索

抓取的文本以文件形式存儲在服務器,同時將常用信息存儲到數據庫,系統通過索引表能夠快速檢索到文本,并能夠查看文本的網頁快照

(4)高級檢索

支持根據組合條件查詢本地存儲的文本。

三、特色和優勢

(1)集成NLP分詞技術

通過自然語義處理(NLP)技術對文本進行中文分詞,并對分詞后的單詞建立索引,提高了檢索的有效性;

(2)基于主流搜索引擎標準,可擴展性強

基于主流搜索引擎標準,能夠實現搜索引擎的內置到現有的文本大數據研究平臺中,對網絡抓取的數據源進行有效的索引和本地快照功能,支持純文本保存和網頁快照。


    發表評論
    評論通過審核后顯示。