产品
首页 > 产品
 

全文检索是计算机程序通过扫描信息资源中的每一个词,对每一个词建立一个索引,指明该词在文章中出现的次数和位置。当用户查询时根据建立的索引查找,类似于通过字典的检索字表查字的过程。群智全文检索系统是群智科技结合大数据应用场景下研发推出的,针对结构化数据以及非结构化文档的快速检索产品,以快速、精准为核心指导思想,借助NOSQL数据存储技术及HADOOP分布式技术建立可分布式的信息资源索引库,同时可实现类似数据库检索一样的精确检查要求。

群智信息资源全文检索管理软件通过作业调度系统实现了任务的自动化采集、能够增量索引,支持数据更新,能够通过可视化的方式对索引字段进行管理。具有开放的接口,可支持多种开发编程语言,如JSP、PHP、Java、Python、C#等等。 在产品销售和完善过程中,群智信息资源全文检索管理软件可以在各种复杂的网络和应用环境中工作。

 

一、功能介绍

(1)具备良好的跨平台能力,支持HP-UX、AIX、Solaris、TRU UNIX、Open Server、Linux、WINDOWS等主流运行平台,支持64位操作平台。

(2)提供全方位检索手段,包括外部特征与正文内容的各种逻辑组合检索、位置检索、二次检索、渐进检索、模糊检索、历史检索、词根检索、大小写敏感检索、概念检索、对检索结果按与检索表达式的相关性程度排序等。实现精确计算,报告准确的检索记录数。

(3)支持对检索结果的各种排序:基于文章内容与检索表达式的相关度计算的相关性排序;基于一个或多个特征属性的字段排序。支持检索结果的统计和浏览。

(4)提供动态索引,能够实时提供检索服务。即数据增删改时快速同步更新索引,而不需重建整个索引也无需局部重建索引。

(5)支持按词索引、按字索引和字词混合索引。即适应不同应用环境的需求。

(6)完善的非结构化数据管理。

(7)支持多种数据源数据的全文索引。可自动将关系型数据库中的数据导入全文数据库,如DB2、Oracle、SQLServer、MySQL、sybase、Informix、Postgresql、Access、达梦数据库、人大金仓数据库,并自动保持同步更新。

(8)支持多种格式文档信息全文检索,如HTML\PDF\DB\WORD\EXCEL\TXT等文档等。

(9)集成先进的中文自然语言处理技术,实现自然语言及智能扩展检索,如同义词、概念检索、拼音检索检索。

(10)提供按栏目、网站、网站群的全文检索功能。

(11)支持中英文的混合检索,支持日、韩、法、藏、维多语系。

(12)允许使用文中的任意字、词、短语、句和片段进行检索

(14)支持结构化数据和非结构化数据的混合检索

(15)支持对domino、notes、documentum、Quickr等多个系统的集成

二、环境说明

  • 系统运行所需要:JDK1.7
  • 系统部署所需要的服务软件:TOMCAT7.0
  • 数据库软件:MYSQL5.5
  • Pdf转txt软件:PDFTOTEXT3.3
  • Mysql数据库前台软件:navicat8.0.28_mysql_cs

三、系统特点

1. 多操作系统、多平台、多数据库支持

1)支持各种主流操作系统和主流开发平台,如Windows、Linux;并支持主流开发平台,如Java、.Net、 PHP、asp、flex;

2)支持多种数据源数据的全文索引。可自动将关系型数据库中的数据导入全文数据库,如DB2、Oracle、SQLServer、MySQL、sybase、Informix、Postgresql、Access、达梦数据库、人大金仓数据库,并自动保持同步更新。

2. 支持多数据源检索

除了基于数据库的搜索以外,群智信息资源全文检索管理软件还支持文件检索方式,可以通过指定文件所在目录进行高效检索,并内置文件解析器,可对Text、HTML、XML、RTF、MS OFFICE文档 (Word/Execl/Powerpoint)和PDF文件自动解析。同时根据用户需要产品也支持从其它各类数据源获取要检索的数据内容,例如:XML文件、exchange邮件服务器等等其它数据池。

3. 智能化的检索服务

群智信息资源全文检索管理软件在全文检索过程中采用相关智能技术以达到迅速、准确、全面定位目标信息。例如采用相关度分析技术,使相关度较高的结果排在结果列表的前面,相关度较低的结果排在后面,并屏蔽无用和错误的信息;构造强大的语义规则库,使系统能够正确地判断与检索词相关的同义词、近似词、上位词、下位词,帮助用户判断结果的相关度,并进行进一步的查询。

4. 海量数据高效处理

群智信息资源全文检索管理软件不仅提供了快速检索功能(在千万级数据下,全文检索能在0.5秒钟之内完成),同时也有着高效的海量数据处理能力。每小时能处理百万的数据库数据,或是几万篇的文档。包括中文的分词和建立数据索引。我们的产品在多个大型项目中经过了实际的检验,成功实施过多个超过5千万数据规模的项目。

5. 中文分词技术

中文分词是搜索引擎必须具备的技术之一,应用中文分词技术才能使搜索结果更加符合用户习惯,更加接近用户的期望结果,群智信息资源全文检索管理软件集成了中文分词技术,并有着300万词库的支持,用户也可以根据自己的需要和行业特色来添加和维护词库。中文分词技术的准确率和召回率都达到96%以上。

6. 搜索结果多样化展现方式

无论是数据来源于数据库中,或者是各类文件,对于搜索的展示结果,用户可以通过接口或委托开发商开发进行个性化、多样化的展现,也可以类似数据库那样,对于数据字段进行自由调用查询和展现。

7. 支持多种语言开发接口,与网站无缝集成

群智信息资源全文检索管理软件以标准的WebService方式提供多种语言开发接口,支持的语言包括.NET,JAVA,PHP、flex等,可与各类WEB应用进行无缝集成。同时提供完善的二次开发API手册帮助及应用示例。

8. 完善的非结构化数据管理

实现非结构化和结构化数据的统一管理和检索;核心级支持Unicode(UTF8),多语言数据的管理和检索。

9. 提供丰富检索语法

结合搜索业务的需要,群智信息资源全文检索管理软件提供丰富的检索语法支持,包括多字段组合查询、多字段组合排序、支持模糊匹配查询、支持大于,等于,小于,不等于操作符、支持*?等模式匹配,支持位置运算符,字符串的先后顺序、字符的后方截词、中间截词等等。也可以根据用户需要定制开发特殊检索规则。

10. 拼音检索与概念检索

拼音检索指的是在系统中输入拼音即可找到对应的中文词语内容,这其中包含了拼音纠错、多音字处理的功能。

11. 索引自动检测与修复

群智信息资源全文检索管理软件的数据检测机制可以自动修复损坏的数据,最大程度的保证系统可用性。

12. 高可用系统负载均衡/集群

群智信息资源全文检索管理软件产品完全支持系统负载均衡/集群部署模式,可以支撑电信级系统的运用

13. 数据加密与数据传输安全SSL/LDAP

为了保障用户数据的安全性,群智信息资源全文检索管理软件 的数据在存储上采用加密存储方式,防止数据的外泄,在传输上支持SSL的安全传输方式,支持HTTPS安全访问协议。

群智信息资源全文检索管理软件 支持 LDAP(Lightweight Directory Access Protocol)协议,LDAP提供了一种国际通用的目录访问标准,可以在任何计算机平台上,用很容易获得的而且数目不断增加的LDAP的客户端程序访问LDAP目录。而且也很容易定制应用程序为它加上LDAP的支持。意味着群智信息资源全文检索管理软件可以与任何支持LDAP协议的软件或系统进行数据通信。

14. 分布式系统支持

群智信息资源全文检索管理软件产品支持分布式,并且在各个功能模块均可以实现分布。通过管理控制台强大的索引管理功能,管理人员可以针对数据域制定优化方案,在存储空间和响应速度以及内存占用之间调整平衡,以达到最优性能。群智信息资源全文检索管理软件使用多级缓存检索结果的策略实现海量数据的快速响应,如搭配高性能服务器,则效果更加明显。

群智信息资源全文检索管理软件 支持与Hdoop、Hbase、lustre等分布式系统集成部署。

15. 操作简易、维护方便

群智信息资源全文检索管理软件提供完整的后台界面,所有配置和操作都可以通过IE访问产品后台进行,操作简易,维护方便,同时也不影响服务器的安全性。


产品
联系我们
电话我们
保存我们的联系方式吧! [扫描二维码,保存公司联系方式]