垂直搜索引擎开发

  展开

说明:模块包括采集、分词、索引、搜索、显示。实现搜索结果的准确、快速、显示更友好
  
技术介绍
 



1、采集
功能:将网页内容下载并索引保存到本地磁盘。
分两种方式:
1.对于通用网站,使用多线程递归调用,同时进行分词和索引。
2. 对于个性网站,使用vb程序,将网页保存到硬盘,然后调用分词索引程序。
以上两种方式,使用数据库保存采集历史信息,可设置网站的更新时间,及是否更新、更新次数等等标记。文件格式可以扩展,包括doc,xls,ppt,xml,txt等。

2、分词 (重点)
功能:对网页内容进行合理的分词。
特点:15万词库,使用反向、正向混和分词,使分词的准确性大大提高。并设计了针对搜索引擎的扩展分词系统,支持人名、数字等。

3、索引
功能:使用dotlucene 提供的功能将网页内容以结构化方式保存在硬盘上,以备索引。
特点:文件大小在5K-400K之间,全部索引,速度在5-10万文件/小时

4、搜索
功能:根据用户输入的信息,快速准确的返回相关信息。
特点:根据用户输入信息,分解,并返回准确的信息。支持 “不包括 ”查询,支持 特定分类查询,扩展后,可以 支持 时间段查询 等其他高级查询,可以支持Ajax ,动态返回用户目前搜索的关键词的结果。当搜索本地无结果时,返回采集的通用数据。

5、显示
功能:将搜索结果中包括关键词的内容高亮显示,并可以手工定制搜索结果。
特点:将Highlighter.Net代码依照分词方式进行比较大的修改,使支持大数据文本,显示速度提高,用户体验较好。

系统要求:
window 2000/window 2003
MS SQLserver 2000/MySQL

查询速度:
80万以下数据返回时间在1秒左右,具体情况视机器配置决定。


销售价格:
垂直搜索引擎定制开发,起价2万,源代码价格面议。
 

功能演示
 

1.关键词高亮


2.拼写检查


3.相关词提示


4.快捷关键词提示


5.自定义结果

带笑脸的为手工定制结果


演示地址:http://www.qiyangtech.cn/search.aspx?tp=5&wd=%E5%B5%8C%E5%85%A5%E5%BC%8F

 

 

基于传统数据库的关键词检索由于性能问题让很多网站放弃了搜索功能,问题的解决归根结底还是需要一个全文引擎。而Lucene开源引擎的出现让这种原来被少数公司掌握的技术得到了迅速的普及,这里应该再次感谢引擎的核心贡献者Doug Cutting先生,同时也希望有更多的中文开发人员能积极投入到Lucene的相关项目开发中去,尤其在中文和其他亚洲双字节语言处理方面的问题。模块包括采集、分词、索引、搜索、显示。实现搜索结果的准确、快速、显示更友好。垂直搜索引擎有三大创新点:  1)深网抓取,垂直搜索引擎的蜘蛛程序更聪明,它可以抓取普通蜘蛛抓不到的信息,即使网页的路径信息完全由脚本程序动态生成。据统计,通用搜索引擎已经收录的网页,仅占互联网实际网页数量的不到10%,真可谓冰山一角;  2)结构化整理,垂直搜索引擎把抓取来的信息进行关键数据提取和结构化整理,经过整理后的信息对用户更有价值,譬如一条有关租房的信息,已经把房屋地址、联系方式、价格等信息一一列出,不需要用户从杂乱的网页中一个个去寻找;   3)实时更新,垂直搜索一般定位在某一领域,信息来源有限,可以实现每10分钟更新一次,以让用户在第一时间内看到最新消息,这一点,通用搜索是无法做到的,因为它的信息源多而杂。  垂直搜索引擎开发套件,是一套通用的、可定制开发的垂直搜索网站开发平台,由三大部分组成:抓取系统,索引系统和搜索系统。  1)抓取系统,也就是蜘蛛程序,负责从信息源抓取数据,蜘蛛程序是基于预先构造的模板工作的,无模板的蜘蛛程序只能处理结构相对简单的信息,抓取系统涉及的关键技术点有爬行路径分析、增量抓取与全抓取、信息构造完整性检查、信息唯一性识别、多网页信息整合、自动标引等;   2)索引系统,把抓来的信息建立类似书目的数据文件,以便于实现高速检索。索引系统涉及的关键技术点有分词技术、预评分和后评分、增量索引与全索引、排序技术、热点词高速缓存、标准检索语句解析等;   3)搜索系统,就是提供搜索功能的网站,网站的具体表现形式大不相同,但是都提供全文搜索功能,除了搜索功能外,还提供与业务相关的其他功能,譬如按地域导航检索、会员注册、关键词固定排名等。




      上一篇:诚征销售合作伙伴     
      您所在的位置: 新闻动态 > 公司动态 >

      垂直搜索引擎开发