新浪分类合作网站 联合国供应采购商注册机构 供应商注册详情 设为首页 收藏本站 联系我们
通行证 会员 密码 验证

首页

企业名片

产品名片

供求信息

新闻资讯

求职招聘

招商杂志

华人娱乐

站长之家

您的位置:首页 > 产品展示 > 电脑软件 > 软件开发
[产品]

启超垂直搜索引擎

显示大图
企业类别:
联 系 人:沈强业务
电  话:0755-26584586(欲联系该企业请拨打此电话)
所在地区:广东省深圳
联系地址:深圳市南山区科技园深南花园B座9C
发布日期:2007-11-19 11:25:00
本公司最新产品展示

一、系统架构

整个垂直搜索引擎分为3个子系统:采集系统,处理系统,查询系统。其中查询系统是面向最终网站用户的,采集系统是采集所有网站数据的。

二、采集系统

启超垂直搜索引擎的信息采集系统是国内最领先的网络信息采集系统。与传统的网络爬虫技术采集到的是整体的网页不同,它采集的是每个网页内部的所有精确的记录数据与图片,是建设垂直搜索引擎的理想采集工具。

1. 自定义URL来源及采集频率

用户可以设定采集的栏目、URL、更新时间、扫描间隔等,系统的扫描间隔最小可以设置成1分钟,即每隔一分钟,系统将自动扫描目标信息源,以便及时发现目标信息源的最新变化,并以最快的速度采集到本地。

2. 支持多种网页格式

可以采集常见的静态网页(HTML/HTM/SHTML)和动态网页(ASP/PHP/JSP),还可以采集网页中包含的图片、TXT/DOC/PPT/XLS/RTF/PDF等文档格式信息。

3. 支持多种字符集编码

采集子系统能够自动识别多种字符集编码,包括中文、英文、中文简体、中文繁体等,并可以统一转换为GBK编码格式。

4. 支持元搜索模式采集

元搜索模式集成了不同性能和不同风格的搜索引擎并发展了一些新的查询功能。查一个元搜索引擎就相当于查多个独立搜索引擎。

三、处理系统

利用专门的工具对下载的信息进行结构处理和格式处理.

1. 内容抽取

系统可对网页进行内容分析和过滤,自动去除广告、版权、栏目等无用信息,精确获取目标内容主体。

2. 信息归类

支持按采集栏目设置分类,并为分类设置相应属性,只要属于该栏目的信息即送到相应分类中。

3. 自动去重

通过内容相关识别技术自动判别分类中文章的关系,如果发现描述相同事件的文章自动去除重复部分。

四、查询系统

1.支持简单和复杂的搜索语法

2.支持布尔运算符

3.搜索结果可以按日期、相关度、字母顺序来排序

4.高亮显示关键字

5.限定搜索的范围

五、软件的功能

本系统最大的特点是:灵活、准确、

灵活性:任何复杂的查询与页面布局都可以灵活处理

准确性:结果数据高度准确(99%-100%)

1. 从采集内容来说:

采集国内外新闻

采集技术文章

采集论坛帖子

采集商品价格

采集博客文章

采集供求信息

采集客户资料

采集产品资料

采集商品信息

采集国外期刊

采集国外论文

采集票务信息

采集电影信息

采集IC信息

采集各种行业的信息....

支持建立对外的行业门户网站或者对内的企业竞争情报网站。

2. 从技术特性来说:

支持静态网页网站(.htm, .html, .shtml)

支持动态网页网站(ASP,ASP.NET, PHP,JSP, CFM, CGI…)

支持采用了防盗链措施的网站

支持采用了HTTPS通信加密的网站

支持对查询次数限制作了限制的网站

对目标网站进行信息自动抓取,支持各种数据的采集,如文本,图片,数字

可以下载图片与各类文件,自动修改源代码中图片的路径

支持用户名与密码自动登录

支持命令行格式,可以Windows任务计划器配合,定期抽取目标网站

支持记录唯一索引,避免相同信息重复入库

支持智能替换功能,可以将内容中嵌入的所有的无关部分如广告去除

支持多页面文章内容自动抽取与合并

支持下一页自动浏览功能

支持直接提交表单

支持模拟提交表单

支持动作脚本

支持从一个页面中抽取多个数据表,多条记录

支持数据的多种后期处理方式

数据直接进入数据库而不是文件中,与利用数据的程序间没有任何耦合

支持数据库表结构完全自定义,充分利用现有系统

支持多个栏目的信息采集可用同一配置一对多处理

支持大批量文件多线程下载

保证信息的完整性与准确性,绝不会出现乱码

支持所有主流关系型数据库(MS SQL, MySQL, Oracle, DB2, Access…)

支持多种字符集编码,采集子系统能够自动识别多种字符集编码,包括中文、英文、中文简体、中文繁体等,并可以统一转换为GBK编码格式。

支持元搜索模式采集,元搜索模式集成了不同性能和不同风格的搜索引擎并发展了一些新的查询功能。查一个元搜索引擎就相当于查多个独立搜索引擎。

从采集对象来说,本系统可以深度采集全球信息,针对任意网站任意网页任意数据,看得到就能采得到。



深圳市启超软件有限公司是一家专注于企业信息化解决方案的软件公司。从事企业信息化项目软件的咨询、调研、设计、开发、测试、集成、安装、培训、维护及跟踪服务。是深圳计算机行业的重点骨干企业。十多年来,先后开发了连锁商业管理系统、ERP、垂直搜索引擎系统。市场上,其搜索引擎系统在国内达到先进水平。软件定制开发上,取得了香港、日本、大陆客户的的好评。。

   公司总部位于深圳市高新区,在广州、东莞、东北区域设有分公司,在香港、北京、杭州、厦门、成都、大连、哈尔滨等地有合作伙伴及分销商。

   产品在系统功能、业务处理、易操作性等方面都得到客户的高度认可,赢得良好的信誉。公司与国内外行业协会、专业管理咨询机构、知名专家、业内资深人士建立了广泛、密切的合作关系,与齐齐哈尔职业学院达成长期合作。共同建立了“深圳软件研发中心”,为公司的发展提供了长久的动力。

  公司本着“赢取人心、缔造商机”的经营理念,不断提升产品质量和服务,以长期服务于企业信息化建设,共同缔造企业的美好前程。

联 系 人:沈强
电  话:0755-26584586
传  真:
手  机:
所在地区:广东省深圳
联系地址:深圳市南山区科技园深南花园B座9C
本条信息为发布者自行提供,安全性和真实性由发布者自行负责。
 各地分站: 北京市 天津市 上海市 河北省 山西省 辽宁省 吉林省 江苏省 浙江省 安徽省 福建省 江西省 山东省 河南省 湖北省 湖南省 广东省 广东江门 陕西韩城 广东揭东县 山东高密市 江苏宿迁 重庆市 山西文水 杭州余杭区 新疆区 江苏盐城市区 宁夏石嘴山 浙江象山 云南麻栗坡 山东枣庄 广东肇庆 河北衡水 浙江金华
发送给的沈强业务的询价留言
主 题:
内 容:

验证码: