采集专区
下载安装
安装说明
WebSparrow功能
采集方案
购买与注册
产品列表
购买流程

        WebSparrow网络信息采集系统,是一套完整的网页数据采集解决方案。它包括下载、解析、分类、发布四大功能,可以针对任何网站的原始信息进行处理,展现为用户希望的数据格式。 系统特别适用于网站信息的分类采集,用户可以针对不同的分类设置不同的查询条件,而不是一次性的将网站中所有信息都采集到本地,这无疑将提高信息的使用效率,避免无意义的资源消耗。 这还是一套面向使用者的、人性化的软件系统,您只需轻点几下鼠标就可以方便的在浩瀚的数据海洋中,轻易的攫取您感兴趣的信息。WebSparrow网络信息采集系统通过采集方案的定义,可以获取互联网上定向网站的可用数据,并下载    到本地的Excel表格和数据库中。在整个采集过程中系统还具备以下功能:

  1. 采集方案定义——通过对采集目标、信息格式的定义,可以搜索并获取各种类型的信息。
  2. 多任务,多线程——真正的多线程下载,加快您的下载速度。
  3. 多个代理交替使用——系统可以交替使用多个代理服务器,避免网站的信息屏蔽。
  4. 网站登陆——支持网站的多种登陆模式,既包括用户和口令,也可以在使用的时候通过页面登陆。
  5. 下载限制时自动停止——有些网站,特别是需要付费下载的网站一般对帐号的下载进行了次数的限制,系统可以自动记录下载次数,并在达到限制时自动停止当前任务。
  6. 自定义信息识别——系统预定义了了很多信息识别模式,如电话号码、身份证号、Email等,同时系统也支持信息定制,方便您获取更准确的信息。
  7. 自动识别信息类型——一个网站可能具备多种信息类型,例如一个人才招聘网站就具备简历、公司、职位等多种信息。任务运行后自动甄别信息类型,并将这些信息保存到相应的数据结构中。
  8. 支持二进制数据——系统支持图片、声音等、影像等文件的自动下载。
  9. 支持复杂数据——系统支持多表复杂格式数据下载,例如人才简历包括不只包括年龄、身高、学历等信息,还包括教育背景、工作经历等,对于这些数据我们也能在任务下载时,一次性完成,并保证数据之间的逻辑关系。
  10. 重复数据替换模式——当下载数据已存在时,用户可以选择覆盖、自动更名、取消等多种规则,实现数据更新。
  11. XML文档保存——数据下载后,我们采用通用的XML数据交换格式文档保存在您指定的目录,您可以使用这些文档与其他系统实现数据交换。
  12. 支持Excel表格——系统可以方便的将采集结果发布到Excel工作表中,用户可以使用Excel进行编辑和修改。
  13. 采集过程可视化——整个系统的采集过程都清晰的反映在软件界面上。

 
 
     京ICP备05078487号© 版权所有  2006-2008 设为主页 | 收藏本站 | .Net开发 | 联系我们 | 站点地图 | 关于Deegin