龙马网络学科情报服务平台

29
龙龙龙龙龙龙龙龙龙龙龙龙 龙龙龙龙龙龙龙龙龙龙龙龙

description

龙马网络学科情报服务平台. 广州阔拓信息科技有限公司. 1. 2. 3. 背景. 解决方案. 龙马网络学科情报服务平台. Contents. 背景. 我们需要网络信息吗 在购买了大量专业库的情况下,无论是科研,还是学习仍然要通过搜索引擎去寻找海量的,最新的专业信息(论文、评论、动态、文章)和新闻动态,虽然很累,但是我们离不开网络信息。何况,我们还有很多专业库没有经费去购买, 我们还要建设特色数据库,这就 更加需要求助互联网。 传统互联网搜索的缺憾 大数据时代,科研不能只局限文献,而应该向网络收集动态情报 - PowerPoint PPT Presentation

Transcript of 龙马网络学科情报服务平台

Page 1: 龙马网络学科情报服务平台

龙马网络学科情报服务平台

广州阔拓信息科技有限公司

Page 2: 龙马网络学科情报服务平台

www.themegallery.com

Contents

背景1

解决方案2

龙马网络学科情报服务平台3

Page 3: 龙马网络学科情报服务平台

www.themegallery.com

背景我们需要网络信息吗 在购买了大量专业库的情况下,无论是科研,还是学习仍然要通过搜索引擎去寻找海量的,最新的专业信息(论文、评论、动态、文章)和新闻动态,虽然很累,但是我们离不开网络信息。何况,我们还有很多专业库没有经费去购买,我们还要建设特色数据库,这就更加需要求助互联网。

传统互联网搜索的缺憾 大数据时代,科研不能只局限文献,而应该向网络收集动态情报

大量的有用信息与之擦肩而过

你能收集多少?你有多少时间去收集?

不同的网站去登录,去注册,不断的发现是重复内容,不累吗?建立特色数据库 图书馆借助多种软件采集互联网信息建立本地数据库,自动化程度有多高?

Page 4: 龙马网络学科情报服务平台

www.themegallery.com

减少人工投入

减少时间投入扩大建设规模

主动的参考咨询服务

获得搜索引擎所不能获得的情报

智能获取网络内容的重要性

Page 5: 龙马网络学科情报服务平台

www.themegallery.com

解决方案

龙马网络学科情报服务平台是运用尖端的搜索引擎技术、文本挖掘技术,自然语言技术、统计语言学、机器人工智能技术等面向图书馆自建特色数据库和提供参考咨询服务的整体方案。通过用户所设置的分类和关键词,对网页内容自动采集处理、自动识别、文章去重与相似度分析、敏感词过滤、智能聚类分类、自动生成摘要和关键词、主题检测、专题聚焦,分类自动入库等整套环节,利用网络内容建库的系统工程。

龙马网络学科情报服务平台收集网络上各种类型的与学科相关的情报,包括开放性期刊、论文、会议报告、专业文章、案例、知识性新闻、专题研讨等各种对学科和科研有用的学科情报收录入库。

Page 6: 龙马网络学科情报服务平台

www.themegallery.com

解决方案

Page 7: 龙马网络学科情报服务平台

www.themegallery.com

龙马网络学科情报服务平台

高精高精技术技术

运用尖端的搜索引擎技术、文本挖掘技术,自然语言技术、统计语言学、机器人工智能技术等面向学科情报的应用需求的系统解决方案。

自动情报自动情报采集科学采集科学入库入库

通过网页内容的自动采集处理、自动识别、文章去重与相似度分析、敏感词过滤、智能聚类分类、自动生成摘要和关键词、主题检测、专题聚焦、统计分析,实现图书馆对目标内容管理的需要。

本地本地建库建库

简捷的定制采集和服务系统,可根据建库内容建立多级采集任务,自动归类、导出。将本地资源上传管理展示。

个人个人情报库情报库

图书馆提供平台给教师使用,教师根据自己的研究课题,自主采集需要的网络情报。

Page 8: 龙马网络学科情报服务平台

www.themegallery.com

技术架构

知识平台数据分析数据处理数据采集

信息采集及内容管理信息采集及内容管理

系统配置及用户权限管理系统配置及用户权限管理

智能检索

统计分析报表

本地引用记录

信息简报

文章热度分析

自动分类聚类

热词发现

文章相似度判断

分布式高效索引

分布式海量信息存贮

信息过滤

正文提取

标题提取

自动摘要

网页预处理

分布式网页爬取

高效网页去重

元搜索

网页变化侦测

RSS解析

分类导航

信息阅读

Page 9: 龙马网络学科情报服务平台

www.themegallery.com

子系统组成

多种检索方式直观使用情报

分析内容的被使用情况,分析读者的使用情况,机器学习自动优化采集精度

过滤垃圾信息,抽取有用信息

以精确信息采集引擎为核心,访问穿透

应用平台

内容分析模块

数据抽取及清理模块

自动信息采集模块

本地资源管理系统

学科情报服务系统

Page 10: 龙马网络学科情报服务平台

www.themegallery.com

首页 自建数据库:用户定义采集任务,系统自动形成。

Page 11: 龙马网络学科情报服务平台

www.themegallery.com

页面解析、文件编码处理、文章自动去重、正文自动识别与提取、标题自动识别与提取、垃圾信息过滤、文章相似度判别、自动摘要、自动分类、热点发现、高效索引、海量信息存贮

访问穿透需要注册、登录的各类型网站、论坛、博客;元搜索采集、 RSS采集和指定站点采集等多种采集途径,实现采集全网覆盖;支持对多种网页格式、多种字符的采集。

根据网络转载、本地引用、内容数据提取、搜索引擎查询频次,判断采集的精度和全面性,自动优化算法。

系统功能

全面采集

精确处理

内容分析

Page 12: 龙马网络学科情报服务平台

www.themegallery.com

主要功能

自动信息采集模块

数据抽取及清理模块

应用平台

自定义 URL 来源及采集频率 网页解析 主题分类检索

支持多种网页格式 文章自动去重 内容形式分类检索

支持多种字符集编码 正文自动识别与提取 转载排行

支持整个互联网采集 标题自动识别与提取 基于自然语言处理的全文检索

自定义 URL 来源及采集频率 垃圾信息过滤 高级搜索

正文相似度判别 转载排行

海量信息处理 专题、精品文章

本地资源管理

Page 13: 龙马网络学科情报服务平台

www.themegallery.com

建设内容

采集对象

采集内容

内容标引

自动归类

•各大学术搜索引擎•数千个学术网站•学术论坛、博客•常用搜索引擎•全网络覆盖

•论文•开放期刊•预印本•学科文章•评论•会议报告•学术动态•学科新闻

•题名•关键词•内容摘要•来源网站•文章字数•是否带有附件•全网转载数•本地引用数

•国标学科分类•本馆自定义分类

Page 14: 龙马网络学科情报服务平台

www.themegallery.com

自动信息采集模块

以精确信息采集引擎为核心,按照用户对信息的关注设置,向 Internet 全网络发出采集要求,使用人工参预和智能信息采集结合的方法完成信息收集任务。抓取最全面的正确信息,自动寻找首发信息源、自动去重、自动获取信息在全网络下的影响因子。 默认设置数千个影响程度大、传播面广、参与度高的专业网站 、论坛、博客,实时抓取信息,从广度和深度两层面实现信息采集;同步检索各大搜索引擎,如baidu、 Google、搜狗等。实现“访问穿透”。对于需要注册、登录的网站、博客、论坛,通过对特定的 url的描述,实现自动进入。规避身份验证、验证码技术,抓取的频率限制、代理限制、地址过滤等反搜索引擎技术的限制,实现对尽可能多的互联网信息的自动访问和下载;对于网络上的信息的动态变化采用机器学习技术,采用不同的策略,根据网站结构,指定探测和下载策略。可定向的分钟级网页抓取;利用有限的带宽、计算资源和存储资源,对目标范围内的信息,实现高效的抓取。

Page 15: 龙马网络学科情报服务平台

www.themegallery.com

数据抽取及清理模块

对收集到的内容进行预处理,最终才能变成可用的入库。如页面解析、文件编码处理、正文自动识别与提取、文章自动去重、文章相似度判别、格式转换、数据清理,数据统计。需要滤除无关信息,标题自动识别与提取、垃圾信息过滤、自动摘要、自动分类、热点发现、高效索引、海量信息存贮等。保存内容的标题、出处、发布时间、内容等,最后形成格式化信息。

Page 16: 龙马网络学科情报服务平台

www.themegallery.com

技术优势

简明友好的WEB界面随停随启采集任务,通过配置控制采集速度方便灵活的自定义分类,分类层级无极限敏感词、垃圾词随时录采集内容控制灵活,可以先审核后发布,也可以先发布后审核采集内容及时编辑,可对采集的内容进行任意的编辑、裁减或者润色添加系统管理和权限管理方便快捷,系统管理员和操作员各司其职自动记录本地引用情况,并形成本地引用文章报表自动分析历史转载情况,形成历史转载情况报表

多种信息检索手段

Page 17: 龙马网络学科情报服务平台

www.themegallery.com

自建专题管理 图书馆和教师个人都可以通过平台建立自动采集任务,采集网络中的相关内容。

Page 18: 龙马网络学科情报服务平台

www.themegallery.com

关键词输入注意:1. 每一行表示一个关键词组。 2. 不同行关键词组之间的关系是或者 (or)的关系3. 同一行里边只允许有与 (and)的关系,用空格表示与 (and)的关系。 4. or、 and和 ( )等符号是保留符号,不允许出现这些符号。 5. 词在文章出现的次数用 [] 紧跟着单词后面表示,如果只出现一次就不用录入,比如:东盟 [5]

Page 19: 龙马网络学科情报服务平台

www.themegallery.com

设置专业网址 设置专业网址的目的是为了重点采集指定网站的内容。

对具体某个分类设置需要采集的网址,采集回来的内容就直接划分到该分类下。注意在添加网址时,需要输入该网址的完整 url 路径,包括前面的http 协议。

专业网址的设置可以分为两类:

Page 20: 龙马网络学科情报服务平台

www.themegallery.com

设置专业网址 第一种方式:按照关键词去收录文章,这种方式会按照设置的关键词去和录入的网址内容进行匹配,如果满足关键词条件,就收录回系统。

Page 21: 龙马网络学科情报服务平台

www.themegallery.com

设置专业网址 第二种方式:对设置的网址列表文章全部收录,不跟关键词进行匹配。这种方式设置的时候要注意几点: 1 、所录入的网址必须是文章列表网址,这个网址下的文章列表全部收入到指定的分类。 2 、录入的时候要复制一个文章的链接样本,系统根据录入的链接样本进行分析,找出跟样本类似的链接进行收录。如果有翻页的文章,还可以提供一个下一页的链接样本,这样就会把翻页后的文章也收录回来。设置方式如下图所示:

Page 22: 龙马网络学科情报服务平台

www.themegallery.com

过滤管理• 过滤网址设置

该功能是设置一些网址,系统在扫描内容的时候不对这些网址扫描。

• 过滤词设置 设置一下干扰收录的垃圾词,系统在收录的时候发现文章有这些垃圾词,即使该文章满足关键词的要求,也不会收录该文章。

Page 23: 龙马网络学科情报服务平台

www.themegallery.com

用户管理 可能涉及不同的人甚至不同的部门,因此设计了对整个系统的全部管理的自定义管理模版,用户可以配置不同权限的管理员。

Page 24: 龙马网络学科情报服务平台

www.themegallery.com

基础学科情报库——龙马学科情报库龙马学科情报库 龙马学科情报库全面采集了网络中的各类专业情报,并按照学科有序归类,是全国最大的学科情报总库。 覆盖国家标准的的全部 58个学科门类, 359个一级学科,内容包括开放性期刊、论文、会议报告、专业文章、案例、知识性新闻、专题研讨等各种对学科和科研有用的学科情报。情报数量突破百万,每日不断收录最新情报入库,年增长 30~50 万条学科情报。

Page 25: 龙马网络学科情报服务平台

www.themegallery.com

作用

Page 26: 龙马网络学科情报服务平台

www.themegallery.com

优势该二级页面是所有学科的文章汇集列

表。

该二级页面是所有学科的文章汇集列表。

Page 27: 龙马网络学科情报服务平台

www.themegallery.com

收录内容该二级页面是所有学科的文章汇集列

表。

该二级页面是所有学科的文章汇集列表。

Page 28: 龙马网络学科情报服务平台

www.themegallery.com

供选学科□ 数学 □ 人体解剖学 □ 电子技术 □ 文学

□ 信息科学与系统科学 □ 医学细胞生物学 □ 光电子学与激光技术 □ 艺术学

□ 力学 □ 人体组织胚胎学 □ 半导体技术 □ 历史学

□ 物理学 □ 医学遗传学 □ 信息处理技术 □ 政治经济学

□ 声学 □ 医学微生物学 □ 通信技术 □ 微观经济学

□ 光学 □ 病理学 □ 广播与电视工程技术 □ 会计学

□ 电磁学 □ 临床诊断学 □ 雷达工程 □ 审计学

□ 化学 □ 麻醉学 □ 自动控制技术 □ 技术经济学

□ 天文学 □ 内科学 □ 计算机科学技术 □ 劳动经济学

□ 地球科学 □ 外科学 □ 人工智能 □ 城市经济学

□ 大气科学 □ 口腔医学 □ 计算机系统结构 □ 农村经济学

□ 地理学 □ 性医学 □ 计算机软件 □ 农业经济学

□ 地质学 □ 精神病学 □ 计算机应用 □ 交通运输经济学

□ 水文学 □ 急诊医学 □ 化学工程 □ 商业经济学

□ 海洋科学 □ 肿瘤学 □ 石油化学工程 □ 财政学

□……

□……

□……

□……

Page 29: 龙马网络学科情报服务平台

广州阔拓信息科技有限公司联系人:曾科 13609792105