第二讲 网络信息资源检索

55
第第第 第第第第第第第第

description

第二讲 网络信息资源检索. Internet 的入网方式. 网络信息资源的定义. Internet 的互联原理. Internet 的主要服务. 第一节 网络信息资源概述. 1.1 网络信息资源的定义. 指以电子数据的形式将文字、图像、声音、动画等多种形式的信息存放在光、磁等非印刷载体中,并通过网络通信、计算机或终端等方式再现出来的信息资源的总和。. 通过专线连接. 通过拨号接入. 1.2 Internet 的入网方式. 专线连接. - PowerPoint PPT Presentation

Transcript of 第二讲 网络信息资源检索

Page 1: 第二讲  网络信息资源检索

第二讲

网络信息资源检索

Page 2: 第二讲  网络信息资源检索

Internet 的入网方式

第一节 网络信息资源概述

Internet 的互联原理

Internet 的主要服务

网络信息资源的定义

Page 3: 第二讲  网络信息资源检索

1.1 网络信息资源的定义

指以电子数据的形式将文字、图像、声音、动画等多种形式的信息存放在光、磁等非印刷载体中,并通过网络通信、计算机或终端等方式再现出来的信息资源的总和。

Page 4: 第二讲  网络信息资源检索

1.2 Internet 的入网方式

通过拨号接入通过拨号接入

通过专线连接通过专线连接

Page 5: 第二讲  网络信息资源检索

专线连接专线连接   专线连接是计算机利用网卡通过光纤、电缆或其他专用信道与 ChinaNet 、 CSTNet 、 CerNet 或 ChinaGBNet 相接、进而连通 Internet 的接入方式,其基础是要求先完成网络综合布线 (PDS) 工程。

一般企事业单位或公司集体入网时多用专线连接方式。

Page 6: 第二讲  网络信息资源检索

拨号连接拨号连接

拨号连接是利用调制解调器 (MODEM) 和电话线连通Internet 的接入方式。

就近期发展看,拨号连接是广大个人用户和家庭用户的联网方式。宽带上网

Page 7: 第二讲  网络信息资源检索

宽带上网(宽带上网( ADSLADSL ))

(Asymmetrical Digital Subscriber Line ,非对称数字用户环路 ):是一种能够通过普通电话线提供宽带数据业务的技术,是目前极具发展前景的一种接入技术。

Page 8: 第二讲  网络信息资源检索

宽带应用领域

宽带电影

网络多媒体课堂

网上多媒体娱乐

实时通讯与交流

网络电视

网络游戏

Page 9: 第二讲  网络信息资源检索

1.3 Internet 的互联原理

(1) 通信的保证机制——TCP/IP 协议(2) 地址的标识技术——IP地址和域名 DN(3) 运作的基本模式——客户机 /服务器系统

(4)URL (网址)

Page 10: 第二讲  网络信息资源检索

(1)TCP/IP(1)TCP/IP 协议协议

Transmision Control Protocol/Internet Protocol 传输控制协议 /交互网络协议

是保证各种不同类型的计算机网络实现相互通信一套规则或协议。 是因特网的基础和核心。

Page 11: 第二讲  网络信息资源检索

TCP ( Transmission Control Protocol )传输控制协议 : 是将信息分组打包,处理由路径不同及其它可能原因造成的数据包颠倒、数据丢失、数据失真等问题。即负责确认收到信息的正确性,发现错误后进行重发。

IP ( Internet Protocol )网际协议 : 是将信息送到指定地址,即负责信息是将信息送到指定地址,即负责信息传送时的定位与寻址。传送时的定位与寻址。

Page 12: 第二讲  网络信息资源检索

(2)(2) 地址的标识技术——地址的标识技术—— IPIP 地址和域名地址和域名

• IP 地址:是 Internet 上每台主机和用户终端的识别标识。 IP 地址在全球范围内都是唯一的。该地址一般由 Internet 网络信息中心统一分配。

• IP 地址一般由用 “”分开的 4组十进制数字组成,每段数字取值范围为 0-255。

IP 地址示例: 218.87.32.09 表示江西科技学院图书馆的主机

Page 13: 第二讲  网络信息资源检索

• 1984 年起采用字符型的 IP地址,即域名( DN)•域名 DN:即用一组英文字符串来替代难以记忆的数字,称为域名 (Domain Name)� 。

• DN 结构为:主机名 .机构名 .网络类型 .最高域名

例: lib.tinghua.edu.cn 表示清华大学图书馆的主机

Page 14: 第二讲  网络信息资源检索

常用网络名常用网络名

• com( 商业机构 )• edu( 教育机构 )• mil( 军事部门 )• gov( 政府部门 )• org( 非盈利组织 )• net( 网络服务商 )

•最高域名: cn( 中国 ) uk( 英国 )jp( 日本 )

美国享有国家域名默认权

Page 15: 第二讲  网络信息资源检索

IPIP 和和 DNDN 的关系的关系IP 地址是 Internet 定位所必需的,每台以专线方式

联入 Internet 的计算机都应有一个唯一的 IP 地址;拨号上网的机子的 IP 则是由 ISP 临时分配的。

DN 则非每台上网机必需,只有作为服务器的计算机才需要。 通过域名服务器 (DNS) 将 DN 自动转换为 IP 。

Internet 上 DN 与 IP 一般有一一对应关系 , 但也有二个 DN 对一个 IP 或 DN 不变而 IP 改变的情形。

Page 16: 第二讲  网络信息资源检索

(3)(3) 运作的基本模式——客户机运作的基本模式——客户机 // 服务服务器系统(器系统( Client/Server SystemClient/Server System ))

服务器:是提供资源的程序和计算机

客户机:是使用资源的程序和计算机

Page 17: 第二讲  网络信息资源检索

(4)URL(4)URL

• URL ( Uniform Resource Locator,URL) :意思是统一资源定位器,用它来指向 Web 上的文档和其它信息资源的位置,即网址。

• URL 格式: – 传输协议: // 文件所在服务器名 / 目录路径和文

件名例 :http://news.sina.com.cn/china

Page 18: 第二讲  网络信息资源检索

1.4 Internet 的主要服务(1) 电子邮件服务( E-mail )(2) 文件传输服务( FTP )(3) 远程登录( Telnet)(4) 电子论坛( Electronic Fo

rum )(5) 万维网( WWW )

Page 19: 第二讲  网络信息资源检索

(1) 电子邮件服务( E-mail )

E-mail 地址格式:用户名 @电子邮件服务器名

例如 :图书馆文检教研室电子邮件地址

[email protected]

Page 20: 第二讲  网络信息资源检索

(2) 文件传输服务 (FTP)

•FTP (File Transfer Protocol):是 Internet 上文件传输的各种规程的集合。 FTP 规定了在 Internet网络上如何传输文件,通常要由专门 FTP 程序来具体实现。

•用户可通过有名或匿名连接方式对远程服务器进行访用户可通过有名或匿名连接方式对远程服务器进行访问,查看和索取需要的文件。用户可将本地文件上载问,查看和索取需要的文件。用户可将本地文件上载(upload)(upload)给远程主机,更多情况是从远程主机上下载 给远程主机,更多情况是从远程主机上下载 (download)(download) 文件。(包括文本、图像、声音、多媒体、文件。(包括文本、图像、声音、多媒体、软件或数据文件等)软件或数据文件等)

Page 21: 第二讲  网络信息资源检索

(3) 远程登录( Telnet)

是指本地计算机通过 Internet 访问远程计算机上的硬件资源、软件资源和信息资源的过程。

随着 www 的普及, Telnet已少有使用。

Page 22: 第二讲  网络信息资源检索

(4) 电子论坛( Electronic Forum )

•电子论坛( Electronic Forum ): 是 Internet 用户在网上讨论交流的一种形式,又称新闻组(Newsgroop) 或专题讨论( Usenet) 。 — 电子公告版( Bulletin Board System,BBS )与专题讨

论组功能相似,但其规模小得多,且 BBS 上的观点只留在本地服务器上。

Page 23: 第二讲  网络信息资源检索

(5) 万维网( WWW)

•万维网( World Wide Web,WWW) 又称环球网、全球网,起源于 1989 年欧洲粒子物理研究中心,采用 HTTP (超文本传输协议)在 Internet 上提供全球范围的多媒体信息服务。

1993年 1月,因特网上约有 50 个 WWW服务器在工作, 1999 年高达 300 万个。现在 WWW 有等同于 Internet 的趋势。

Page 24: 第二讲  网络信息资源检索

WWWWWW 基本概念基本概念

超文本包含两个含义:

其一是信息的表达形式不局限于文字,还可以是图像、动画、视频、音频、动态数据、软件等非文本文件;

其二是网页文件内部包含链接( link) 。

超文本超文本 (Hypertext)(Hypertext)

Page 25: 第二讲  网络信息资源检索

HTML HTML (( Hyper Text Markup LanguagHyper Text Markup Language)e)

超文本标记语言 :是制作 Web页面的语言,用来标记网页的标题、段落、链接、字体、颜色、表格等,并由浏览器来解释这些标识。HTML编辑器:–Frontpage–DreamWeaver–Netscape –Composer

Page 26: 第二讲  网络信息资源检索

HTTP HTTP (( Hyper Text Transfer ProtocoHyper Text Transfer Protocoll ))

超文本传输协议: HTTP 是 Web 客户机和

服务器用于在网上传输、响应用户请求的协议。就是告诉浏览器去访问使用 HTTP 的 Web 页。

Page 27: 第二讲  网络信息资源检索

第二节 搜索引擎的使用技巧

Page 28: 第二讲  网络信息资源检索

2.1 搜索引擎的工作原理 搜索引擎的英译名为 Search Engine ,是收录网页全文索引的数据库。指通过网络搜索软件或网站登陆等方式,将互联网上大量网站的页面收集到本地,经过加工处理而建库,从而能够对用户提出的各种查询作出响应,提供用户所需的信息。

搜索引擎也不能真正理解网页上的内容,它只能机械的匹配网页上的文字

至少由三部分组成: 爬行器(机器人、蜘蛛) 索引生成器 查询检索器

Page 29: 第二讲  网络信息资源检索

利用能够从互联网上自动收集网页的 Spider 系统程序,自动访问互联网,并沿着任何网页中的所有 URL 爬到其它网页,重复这过程,并把爬过的所有网页收集回来。

搜索引擎在搜索网站时,总是更为全面和经常地搜索常用的网站(例如用户经常点击和带有许多链接的网站)

定期搜集信息定期搜集信息

Page 30: 第二讲  网络信息资源检索

建立索引数据库建立索引数据库 由分析索引系统程序对收集回来的网页进行分析,提取相关网页信息(包括网页所在 URL 、编码类型、页面内容包含的关键词、关键词位置、生成时间、大小、与其它网页的链接关系等),根据一定的相关度算法进行大量复杂计算,得到每一个网页针对页面内容中及超链中每一个关键词的相关度(或重要性),然后用这些相关信息建立网页索引数据库。

Page 31: 第二讲  网络信息资源检索

数据的匹配数据的匹配 当用户输入关键词搜索后,由搜索系统程序从网

页索引数据库中找到符合该关键词的所有相关网页 ( 搜索引擎并不真正搜索互联网 ) 。然后,由页面生成系统将搜索结果的链接地址和页面内容摘要等内容组织起来返回给用户。

Page 32: 第二讲  网络信息资源检索

2.2 搜索引擎的类型

根据内容组织方式区分

根据搜索范围区分

根据工作语种区分

目录式搜索引擎全文搜索引擎

独立搜索引擎多元搜索引擎

单语种搜索引擎多语种搜索引擎

Page 33: 第二讲  网络信息资源检索

常用中文搜索引擎常用中文搜索引擎

百度搜索: http://www.baidu.com 天网搜索: http://e.pku.edu.cn 新浪搜索引擎: http://search.sina.com.cn 网易搜索引擎: http://www.yeah.net 搜狐: http://www.sohu.com 雅虎中文: http://cn.yahoo.com 悠游: http://www.goyoyo.com 若比邻: http://www.robot.com.cn 北极星: http://www.beijixing.com.cn 常青藤: http://www.tonghua.com.cn

Page 34: 第二讲  网络信息资源检索

常用英文搜索引擎常用英文搜索引擎

Google : http://www.google.com.hk Yahoo : http://www.yahoo.comAltavista : http://www.altavista.com/ Dogpile : http://www.Dogpile.com Excite : http://www.Excite.comHotBot : http://www.hotbot.com Infoseek : http://www.infoseek.com Lycos : http://www.lycos.com WebCrawler : http://www.Webcrawler.com

Page 35: 第二讲  网络信息资源检索

2.3 搜索引擎的一般查询规则• 布尔逻辑算符• 连接符——有加号( +)和减号( - )• 截词符• 邻近符• 空格、逗号、括号、引号• 限定字段检索• 自然语言检索• 相关信息反馈检索• 模糊检索• 概念检索

Page 36: 第二讲  网络信息资源检索

2.4 主要搜索引擎及其实用技巧

百度 Google

Page 37: 第二讲  网络信息资源检索

百度百度——全球最大的中文搜索引擎——全球最大的中文搜索引擎 百度( bǎi dù , Nasdaq:BIDU ), 2000 年 1月由李彦宏等人创立于北京中关村,致力于向人们提供“简单,可依赖”的信息获取方式。

青玉案·元夕辛弃疾 

东风夜放花千树,更吹落星如雨。宝马雕车香满路,凤箫声动,玉壶光转,一夜鱼龙舞。

  蛾儿雪柳黄金缕,笑语盈盈暗香去。众里寻他千百度,蓦然回首,那人却在,灯火

阑珊处。

Page 38: 第二讲  网络信息资源检索

一、百度的高级搜索技巧一、百度的高级搜索技巧

( 1)把搜索范围限定在网页标题中: intitle :

标题通常是对网页内容提纲挈领式的归纳。把查询内容范围限定在网页标题中,有时能获得良好的效果。

Page 39: 第二讲  网络信息资源检索
Page 40: 第二讲  网络信息资源检索

( 2)把搜索范围限定在特定站点中: site :

有时候,您如果知道某个站点中有自己需要找的东西,就可以把搜索范围限定在这个站点中,提高查询效率。使用的方式,是在查询内容的后面,加上“ site:站点域名”。

Page 41: 第二讲  网络信息资源检索
Page 42: 第二讲  网络信息资源检索

( 3)把搜索范围限定在 url链接中: inurl :

网页 url中的某些信息,常常有某种有价值的含义。于是,您如果对搜索结果的 url做某种限定,就可以获得良好的效果。实现的方式,是用“ inurl:”,后跟需要在 url中出现的关键词

Page 43: 第二讲  网络信息资源检索
Page 44: 第二讲  网络信息资源检索

( 4)精确匹配: “ ” 和《》

• 如果输入的查询词很长,百度给出的搜索结果中的查询词可能是拆分的。如果给查询词加上双引号,就可以精确检索。

• 被书名号扩起来的内容,也不会被拆分 ,比如,查电影“手机”,如果不加书名号,很多情况下出来的是通讯工具——手机,而加上书名号后,《手机》结果就都是关于电影方面的了。

• 书名号是百度独有的一个特殊查询语法,在其他搜索引擎中,书名号会被忽略,而在百度,中文书名号是可被查询的。加上书名号的查询词,有两层特殊功能:一是书名号会出现在搜索引擎中;二是被书名号扩起来的内容,不会被拆分。

Page 45: 第二讲  网络信息资源检索

( 5)要求搜索结果中不含特定查询词:减号 -

•如果您发现搜索结果中,有某一类网页是您不希望看见的,那么用减号语法,就可以去除所有这些含有特定关键词的网页。

•注意,前一个关键词,和减号之间必须有空格,否则,减号会被当成连字符处理,而失去减号语法功能。

Page 46: 第二讲  网络信息资源检索

( 6)专业文档搜索: filetype :• 很多有价值的资料,在互联网上并非以普通的网

页形式出现,而是以 Word 、 PowerPoint 、 PDF 等文档格式存在。

• 百度支持对 Office 文档(包括Word 、 Excel 、PowerPoint )、 Adobe PDF 文档、 RTF 文档的全文搜索。

• 方法为在搜索的关键词后面加一个“ filetype :”文档类型限定。“ filetype :”后可以跟以下文件格式: DOC 、 XLS 、 PPT 、 PDF 、 RTF 、 ALL 。其中, ALL 包含所有文件类型。

Page 47: 第二讲  网络信息资源检索

( 7)并行搜索:符号︱

• 可以使用“ A︱ B”来搜索或者包含词语 A,或者包含词语 B”的网页

•百度会提供与“︱”前后任何字词相关的资料,并把最相关的网页排在前列

Page 48: 第二讲  网络信息资源检索

二、百度的特色功能二、百度的特色功能

•百度知道•百度百科•百度搜藏•百度文库

Page 49: 第二讲  网络信息资源检索

Sergey Brin Larry Page

世界上世界上最好用最好用的搜索引擎的搜索引擎 Google 是由美国斯坦福大学的两位博士生 Larry Page 和 Sergey Brin

于 1998年创建的。 Google目前已成为最优秀的支持多语种的搜索引擎之一。

Page 50: 第二讲  网络信息资源检索

一、一、 GoogleGoogle 的特点的特点– 支持多达 132种语言– 提供 40多亿个搜索网页,涵盖内容齐全– 搜索速度快– 结果命中率高– 搜索结果摘录查询网页的部分具体内容,而不仅仅是网站简介

– 智能化的“手气不错”功能,提供可能最符合要求的网页

– “网页快照”功能,能从Google 服务器里直接取出缓存的网页

Page 51: 第二讲  网络信息资源检索

二、二、 GoogleGoogle 的语法的语法① 搜索引擎最基本的语法“与”“非”和“或”,这

三种搜索语法 Google分别用“ ”(空格)、“ -” 和“ OR”表示。②关键字的字母大小写 Google对英文字符大小写不敏感,“ GOD” 和

“ god” 搜索的结果是一样的。③搜索整个短语或者句子 Google 的关键字可以是单词(中间没有空格),也可以是短语(中间有空格)。但是,用短语做关键字,必须加英文引号,否则空格会被当作“与”操作符④Google对通配符支持有限。它目前只支持“ *” ,不支持?号。

Page 52: 第二讲  网络信息资源检索

三、谷歌的高级搜索技巧三、谷歌的高级搜索技巧• site:• inurl:• intitle:• link:

Page 53: 第二讲  网络信息资源检索

四、四、 GoogleGoogle 的特殊功能的特殊功能

• 图书搜索• Google学术搜索• Google 地图搜索

Page 54: 第二讲  网络信息资源检索

关于网络搜索的基本思想

– 不是互联网上所有的信息都被搜索引擎搜集– 动手前多动脑– 不要盲目信任搜索得到的信息– 不要期望一次搜索解决问题

Page 55: 第二讲  网络信息资源检索

课堂讨论题: 摄影是人们所喜爱的,知道所用的胶卷

是怎样制造的吗?其制法和工艺流程是什么?请利用所学知识检索有关资料,要求写出检索式。