搜索引擎术语大全(一)
半结构化数据(semi-structured data),和普通纯文本相比,WEB上的网页数据具 有一定的结构性,表现在其中的HTML标上;但和具有严格理论模型的关系数据库的 数据相比,这各HTML标注带来的结构性又要弱很多,因此人们称WEB上的数据为半 结构化数据,这是WEB上数据的基本特点。
布尔模型(boolean model),在信息检索领域,不同的场合有不同的含义。当我们 讨论用户提交查询的时候,指的是形成最终查询结果集合,由一个查询的各个成 分对查询结果子集之间所要求的一种运算关系;面在讨论文档比较的向量空间模 型中,布尔模型指的是构成一个文档向量的各个分量只取1和0两个值,分别代表 对应特征项的出现与否。
查全率(recall), 判断检索系统质量的一种度量,表示系统所检索到的与查询相
关的文档数点与查询的总文档数的百分比。
查询(query),用户使用信息系统提供的输入语言和规则对自己信息需求的一种表
达。常用的输入语言包含关键词规范和一些布尔连接符。
查准率(Precision),判断检索系统质量的一种度量。系统所检索到的与查询相关
的文档数占检索出的所有文档数的百分比,即反映检索结果“正确性”的度量。
词典(Vocabulary),文档(或文档集合)中所有不同词项的集合。
词频(term frequency, tf或TF),TF(i,j)是指一个词项ti在一篇文档dj中出现的
次数。
倒排文件(inverted file),组纷呈和索引文件,以便于检索的一种方法。在该方
法中,一个关键字集合基础,该集合中每一个关键字对应一串记录项,其中每一
项包含一个文档编号、该关键字在该文档中出现的情况等信息。
倒置文档频率(inversed document frequency, idf或IDF),通常IDF(ti)取值为
log(N/ni),其中N是所有文档的总数,ni是在N个文档中包含词项ti的文档数。
动态摘要(dynamic adstract),做文档摘要的一种方法。对于搜索引擎来说,就是
在响应用户查询的时候,根据查询词在文档中出现的位置,提取取出查询词周围
相关的文字并返回给用户。由于一篇文档会含有不同的查询词,因此动态摘要技
术可能把同一个文档形成不同的摘要文字。
共有词汇假设(shared bag of words),信息检索技术的一个最基本假设,即认为
文档含义可以由它所包含的集合来表达。
局部性原则(locality principle),是程序行为的一种性质。 它包括:时间局部
和空间局部性。前者指的是,如果某数据刚才被访问,则它很可能在近期内还要
被访问;后者指的是,如果某数据刚才被访问,则和它位置上相邻的数据很可能
被访问。
链接分析(link analysis):WEB上的网页及其相互之间的链接可以看成一个巨大的
有向图,链接分析指的是利用网页之间的链接信息来评判其重要性(或者相关性
)的技术。常用的链接信息包含网而的出度、入度,锚文本内容等;常用的链接
分析算法有:PageRank, HITS, SALSA,PHITS,Bayesian等。
锚文本(anchor text),HTML广西中的链接描述信息,向读者提示链接所指向网页
的性质或特征。例如,在一篇网页中写有<a href="">新
闻频道</a>,则"新闻频道"就是链接href=""在本网页中的
锚文本。
目录型网页(hub page),该网页提供很多指向其它权威型网页的超链接。是与权威
型网页相对应的。 齐普夫定律(Zipf's law),由美国学者G.K.齐普夫于上个世纪40年代提出的词频
分布定律。它可以表述为:如果把一篇较长的文档中每个词出现的频次统计起来
,按照高频词在前、低频词在后的递减顺序排列,并用自然数给这些词编上等级
序号,即频次最高的词等级为1,频次次之的等级为2,......。 若用f表示频次
,r表示等级序号,则有f=C/r(C为常数)。
切词(word segmentation),或分词,主要在中文信息处理中使用,即把一句话分
成一个词的序列。如,“站长赚钱讨论”,分词为“站长 赚钱 讨论”。
全文检索(full text retrieval),文本信息检索的一种方法(或者说是一种精细程
度),其特点是不公文档中出现的每一个词都可以被检索出来,而且每个词的每一
次出现也要台被检索出来。
权威型网页(authority page), 网页内容通常有一个特定的主题,并且被许多其
它网页链接,是与目录型网页相对应的一个概念。
散列表(Hash Table),或称哈希表,是一种数据结构,它便于快速信息查找。散
列生成时为表中的每项数据分配一个随机索引代码。这种索引代码的随机性使得
数据的分布比较均匀,从页可能大大节省后续查找的时间。
数字图书馆(digital libarary),一个数字信息对像收藏、组织和表现这些对象的
方法以及将这些对象提供给用户的相关的信息技术。它包括支持用户进行定位、
检索和获取这些信息对象的服务。
索引词载体信息(index term carrier),HTML的标签信息标识了文档中索引词的字
体和大小写等信息。
停用词(stop word),指文档中出现的连词,介词,冠词等并无太大意义词。例如 在英文中常用的停用词有the a it 等,在中文中常见的有“是”、“的”、“地
”(例如站长网是中国站最喜爱的家园。很明显"的"是停用词)
URL深度,通俗点讲就是一个顶级域名含有多少个二级以上的域名。 (这个在SEO也比较重要比如你的顶级域名恩作弊被K之后你的二级域名如果运动好话不会被K,甚至连权,也不会降低。)
URL 目录深度,网页对应的url 中除去域名部分的目录层次,即
url=schema://host/localpath中的localpath部分。如url为
, 则目录深度为0;如果是/admin/
,则目录深度为1。(个人认为只要对目录进行优化,目录深度不会影响搜索引擎
搜索你的网页,例如用相关的拼音或者英文做目录名称当然中文也是可行的,只
不过搜索引擎对中文目录名的分析能力不是很强,个人感觉搜狗的中文目录名的分
析能力要比百度和google的强,google的英文目录名的分析能力就没得说了,地球
人都知道)。
网页出度(pate outdegree),针对一个网页,该网页指向其他网页的超级链接数目
。(百度对网页中内容的内的链接比较敏感所以在网页中的关键字做一些自己站内的链接是增加排名的好方法。)
网页净化(noise reduction),识别并去除网页噪音的过程;即支队网页内与该网
页主题内容无关的信息,如广告、版权信息等。(一般就是JS VBS的代码和
ifream框架 目前只发现百度去除网页低部的版权信息,其它的搜索引擎没有去除
,大家可以去搜索一些关键词来比较一下)。
网页爬取器(gatherer),指网页搜索集子系统中根据url完成一篇见面爬取的进程
或者线程,通常一个搜索子系统上会同时启动多个gatherer并行工作。
网页入度(page indegree),针对一个网页,整个网络中指向该网页的超级链接数
目。(比如现在比较流行的博客上发一些含有一些关键字的日志来指向自己的网站
还是就是做友情链接)。 |