Google在隐形网页的探索
Google在隐形网页的探索——互联网中的一个大规模的PDF搜索引擎 Google推出了PDF文件的搜索新功能,这标示着Google在隐形网页的搜索取得了成功。我们知道,PDF文件的资源并不象HTML文件那样丰富,但是由于PDF文件通常包含大量的信息资源,因此它也是组成互联网资源的重要部分。尽管大多数的主要搜索引擎都希望能够对隐形网页进行搜索,但是他们的的数据库中不包含PDF文件的有关信息。 为什么这些搜索引擎不能搜索PDF文件呢? 与HTML语言的文件相比,PDF文件生成包含更复杂的技术,因此索引起来会比较麻烦。比如说,简单的HTML文件可能只有一两页,但即使很小的PDF文件也常常包含数十页的内容。 在Google中如何查找PDF文件? 目前,在Google中搜索资料时,会提供pdf文件的搜索结果。由于PDF文件需要特殊的阅读器,Adobe acrobat reader,因此Google提供的PDF文件的搜索结果与HTML的大不相同。你可以看到在搜索结果前以蓝色文本显示 [PDF]。另外,原来的相似网页功能会被替换成 文本形式(Text Version)。如果点击Text Version,会看到内容是以文本形式显示的,显然,Goolgle事先将Pdf文件做了格式转化。为什么Google要这样做呢?实际上只有转化成文本形式,Google才能对Pdf文件也采用类似网页的排序方法,同样才能对PDF文件进行关键字的匹配。此外,Google的这种做法可以使用户在不启动Adobe Acrobat的时候也能看PDF文件,这样就可以节省计算机资源,同时也能加快速度。 如果我不想看pdf文件的搜索结果该怎么办呢? 很简单,输入 –inurl:pdf 就可以了。 Google目前大约已经索引了1300万个PDF文件,尽管这仍然只是隐形网页的很少部分,但这的确揭示了Google在探索隐形网页方面的决心与能力。 |
