首页 > 上网技巧 > 电脑小技巧 > 百度和谷歌是怎么抓取flash里的文字的

百度和谷歌是怎么抓取flash里的文字的

时间:2014-09-04 17:20 作者:QQ地带 我要评论

大家都知道例如百度文库内容都是在flash里,查看源码的时候是无法看到文字的,那么搜索引擎百度和谷歌是怎么抓取的呢。
 
很多人以为是和swfobject有关系,实际上百度文库对Google机器人做了优化。机器人抓到的内容比用户直接浏览多了一个容器<div id="textContainer" class="mt">,里面包含了pdf文档的文字内容。
 
>>>windows怎么使用wget命令
 
wget http://wenku.baidu.com/view/287a8dd7c8d376eeaeaa317c.html -O baidu.txt
 
wget --user-agent="Googlebot/2.1 (+http://www.googlebot.com/bot.html)" http://wenku.baidu.com/view/287a8dd7c8d376eeaeaa317c.html -O google.txt
 
比较这两个txt文件你就明白了。
 
但是,事实上,谷歌要高端一些。来自谷歌官方的文献说明:
 
Googlebot 几乎可将用户与您网站上的任意 Flash SWF 文件交互时看到的任意文字编入索引,并使用这些文字生成摘要,或与 Google 搜索中的查询字词匹配。另外,Googlebot 还可以发现 SWF 文件中的网址(例如,指向您网站上其他网页的链接),并跟踪这些链接。
 
我们抓取此内容并将其编入索引的方式与我们抓取您网站上其他内容并将其编入索引的方式相同,您无需执行任何特殊操作。不过,我们不保证一定可以抓取所有内容(Flash 或其他内容)并将其编入索引。
 
如果 SWF 文件加载其他一些文件(无论是文本、HTML、XML、其他 SWF 等)的内容,Google 也可以将此外部内容编入索引,并将其与父 SWF 文件及其嵌入到的任何文档相关联。
 
我们一直在努力改进 Flash 文件的编入索引过程,但目前仍存在一些限制。例如,我们目前无法将 Flash 文件中的双向语言内容(如希伯来语或阿拉伯语)编入索引。
 
请注意,虽然 Google 可以将 Flash 文件的内容编入索引,但其他搜索引擎可能还做不到。因此,我们建议您将 Falsh 等富媒体技术主要用于装饰目的,而针对内容和导航使用 HTML。这不但可以让您的网站更便于抓取工具处理,也能让它获得更多的受众,包括如因视力障碍需使用屏幕读取器的用户、使用较早的版本或非标准浏览器的用户,以及带宽有限或较低的用户(如手机或移动设备用户)。好处还不止这些,将 HTML 用于导航时,用户可将内容添加为书签并可通过电子邮件发送直接链接。

标签: flash
顶一下
(0)
0%
踩一下
(0)
0%

Google提供的广告