关于搜索引擎spider抓取建库的问题解答
问:我们的页面本身就很大,会不会解析不出来?
答:页面本身很大倒没问题,赶集、安居客这些量都很大,没有问题。我刚才说的例子,你每次都follow出来新链接,随机把后面的参数去掉都不影响这个网页的正常访问,这种肯定有问题的。
PS:页面本身大不是问题,应该注意的是链接里的参数问题,尽快少参数,无不可避免的话,确保参数的完整性。
问:刚才说对URL的长度有要求,那对每一段、就是目录名的长度有没有要求
答:没有要求,我们是要求url从www开始到结束,总长度不超过1024个字节。
PS:不必纠结于1024个字节,URL的原则应该是简短易记忆为先。
问:站内重复内容是怎么判断的?文本内容一样结构不一样,算不算重复?
答:算重复
PS:这样还不算重复,那上什么才是重复呢?这就提醒了我们怎么就算不重复的内容了,我们可以在文本的内容和结构上做文章,调整文本的内容设置和文章的结构。
问:假设是整个页面全是Flash,如果我把一些栏目或者最新的内容隐藏掉,不影响美观隐藏掉,如果用hidden属性能不能提取出来?CSS可不可以?
答:hidden可以提出来,但如果是注释就不会管。CSS不可以。
PS:隐藏起来的内容,对于普通用户来说是看不见的,但对搜索引擎却是可见的。而CSS和js一样,他里面的内容是搜索引擎无法识别的。
问:页面大小不超过1兆,是指页面压缩以前还是以后。
答:指页面压缩以后,不要超过1兆
PS:我们只说,尽量将文件压缩到最小。因为小的文件不仅对空间是一种有效的利用,对文件的加载速度也是一种提高
问:我网站的信息已经过时了,但网页返回的是200,会受惩罚?为什么呀?
答:用户在搜索结果里点了你的结果,导流导到你的网站,但没什么可看的,对用户没有用,百度当然不喜欢。
PS:对于已经过时的页面,如果页面不存在了,那么应该返回404状态码。最大限度的满足用户的搜索需求是搜索引擎一贯的宗旨。
问:现在我们很多网站,为了让用户觉得有意思,内容没了就放一张图片,写一些有意思的话,什么“工程师去哪啦”之类的,对百度友好不?
答:最好不要用,我知道站点是想让百度当内容死链来识别,但内容死链识别起来是有准确率和召回率风险的。
PS:不要做那些欺骗用户欺骗搜索引擎的事情。
上一篇: 网站优化:网站优化排名7天真的可以上首页吗? 返 回 下一篇:网站优化:怎么学好SEO优化技术?