新闻资讯

分享互联网行业资讯,探寻网站建设新风向

网站优化User-agent:后面的具有

日期:2020-01-29

  Sitemap可方便 管理员通过搜索引擎他们网站上有哪些可供抓取的网页。简单的Sitemap 形式,就是XML 形式,在其中列出网站中的网址以及关于每个网址的其他元数据(上 次更新的时间,更改的频率以及相对于网站上其他网址的重要程度为何等),以便 搜索引擎可以更加智能地抓去网站。 网络抓取工具通常会通过网站内部和其他网站上的链接查找网页。 Sitemap 会提供此数据以便允许支持 Sitemap 的抓取工具抓取 Sitemap 提供的所 有网址,并了解使用相关元数据的网址。使用 Sitemap 协议并不能保证网页会包含 在搜索引擎中,但可向网络抓取工具提供一些提示以便它们更有效地抓取网站。 Changefreq:页面内容更新频率 Lastmod:页面后修改时间 Loc:页面链接地址 Priority:相对于其他页面的优先权 url: 相对于前4 个标签的父标签 urlset:相对于前5 个标签的父标签

  是用来指定此链接相对于其他链接的优先权比值,此值定于0.0 1.0之间 Robots.txt Robot.txt 是搜索引擎中访问网站的时候要查看的个文件。Robot.txt 文件告诉 蛛程序在服务器上什么文件是可以被查看的。Robot.txt 必须放置在一个站点的 根目录 下,而且文件名必须全部小写。 User-agent:定义搜索引擎的类型 Disallow:定义禁止搜索引擎收录的地址 Allow:定义允许搜索引擎收录的地址 我们常用的搜索引擎类型有: Google 蜘蛛:googlebot 百度蜘蛛:baiduspider Yahoo 蜘蛛:yahoo!slurp Alexa 蜘蛛:ia_archiver Bing 蜘蛛:MSNbot Lycos 蜘蛛:lycos_spider_(t-rex) Alltheweb 蜘蛛:fast-webcrawler Inktomi 蜘蛛:slurp User-agent:*这里的*代表的所有的搜索引擎种类,*是一个通配符 Disallow:/admin/这里定义是禁止爬寻admin 目录下面的目录 Disallow:/ABC/这里定义是禁止爬寻ABC 整个目录 Disallow:/cgi-bin/*.htm 禁止访问/cgi-bin/目录下的所有以”.htm”为后缀的 URL(包含 子目录) Disallow:/*?/禁止访问网站中所有的动态页面 Disallow:/jpg$禁止抓取网页所有的.jpg 格式的图片 Disallow:/ab/abc.html 禁止爬去ab 文件夹下面的abc.html 文件。 User-agent: 这里的*代表的所有的搜索引擎种类,*是一个通配符Allow: /cgi-bin/ 这里定义是允许爬寻cgi-bin 目录下面的目录 Allow: /tmp 这里定义是允许爬寻tmp 的整个目录 Allow: .htm$ 仅允许访问以.htm为后缀的URL。 Allow: .gif$ 允许抓取网页和gif 格式图片 Robots.txt 文件用法举例 禁止所有搜索引擎访问网站的任何部分User-agent:* Disallow:/ 实例分析:淘宝网的robots.txt 文件 User-agent:Baiduspider Disallow:/ 很明显淘宝不允许百度的机器人访问其网站下其所有的目录。 允许所欲的robot访问(或者也可以建一个空文件”/robots.txt”file) User-agent:* Allow: 禁止某个搜索引擎的访问User-agent: Badbot Disallow:/ 允许某个搜索引擎的访问User-agent:Baiduspider Allow:/ 一个简单的例子在这个例子中,该网站有三个目录对搜索引擎的访问做了限制,即搜索引擎不会访 问这三个目录。需要注意的是对每一个目录必须分开声明,而不要写 成”Disallow:/cgi-bin//tmp/”。网站优化User-agent:后面的*具有特殊的含义,代表”any robot”, 所以在该文件中不能 有”Disallow:/tmp/*”or”Disallow:*.gif”这样的记录出现。 User-agent:* Disallow:/cgi-bin/ Disallow:/tmp/ Disallow:/ ~joe/ Robot 特殊参数: 允许Googlebot: 如果你要拦截除 Googlebot 以外的所有漫游器不能访问你的网页,可以使用下列语 User-agent:Disallow:/ User-agent:Googlebot Disallow: Googlebot 跟随指向它自己的行,而不是指向所有的漫游器的行。 “Allow”扩展名: Googlebot 可识别称为”Allow”的robots.txt 标准扩展名。其他搜索引擎的漫游器可能 无法识别此扩展名,因此请使用你感兴趣的其他搜索有引擎进行查找。”Allow”行的 作用原理完全与”Disallow”行一样。只需列出你要允许的目录或页面即可。 你也可以同时使用“Allow”和”Disallow”。例如,要拦截子目录中某个页面之外的其他 所有页面,网站优化可以使用下列条目:、 User-agent:Googlebot Disallow:/folder1/ Allow:/folder1/myfile.html 这些条目将拦截folder1 目录内除myfile.html 之外的所有页面。 如果你要拦截googlebot 并允许google 的另一个漫游器(如Googlebot-Mobile),可 使用“Allow”规则允许该漫游器的访问。例如: User-agent:Googlebot Disallow:/ User-agent:Googlebot-Mobile Allow: 使用星号(*)匹配字符序列: 例如,要拦截对所有以private 开头的子目录的访问,可使用下列条目: User-agent:Googlebot Disallow:/private*/ 要拦截对所有包含问号(?)的网址的访问,可使用下列条目: User-agent:* Disallow:/*?*(禁止访问网站中所有的动态画面) 使用$匹配网址的结束字符 你可使用$字符指定与网址的结束字符进行匹配。例如,网站优化要拦截以.asp 结尾的网址, 可使用下列条目: User-agent:Googlebot Disallow:/*.asp$ 您可将此模式匹配与 Allow 指令配合使用。例如,如果 表示一个会话ID,您可 排除所有包含该 ID 的网址,确保 Googlebot 不会抓取重复的网页。但是,以 尾的网址可能是您要包含的网页版本。在此情况下,可对robots.txt 文件进行如下 设置: User-agent:* Allow:/*?$ Disallow:/*? Disallow:/ *?一行将拦截包含 的网址(具体而言,它将拦截所有以您的域名开头、后接任意字符串,然后是问号 (?),而后又是任意字符串的网址)。 Allow: 结尾的网址(具体而言,它将允许包含所有以您的域名开头、后接任意字符串,然后是问号 (?),问号之后没有任何字符 的网址)。 Robots Meta 标签 Robots.txt 文件只要是限制整个站点或者目录的搜索引擎访问情况,而 Robots Meta 标签则主要是针对一个个具体的页面。和其他META 标签(如使用的语言、页 面的描述、关键词等)一样,Robots Meta 标签也是放在页面中,专门用来告诉搜 索引擎robots 如何抓取该页的内容。 Robots Meta 标签中没有大小写之分,name=”Robots”表示所有的搜索引擎,可 以针对某个具体搜索引擎写为 name=”Baiduspider”。Content 部分有四个指令选项: index、noindex、follow、nofollow,指令间以“,”分割。 Index 指令告诉搜索机器人抓取该页面; Follow 指令表示搜索机器人可以沿着该页面上的链接继续抓取下去; Robots Meta 标签的缺省值是index 和follow,只有inktomi 除外,对于它,缺 省值是index、nofollow。 需要注意的是:上述的 robots.txt RobotsMeta 标签限制搜索引擎机器人 (ROBOTS)抓取站点内容的办法只是一个规则,需要搜索引擎机器人的配合才行, 并不是每个ROBOTS 都遵守的。 目前看来,绝大多数的搜索引擎机器人都遵守robots.txt 的规则,而对于Robots Meta 标签,目前支持的并不多,但是正在逐渐增加,如著名的搜索引擎 google 完全支持,而且google还增加了一个指令”archive”,可以限制google 是否保留网页 快照。 Robots.txt Robots 里面内容的大小写不可更改,Disallow 后面的冒号必须为英文状态的。 Robots.txt 使用技巧 文件 每当用户试图访问某个不存在的URL时,服务器都会在日志中记录404 错误(无法 找到文件)。每当搜索蜘蛛来寻找并不存在的robots.txt 文件时,服务器也将在日志 中记录一条404 错误,所以你应该在网站中添加一个robots.txt 文件。 网站管理员必须使蜘蛛程序原理某些服务器上的目录—保证服务器性能。比如:大多数网站服务器都有程序存在”cgi-bin” 目录下,因此在 robots.txt 文件中加 入:Disallow:/cgi-bin”是个好主意,这样能够避免将所有程序文件被蜘蛛索引,可以 节省服务器资源。一般网站中不需要蜘蛛住区的文件有:后台管理文件、程序脚本、 附件、数据库文件、网站优化编码文件、样式表文件、模板文件、导航图片和背景图片等等。 下面是VeryCMS 里的robots.txt 文件: User-agent:* Disallow:/admin/后台管理文件 Disallow:/require/程序文件 Disallow:/attachment/附件 Disallow:/images/图片 Disallow:/data/数据库文件 Disallow:/template/模板文件 Disallow:/css/样式表文件 Disallow:/lang/编码文件 Disallow:/script/脚本文件 如果你的网站是动态页面,并且你为这些动态网页创建了静态副本,以供搜索蜘蛛更容易抓取,那么你需要在 robots.txt 文件里设置避免动态网页被指蜘蛛索引,以 保证这些网页不会被视为含重复的内容。 Robots.txt文件里还可以直接包括在sitemap 文件的链接。就像这样: Sitemap:http:/此处请填写XML 地图的路径,即完整的 URL, 如果按照习惯填写 Sitemap:/sitemap.xml,提交后悔提示,检测到无效的Sitemap 网址;语法错误。XML 地图必须在网站跟目录下才有效) 目前对此表示支持的搜索引擎有 google,yahoo,ask MSN。问中文搜索引擎,显然不在这个圈子内。这样做的好处就是,站长不用到每个搜索引擎的站 长工具或者相似的站长部分,去提交自己的 sitemap 文件,搜索引擎的蜘蛛自己就 会抓取robots.txt 文件,读取其中的sitemap 路劲,接着抓取其中相链接的网页。 合理使用robots.txt 文件还能避免访问时出错。比如,网站优化不能让搜索者直接进入购物 车页面。因为没有理由使购物车被收录,所以你可以在 robots.txt 文件里设置搜索 者直接进入购物车页面。 Robots.txt 文件的格式 “robots.txt”文件包含一条或更多的记录,这些记录通过空行分开(以CR,CR/NL,or NL 作为结束符),每一条记录的格式如下所示: “

  ”。 在该文件中可以使用#进行注解,具体使用方法和UNIX 中的习惯一样。该文件中的 记录通常以一行或多行 User-agent 开始,后面加上若干Disallow 和Allow 行,详细 情况如下: User-agent: 该项的值用于描述搜索引擎robot 名字。在robots.txt文件中,如果有多条User-agent 记录说明有多个robot 会受到robots.txt的限制,对该文件来 说,至少 要有一条 User-agent 记录。如果该项的值设为*,则对任何 robot 均有效,在 robots.txt文件中,User- agent:*这样的记录只能有一条。如果在robots.txt文件 中,加入User-agent:SomeBot和若干 Disallow、 Allow 行,那么名为SomeBot只 受到User-agent:SomeBot后面的Disallow 和Allow 行的限制。 Disallow: 该项的值用于描述不希望被访问的一组 URL,这个值可以是一条完整的路径, 也可以是路径的非空 前缀,以Disallow 项的值开头的URL 不会被robot 访问。网站优化例如 Disallow:/help禁止 robot 访问/help.html、 /helpabc.html、/help/index.html,而 Disallow:/help/ 则允许 robot 访问/help.html /helpabc.html,不能访问 /help/index.html。Disallow:说明允许robot 访问该网站的所有url,在 /robots.txt 文件中,至少要有一条Disallow 记录。如果/robots.txt不存在或者为空文件,则对 于所有的搜索引擎 robot,该网站都是开放的。 Allow: 该项的值用于描述希望被访问的一组 URL,与Disallow 项相似,这个值可以是 一条完整的 路径,也可以是路径的前缀,以Allow 项的值开头的URL 是允许robot 访问的。例如Allow:/hibaidu允许 robot 访问 /hibaidu.htm、/hibaiducom.html、 /hibaidu/com.html。一个网站的所有URL 默认是Allow的,所以 Allow通常与Disallow 搭配使用,实现允许访问一部分网页同时禁止访问其它所有URL 的功能。 需要特别注意的是Disallow 与Allow 行的顺序是有意义的,robot 会根据个 匹配成功的Allow 或Disallow 行确定是否访问某个URL。 使用*和$: Baiduspider 支持使用通配符*和$来模糊匹配url。 匹配0或多个任意字符。 蜘蛛访问任何一个网站时,都会先访问网站根目录下的robots.txt 文件。 蜘蛛要做的就是尽量抓取重要页面。哪些页面被认为权重比较高呢。有几个方面影 网站和页面权重。质量高、资格老的网站被认为权重比较高,这种网站上的页面被爬行的深度也会比较高,所以,会有更多的页面被收录 页面更新度。蜘蛛每次爬行都会把页面数据存储起来。如果第二次爬行发现页面与次收录的完全一样,说明页面没有更新,蜘蛛也就没有必要经常抓取。 如果页面内容经常更新,蜘蛛就会更加频繁地访问这种页面,页面上出现的新 链接,也自然会被蜘蛛更快地跟踪,抓取新页面。 导入链接。无论是外部链接还是同一个网站的内部链接,要被蜘蛛抓取,就必须有导入链接进入页面,否则蜘蛛根本没有机会知道页面的存在。高质量的导 入链接也经常使页面上的导出链接被爬行深度增加。 与页面点击距离。一般来说网站上权重的是首页,大部分外部链接是指向首页的,蜘蛛访问的频繁的也是首页。离首页点击距离越近,页面权重越高, 被蜘蛛爬行的机会也越大。
以上信息由常州声谷信息科技有限公司整理编辑,了解更多网站优化,网站优化代理,单词优化,网站优化哪家好,单词优化代理,正规网站优化代理信息请访问http://www.shengguxinxi.com