常州声谷信息科技有限公司-网站优化User-agent:后面的具有

网站优化User-agent:后面的具有

日期：2020-01-29

　　Sitemap可方便管理员通过搜索引擎他们网站上有哪些可供抓取的网页。简单的Sitemap 形式，就是XML 形式，在其中列出网站中的网址以及关于每个网址的其他元数据（上次更新的时间，更改的频率以及相对于网站上其他网址的重要程度为何等），以便搜索引擎可以更加智能地抓去网站。网络抓取工具通常会通过网站内部和其他网站上的链接查找网页。 Sitemap 会提供此数据以便允许支持 Sitemap 的抓取工具抓取 Sitemap 提供的所有网址，并了解使用相关元数据的网址。使用 Sitemap 协议并不能保证网页会包含在搜索引擎中，但可向网络抓取工具提供一些提示以便它们更有效地抓取网站。 Changefreq：页面内容更新频率 Lastmod:页面后修改时间 Loc:页面链接地址 Priority:相对于其他页面的优先权 url: 相对于前4 个标签的父标签 urlset:相对于前5 个标签的父标签

　　是用来指定此链接相对于其他链接的优先权比值，此值定于0.0 1.0之间 Robots.txt Robot.txt 是搜索引擎中访问网站的时候要查看的个文件。Robot.txt 文件告诉蛛程序在服务器上什么文件是可以被查看的。Robot.txt 必须放置在一个站点的根目录下，而且文件名必须全部小写。 User-agent:定义搜索引擎的类型 Disallow:定义禁止搜索引擎收录的地址 Allow:定义允许搜索引擎收录的地址我们常用的搜索引擎类型有： Google 蜘蛛：googlebot 百度蜘蛛：baiduspider Yahoo 蜘蛛：yahoo!slurp Alexa 蜘蛛：ia_archiver Bing 蜘蛛：MSNbot Lycos 蜘蛛：lycos_spider_(t-rex) Alltheweb 蜘蛛：fast-webcrawler Inktomi 蜘蛛：slurp User-agent:*这里的*代表的所有的搜索引擎种类，*是一个通配符 Disallow:/admin/这里定义是禁止爬寻admin 目录下面的目录 Disallow:/ABC/这里定义是禁止爬寻ABC 整个目录 Disallow:/cgi-bin/*.htm 禁止访问/cgi-bin/目录下的所有以”.htm”为后缀的 URL（包含子目录） Disallow:/*?/禁止访问网站中所有的动态页面 Disallow:/jpg$禁止抓取网页所有的.jpg 格式的图片 Disallow:/ab/abc.html 禁止爬去ab 文件夹下面的abc.html 文件。 User-agent: 这里的*代表的所有的搜索引擎种类，*是一个通配符Allow: /cgi-bin/ 这里定义是允许爬寻cgi-bin 目录下面的目录 Allow: /tmp 这里定义是允许爬寻tmp 的整个目录 Allow: .htm$ 仅允许访问以.htm为后缀的URL。 Allow: .gif$ 允许抓取网页和gif 格式图片 Robots.txt 文件用法举例禁止所有搜索引擎访问网站的任何部分User-agent:* Disallow:/ 实例分析：淘宝网的robots.txt 文件 User-agent:Baiduspider Disallow:/ 很明显淘宝不允许百度的机器人访问其网站下其所有的目录。允许所欲的robot访问(或者也可以建一个空文件”/robots.txt”file) User-agent:* Allow: 禁止某个搜索引擎的访问User-agent: Badbot Disallow:/ 允许某个搜索引擎的访问User-agent:Baiduspider Allow:/ 一个简单的例子在这个例子中，该网站有三个目录对搜索引擎的访问做了限制，即搜索引擎不会访问这三个目录。需要注意的是对每一个目录必须分开声明，而不要写成”Disallow:/cgi-bin//tmp/”。网站优化User-agent:后面的*具有特殊的含义，代表”any robot”，所以在该文件中不能有”Disallow:/tmp/*”or”Disallow:*.gif”这样的记录出现。 User-agent:* Disallow:/cgi-bin/ Disallow:/tmp/ Disallow:/ ~joe/ Robot 特殊参数：允许Googlebot: 如果你要拦截除 Googlebot 以外的所有漫游器不能访问你的网页，可以使用下列语 User-agent:Disallow:/ User-agent:Googlebot Disallow: Googlebot 跟随指向它自己的行，而不是指向所有的漫游器的行。 “Allow”扩展名： Googlebot 可识别称为”Allow”的robots.txt 标准扩展名。其他搜索引擎的漫游器可能无法识别此扩展名，因此请使用你感兴趣的其他搜索有引擎进行查找。”Allow”行的作用原理完全与”Disallow”行一样。只需列出你要允许的目录或页面即可。你也可以同时使用“Allow”和”Disallow”。例如，要拦截子目录中某个页面之外的其他所有页面，网站优化可以使用下列条目：、 User-agent:Googlebot Disallow:/folder1/ Allow:/folder1/myfile.html 这些条目将拦截folder1 目录内除myfile.html 之外的所有页面。如果你要拦截googlebot 并允许google 的另一个漫游器（如Googlebot-Mobile），可使用“Allow”规则允许该漫游器的访问。例如： User-agent:Googlebot Disallow:/ User-agent:Googlebot-Mobile Allow: 使用星号(*)匹配字符序列：例如，要拦截对所有以private 开头的子目录的访问，可使用下列条目： User-agent:Googlebot Disallow:/private*/ 要拦截对所有包含问号(?)的网址的访问，可使用下列条目： User-agent:* Disallow:/*?*(禁止访问网站中所有的动态画面) 使用$匹配网址的结束字符你可使用$字符指定与网址的结束字符进行匹配。例如，网站优化要拦截以.asp 结尾的网址，可使用下列条目： User-agent:Googlebot Disallow:/*.asp$ 您可将此模式匹配与 Allow 指令配合使用。例如，如果表示一个会话ID，您可排除所有包含该 ID 的网址，确保 Googlebot 不会抓取重复的网页。但是，以尾的网址可能是您要包含的网页版本。在此情况下，可对robots.txt 文件进行如下设置： User-agent:* Allow:/*?$ Disallow:/*? Disallow:/ *?一行将拦截包含的网址（具体而言，它将拦截所有以您的域名开头、后接任意字符串，然后是问号 (?)，而后又是任意字符串的网址）。 Allow: 结尾的网址（具体而言，它将允许包含所有以您的域名开头、后接任意字符串，然后是问号 (?)，问号之后没有任何字符的网址）。 Robots Meta 标签 Robots.txt 文件只要是限制整个站点或者目录的搜索引擎访问情况，而 Robots Meta 标签则主要是针对一个个具体的页面。和其他META 标签（如使用的语言、页面的描述、关键词等）一样，Robots Meta 标签也是放在页面中，专门用来告诉搜索引擎robots 如何抓取该页的内容。 Robots Meta 标签中没有大小写之分，name=”Robots”表示所有的搜索引擎，可以针对某个具体搜索引擎写为 name=”Baiduspider”。Content 部分有四个指令选项： index、noindex、follow、nofollow，指令间以“,”分割。 Index 指令告诉搜索机器人抓取该页面； Follow 指令表示搜索机器人可以沿着该页面上的链接继续抓取下去； Robots Meta 标签的缺省值是index 和follow，只有inktomi 除外，对于它，缺省值是index、nofollow。需要注意的是：上述的 robots.txt RobotsMeta 标签限制搜索引擎机器人（ROBOTS）抓取站点内容的办法只是一个规则，需要搜索引擎机器人的配合才行，并不是每个ROBOTS 都遵守的。目前看来，绝大多数的搜索引擎机器人都遵守robots.txt 的规则，而对于Robots Meta 标签，目前支持的并不多，但是正在逐渐增加，如著名的搜索引擎 google 完全支持，而且google还增加了一个指令”archive”，可以限制google 是否保留网页快照。 Robots.txt Robots 里面内容的大小写不可更改，Disallow 后面的冒号必须为英文状态的。 Robots.txt 使用技巧文件每当用户试图访问某个不存在的URL时，服务器都会在日志中记录404 错误（无法找到文件）。每当搜索蜘蛛来寻找并不存在的robots.txt 文件时，服务器也将在日志中记录一条404 错误，所以你应该在网站中添加一个robots.txt 文件。网站管理员必须使蜘蛛程序原理某些服务器上的目录—保证服务器性能。比如：大多数网站服务器都有程序存在”cgi-bin” 目录下，因此在 robots.txt 文件中加入:Disallow:/cgi-bin”是个好主意，这样能够避免将所有程序文件被蜘蛛索引，可以节省服务器资源。一般网站中不需要蜘蛛住区的文件有：后台管理文件、程序脚本、附件、数据库文件、网站优化编码文件、样式表文件、模板文件、导航图片和背景图片等等。下面是VeryCMS 里的robots.txt 文件： User-agent:* Disallow:/admin/后台管理文件 Disallow:/require/程序文件 Disallow:/attachment/附件 Disallow:/images/图片 Disallow:/data/数据库文件 Disallow:/template/模板文件 Disallow:/css/样式表文件 Disallow:/lang/编码文件 Disallow:/script/脚本文件如果你的网站是动态页面，并且你为这些动态网页创建了静态副本，以供搜索蜘蛛更容易抓取，那么你需要在 robots.txt 文件里设置避免动态网页被指蜘蛛索引，以保证这些网页不会被视为含重复的内容。 Robots.txt文件里还可以直接包括在sitemap 文件的链接。就像这样： Sitemap:http:/此处请填写XML 地图的路径，即完整的 URL, 如果按照习惯填写 Sitemap:/sitemap.xml，提交后悔提示，检测到无效的Sitemap 网址；语法错误。XML 地图必须在网站跟目录下才有效) 目前对此表示支持的搜索引擎有 google，yahoo，ask MSN。问中文搜索引擎，显然不在这个圈子内。这样做的好处就是，站长不用到每个搜索引擎的站长工具或者相似的站长部分，去提交自己的 sitemap 文件，搜索引擎的蜘蛛自己就会抓取robots.txt 文件，读取其中的sitemap 路劲，接着抓取其中相链接的网页。合理使用robots.txt 文件还能避免访问时出错。比如，网站优化不能让搜索者直接进入购物车页面。因为没有理由使购物车被收录，所以你可以在 robots.txt 文件里设置搜索者直接进入购物车页面。 Robots.txt 文件的格式 “robots.txt”文件包含一条或更多的记录，这些记录通过空行分开（以CR,CR/NL,or NL 作为结束符），每一条记录的格式如下所示： “

　　”。在该文件中可以使用#进行注解，具体使用方法和UNIX 中的习惯一样。该文件中的记录通常以一行或多行 User-agent 开始，后面加上若干Disallow 和Allow 行，详细情况如下： User-agent: 该项的值用于描述搜索引擎robot 名字。在robots.txt文件中，如果有多条User-agent 记录说明有多个robot 会受到robots.txt的限制，对该文件来说，至少要有一条 User-agent 记录。如果该项的值设为*，则对任何 robot 均有效，在 robots.txt文件中，User- agent:*这样的记录只能有一条。如果在robots.txt文件中，加入User-agent:SomeBot和若干 Disallow、 Allow 行，那么名为SomeBot只受到User-agent:SomeBot后面的Disallow 和Allow 行的限制。 Disallow: 该项的值用于描述不希望被访问的一组 URL，这个值可以是一条完整的路径，也可以是路径的非空前缀，以Disallow 项的值开头的URL 不会被robot 访问。网站优化例如 Disallow:/help禁止 robot 访问/help.html、 /helpabc.html、/help/index.html，而 Disallow:/help/ 则允许 robot 访问/help.html /helpabc.html，不能访问 /help/index.html。Disallow:说明允许robot 访问该网站的所有url，在 /robots.txt 文件中，至少要有一条Disallow 记录。如果/robots.txt不存在或者为空文件，则对于所有的搜索引擎 robot，该网站都是开放的。 Allow: 该项的值用于描述希望被访问的一组 URL，与Disallow 项相似，这个值可以是一条完整的路径，也可以是路径的前缀，以Allow 项的值开头的URL 是允许robot 访问的。例如Allow:/hibaidu允许 robot 访问 /hibaidu.htm、/hibaiducom.html、 /hibaidu/com.html。一个网站的所有URL 默认是Allow的，所以 Allow通常与Disallow 搭配使用，实现允许访问一部分网页同时禁止访问其它所有URL 的功能。需要特别注意的是Disallow 与Allow 行的顺序是有意义的，robot 会根据个匹配成功的Allow 或Disallow 行确定是否访问某个URL。使用*和$： Baiduspider 支持使用通配符*和$来模糊匹配url。匹配0或多个任意字符。蜘蛛访问任何一个网站时，都会先访问网站根目录下的robots.txt 文件。蜘蛛要做的就是尽量抓取重要页面。哪些页面被认为权重比较高呢。有几个方面影网站和页面权重。质量高、资格老的网站被认为权重比较高，这种网站上的页面被爬行的深度也会比较高，所以，会有更多的页面被收录页面更新度。蜘蛛每次爬行都会把页面数据存储起来。如果第二次爬行发现页面与次收录的完全一样，说明页面没有更新，蜘蛛也就没有必要经常抓取。如果页面内容经常更新，蜘蛛就会更加频繁地访问这种页面，页面上出现的新链接，也自然会被蜘蛛更快地跟踪，抓取新页面。导入链接。无论是外部链接还是同一个网站的内部链接，要被蜘蛛抓取，就必须有导入链接进入页面，否则蜘蛛根本没有机会知道页面的存在。高质量的导入链接也经常使页面上的导出链接被爬行深度增加。与页面点击距离。一般来说网站上权重的是首页，大部分外部链接是指向首页的，蜘蛛访问的频繁的也是首页。离首页点击距离越近，页面权重越高，被蜘蛛爬行的机会也越大。
以上信息由常州声谷信息科技有限公司整理编辑，了解更多网站优化,网站优化代理,单词优化,网站优化哪家好,单词优化代理,正规网站优化代理信息请访问http://www.shengguxinxi.com

新闻资讯

网站优化User-agent:后面的具有

常州声谷信息科技有限公司