http://www.useragentstring.com/pages/useragentstring.php 今天分析研究了两个网站的 Apache 日志,分析日志虽然很无聊,但却是很有意义的事情,比如跟踪 SPAM 的 User Agent.顺便整理出一些搜索引擎爬虫的 User Agent,在这里分享一下,也欢迎补充. 微软 “msnbot-media/1.1 (+http://search.msn.com/msnbot.htm)”msnbot,大多数已经被bingbot替代了,现在偶尔…
Google良好的搜索和易用性已经得到了广大网友的欢迎,但是除了我们经常使用的Google网站.图像和新闻搜索之外,它还有很多其他搜索功能和搜索技巧.如果我们也能充分利用,必将带来更大的便利.这里我介绍几个很有用的搜索技巧,在平时搜索中可以结合使用. 一.限定搜索范围的技巧 .文件类型 有时候我们可能不需要搜索网页文件或者图片,我们可能想要搜索其他类型的问题,比如文档文件(Word,Excel,PPT),Flash文件,甚至是Google地图文件,我们都可以使用“filetype”功能来实现.…
实时股票数据接口 股票数据的获取目前有如下两种方法可以获取:1. http/javascript接口取数据2. web-service接口1.http/javascript接口取数据1.1Sina股票数据接口以大秦铁路(股票代码:601006)为例,如果要获取它的最新行情,只需访问新浪的股票数据接口:http://hq.sinajs.cn/list=sh601006这个url会返回一串文本,例如:var hq_str_sh601006="大秦铁路, 27.55, 27.25, 26.91, 27…
搜索引擎爬虫蜘蛛的USERAGENT大全 搜索引擎爬虫蜘蛛的USERAGENT收集,方便制作采集的朋友.   百度爬虫 * Baiduspider+(+http://www.baidu.com/search/spider.htm”) google爬虫 * Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html) * Googlebot/2.1 (+http://www.googlebot.com/bot.ht…
下面内容整理自网络 搜索运算符 如果您使用我们的基本搜索技巧后,并未找到想要搜索的内容,可以尝试使用搜索运算符.您只需在 Google 搜索框中将这些符号或字词添加到搜索字词中,即可更好地掌控要显示的搜索结果.不必担心记不住运算符,您可以使用高级搜索页生成许多此类搜索. 在使用运算符进行搜索时,请不要在运算符和查询内容之间添加任何空格.例如,搜索"site:nytimes.com"可以获取相关的搜索结果,而搜索""site: nytimes.com则无法获取搜索结果…
我们可以通过HTTP_USER_AGENT来判断是否是蜘蛛,搜索引擎的蜘蛛都有自己的独特标志,下面列取了一部分. function is_crawler() { $userAgent = strtolower($_SERVER['HTTP_USER_AGENT']); $spiders = array( 'Googlebot', // Google 爬虫 'Baiduspider', // 百度爬虫 'Yahoo! Slurp', // 雅虎爬虫 'YodaoBot', // 有道爬虫 'msn…
今天看了看模块设置里的自定义字段功能的用法,试着加了个新字段glry,设置了值,然后去数据库moduleid的article表看,字段成功加上了. 于是去template下article文件夹的list.htm和show.htm里调看看能不能调得到,结果无论是用{$t[glry]}还是{$glry}这样都调不出来,就奇怪了,模块的fileds都以 字符串的方式存储在$MOD[fields]里,试着打印出来一看,竟然没有新加的glry字段在里面,难怪取不到了.网上查了下,原来新加了自定义字段还要自…
navcat搜索字符串方法右键点击数据库 查找字符串即可..…
  什么是robots.txt文件? 搜索引擎通过一种程序robot(又称spider),自动访问互联网上的网页并获取网页信息. 您可以在您的网站中创建一个纯文本文件robots.txt,在这个文件中声明该网站中不想被robot访问的部分,这样,该网站的部分或全部内容就可以不被搜索引擎收录了,或者指定搜索引擎只收录指定的内容.   robots.txt文件放在哪里? robots.txt文件应该放在网站根目录下.举例来说,当robots访问一个网站(比如http://www.abc.com)时,…
SEO 搜索算法: 全文文字 title 标签,title里面的文字 link 链接 link 链接里的文字 站点信任度 最佳实践: 一.设置title 准确的描述当前网页的内容 提高站点内title的唯一性,帮助搜索引擎知道站点内每个网页的内容 简短,但能准确描述内容, 二.合理理由description 当前网页展示内容的一个总结 用户需要的内容准确展示出来,吸引用户点击,增加权重 禁复制部分网页内容 禁关键字的堆叠 提高站点内description的唯一性,禁一堆网页用相同的descrip…