前言

网络蜘蛛无法解析javascript，至少百度是不能的，神马搜索差的更远，而我们的webapp的渲染展示完全由javascript驱动

所以蜘蛛访问webapp页面会得到一个白页面，比如，我们期待SEO看到的是这个样子的网页

其实他看到的是这个样子的代码：

那么这个问题应该如何处理呢？比较早的处理方案是提供两套代码，一套用于webapp一套用于SEO，比如：

webapp/blade/demo/debug.html是用于webapp的

而html5/blade/demo/debug.html就是用于SEO访问的

这样做确实是解决了SEO的问题，业务团队却需要写两套代码，这个情况是开发也不是不可接受的，举个例子来说

webapp一般是纯粹的前端开发，而且逻辑会相对复杂，而seo开发一定是会服务器端语言的

也就是说要完成此等开发需要预期1.3-1.5倍的工作量（SEO页面往往比较简单只做纯粹展示），而开发需要掌握前后端，而这个后端可能是php，java,.net

这个样子除了有点耗费人力之外没有什么问题，因为从重构角度来说，不相关的模块就是应该分离，显然这里的webapp与seo就是两个东西

这里是典型的业务关联，而非功能关联，写在一起总会遇到适配问题，但抱着一套代码解决两个问题的信念，我们今天来探索如何使用一套代码完成webapp与seo两个功能

PS：此文只是个人粗浅的理解，若是有误请您指正

.net解决思路

这里要webapp与SEO使用同一套代码完成不同的渲染的话，其实基本前提是必须的：

① 数据为先，而且是所有需要的数据必须事先定义，是否允许异步我们不予理睬，但是必须是实现准备好数据接口定义！

由于数据接口事先定义好了，webapp的数据请求就有两种方式，同步、异步

② 数据可以与html一起返回，写入到页面，不然就是先吐出html，然后前端解析后Ajax请求数据，渲染模板

这里处理的一个重点大家都发现了，他就是首屏渲染！所谓SEO其实就是要做到首屏渲染

PS：这里可能会发生数据交错依赖的需求，我们这里暂时不予理睬

而对于SEO，浏览器访问后需要直接返回完好无损的HTML，这里便必须同步处理，所以我们首屏的webapp的数据也采用一并返回的方法

这里服务器只会提供统一的restful接口，webapp使用underscore渲染页面，需要产生相同的数据就需要一个前提：

服务器需要解析前端webapp underscore模板的能力！这里便提供了初步的方案，简单模拟如下index.html：

<script type="text/blade_config">

  {

    url: 'restful/index',

    template: 'indexTmpt'

  }

</script>

<script id="indexTmpt" type="text/blade_template">

  <ul>

    <% for(var i = 0, len = data.length; i < len; i++) { %>

      <li><%=data[i].name %></li>

    <% } %>

  </ul>

</script>

//模拟数据返回

data = [

  {id: 0, name: 'item_0'},

  {id: 1, name: 'item_1'},

  {id: 2, name: 'item_2'}

]

这里期待的webapp处理逻辑：

① 服务器解析config中的data，请求url后封装为数据

② 服务器处理模板与data，生成html，返回返回

当然这里可以将data返回页面由前端渲染，但是这样意义不大，不然直接渲染算了

期待的seo处理逻辑：

① 解析config，请求url生成data

② 根据前端模板，生成最终html

其实SEO的逻辑与前端一致了，没有什么不同，只不过生成静态html后的处理逻辑差距便大了

为什么不直接服务器吐出完整html？

到这里其实很多朋友就会开始质疑了，既然如此，我们何必要定义config中的url，或者template，这里直接使用服务器端渲染给给前端不好么？

这里还省了很多看似莫名其妙的配置，其实这样做还是有道理的

本来SEO需要会服务器端语言的，而一旦我们给出config中的约定与模板后，事实上整个便与服务器端没有任何联系了

虽说他与服务器端吐出差距不大，但是我业务开发人员事实上只需要掌握前端技能，这个设计的原因便是如此

整个程序对前端来说依旧只需要restful与模板，我可以单个前端同时完成webapp与seo，这就是其意义所在

这个方案的代价是：

① blade中的静态html需要变成动态脚本，这样服务器才能解析内容（比如index.html->index.aspx）

② 之前形成的编写方式需要改变，这里只是需要onShow、onHide事件点

③ 需要按套路出牌，必须定义url与template等东西

凡是有优点就有缺点，这样做的优点是：

① 一套代码解决webapp seo难题

② 可以使用.net解析模板，整个服务器来说比较稳定

缺点是：

① 对前端规范约束太多，碰到复杂业务逻辑会比较头疼，比如模板嵌套，数据依赖，这里的配置就麻烦了

② 不太“webapp”，诚然，此种做法不太webapp

③ 脆弱，问题同样来源于模板，一次模板语法解析错误，会造成服务器端抛错，整个程序便死掉了

这个问题的提出其实有点吹毛求疵，因为模板就前端解析也会经常出错，但是这里的不同点是前端稍微好调试点，如果抛给服务器端的话其调试成本会增加

.net解析javascript

扯了这么多，小钗这里为了证明自己原来是搞.net的这里做一个简单实现，这里便出现了第一个难点：

因为我们模板是underscore的语法（模板暂时不考虑嵌套），那么.net如何解析javascript代码呢？？

.net解析javascript需要引入第三方库，借助一些javascript引擎，就如node之于V8；.net的话我们这里暂时使用IronJS做处理

https://github.com/fholm/IronJS

这里小钗不得不汗颜，一件事情，就是C#已经变成这个样子了，我却根本不知道......

PS：尼玛这个狗东西，我看得懂个毛线啊！！！所以本着不丢脸的原则，我们这里省略一万字

我们这里直接提供一个思路即可，因为该方案不是今日的重点，我的重心依旧是放在nodeJS上的，这里的思路是：

① 解析页面的config信息，取出url以及template

② 根据url发出请求返回数据，这里由于是局域网应该很快

③ 解析template，根据data生成静态html

④ 其它处理，返回客户端

模拟处理逻辑

我们这里略去url请求一步，假设数据已经返回，否则这里又要写.net程序

var data = [

  {id: 0, name: 'item_0'},

  {id: 1, name: 'item_1'},

  {id: 2, name: 'item_2'}

];

这里的模板字符串为：

var template = [

  '<ul>',

    '<% for(var i = 0, len = data.length; i < len; i++) { %>',

      '<li><%=data[i].name %></li>',

    '<% } %>',

  '</ul>'

].join('');

然后我们要做的就是解析这个模板，生成对应的模板解析函数，这里是调试代码：

var data = [

  { id: 0, name: 'item_0' },

  { id: 1, name: 'item_1' },

  { id: 2, name: 'item_2' }

];

var template = [

  '<ul>',

    '<% for(var i = 0, len = data.length; i < len; i++) { %>',

      '<li><%=data[i].name %></li>',

    '<% } %>',

  '</ul>'

].join('');

var templateHandler = function (text, data) {

  var noMatch = /(.)^/;

  var escapes = {

    "'": "'",

    '\\': '\\',

    '\r': 'r',

    '\n': 'n',

    '\t': 't',

    '\u2028': 'u2028',

    '\u2029': 'u2029'

  };

  var escaper = /\\|'|\r|\n|\t|\u2028|\u2029/g;

  var templateSettings = {

    evaluate: /<%([\s\S]+?)%>/g,

    interpolate: /<%=([\s\S]+?)%>/g,

    escape: /<%-([\s\S]+?)%>/g

  };

  var render;

  settings = templateSettings;

  var matcher = new RegExp([

      (settings.escape || noMatch).source,

      (settings.interpolate || noMatch).source,

      (settings.evaluate || noMatch).source

    ].join('|') + '|$', 'g');

  var index = 0;

  var source = "__p+='";

  text.replace(matcher, function (match, escape, interpolate, evaluate, offset) {

    source += text.slice(index, offset)

        .replace(escaper, function (match) { return '\\' + escapes[match]; });

    if (escape) {

      source += "'+\n((__t=(" + escape + "))==null?'':escape(__t))+\n'";

    }

    if (interpolate) {

      source += "'+\n((__t=(" + interpolate + "))==null?'':__t)+\n'";

    }

    if (evaluate) {

      source += "';\n" + evaluate + "\n__p+='";

    }

    index = offset + match.length;

    return match;

  });

  source += "';\n";

  if (!settings.variable) source = 'with(obj||{}){\n' + source + '}\n';

  source = "var __t,__p='',__j=Array.prototype.join," +

      "print=function(){__p+=__j.call(arguments,'');};\n" +

      source + "return __p;\n";

  return source;

  try {

    render = new Function(settings.variable || 'obj', source);

  } catch (e) {

    e.source = source;

    throw e;

  }

  if (data) return render(data);

  var template = function (data) {

    return render.call(this, data);

  };

  template.source = 'function(' + (settings.variable || 'obj') + '){\n' + source + '}';

  return template;

}

templateHandler(template, data)

首次调试爆了很多错误，而且服务器端的调试比较费力，错了只能靠经验去猜测

这里返回的是需要构造成函数的字符串，但是我们看到我们的“ul”等标签被吃掉了！！！

var __t,__p='',__j=Array.prototype.join,print=function(){__p+=__j.call(arguments,'');};

with(obj||{}){

__p+='';

 for(var i = 0, len = data.length; i < len; i++) {

__p+=''+

((__t=(data[i].name ))==null?'':__t)+

'';

 }

__p+='';

}

return __p;

我们这里一旦调用就抛了一个错误，这个时候一般是模板或者传入数据出错了，可惜的是他是对其中一段语法不可解析！这里从侧面反映出一个问题：

该方法若是模板出错会导致程序无法运行，如果是node的话很可能就crash了！

PS:这里由于CLR4解析javascript的时候字符串的replace遇到正则时有问题，在此逗留3小时，这里把我搞惨了，定位就很久最后还得重写模板解析！！！

 var data = [

   { id: 0, name: 'item_0' },

   { id: 1, name: 'item_1' },

   { id: 2, name: 'item_2' }

 ];

 var template = [

   '<ul>',

     '<% for(var i = 0, len = data.length; i < len; i++) { %>',

       '<li><%=data[i].name %></li>',

     '<% } %>',

   '</ul>'

 ].join('');

 var templateHandler = function (text, data) {

   var noMatch = /(.)^/;

   var escapes = {

     "'": "'",

     '\\': '\\',

     '\r': 'r',

     '\n': 'n',

     '\t': 't',

     '\u2028': 'u2028',

     '\u2029': 'u2029'

   };

   var escaper = /\\|'|\r|\n|\t|\u2028|\u2029/g;

   var templateSettings = {

     evaluate: /<%([\s\S]+?)%>/g,

     interpolate: /<%=([\s\S]+?)%>/g

   };

   var render;

   var settings = templateSettings;

   var matcher = new RegExp([

       (settings.interpolate || noMatch).source,

       (settings.evaluate || noMatch).source

     ].join('|') + '|$', 'g');

   var index = 0;

   var source = "__p+='";

   var _text = text;

   var _treg;

   while (1) {

     var matcher = new RegExp([

       (settings.interpolate || noMatch).source,

       (settings.evaluate || noMatch).source

     ].join('|') + '|$', 'g');

     (function () {

       _treg = matcher.exec(_text)

     })();

     var t_str = _treg[0];

     var t_len = t_str.length;

     var t_index = _treg.index;

     source += _text.slice(index, t_index).replace(escaper, function (match) { return '\\' + escapes[match]; });

     _text = _text.slice(t_index + t_len);

     if (_treg[2]) {

       source += "';\n" + _treg[2] + "\n__p+='";

     }

     if (_treg[1]) {

       source += "'+\n" + _treg[1] + "\n'";

     }

     if (_text.length == 0) break;

   }

   source += "';\n";

   if (!settings.variable) source = 'with(obj||{}){\n' + source + '}\n';

   source = "var __t,__p='',__j=Array.prototype.join," +

       "print=function(){__p+=__j.call(arguments,'');};\n" +

       source + "return __p;\n";

   try {

     render = new Function(settings.variable || 'obj', source);

   } catch (e) {

     e.source = source;

     throw e;

   }

   //return source;

   if (data) return render(data);

   var template = function (data) {

     return render.call(this, data);

   };

   template.source = 'function(' + (settings.variable || 'obj') + '){\n' + source + '}';

   return template;

 }

 templateHandler(template, { data: data })

正确的代码

我这里使用生命在调试啊！！！因为服务器解析javascript时候，很多东西都不支持，感觉有点回到了c++！！！

小结

这里字符串解析成功，我们这部分也就告一段落了，本身.net方案也不是这次的重点，这里提供基本思路各位自己去看看吧，总之调试很坑

下期预告

对javascript来说，nodeJS自然是亲爹，我们这次的主要方案其实是基于nodeJS的，这里的期望：

① 用户请求过来时候首先判断是否为网络爬虫

② 网络爬虫访问seo/index.html，用户访问webapp/index.html

当然，我们做demo时候不会这么麻烦，我们直接为其添加一个seo=true的标志位在url即可

nodeJS实现SEO的方案重点依旧在首屏渲染，我们这里首先基于blade做两个页面，然后以此扩展seo的方案

当然此块内容有点小复杂，加之，小钗对nodeJS停留在学习阶段，这块需要学习，而且最近有些其它事情扰心，暂时便搁置了

这块的内容可能与RapidJS（clouda前身）有关，有兴趣的同学可以先去看看

文中有误请您指出，若您对webapp的seo有什么好的想法请留言

探讨webapp的SEO难题（上）的更多相关文章

DTCMS添加文章，将tags标签的值赋到SEO关键词上，以及将摘要的值赋到SEO描述
将tags标签的值赋到SEO关键词上 admin\article_edit.aspx中 $(function () { 方法中加上 //tags的值赋到SEO关键词上 $("#txtTag ...
SEO优化上首页之搜索引擎排名规则
搜索引擎建立索引的网页数以万亿计,用户搜索的关键词也是海量,如果每个用户提交搜索请求后,搜索引擎都去数以万亿的索引中重新排名网页,效率将非常低下.根据2-8法则,80%是查询是集中在相同的20%内容上 ...
SEO优化上首页之搜索引擎原理内容处理与索引
上文<搜索引擎原理SEO优化上首页之蜘蛛Spider>详细介绍了蜘蛛的分类.抓取入口.抓取策略和更新策略.搜索引擎已把页面抓取回来,接下来是解析页面内容,主要包含判断页面类型.提取页面主题 ...
SEO优化上首页之搜索引擎蜘蛛Spider原理
Spider,蜘蛛,又名网页网络爬虫.网络机器人,是按照一定策略不断抓取互联网网页的特定程序.蜘蛛抓回的页面创建索引后参与排名,等待用户检索.为了网站优化自然排名上首页,精灵儿工作室下面详细剖析Spi ...
SEO优化上首页之搜索引擎原理简要
搜索引擎(Search Engine)是特定的计算机程序,它根据一定的策略.从互联网上搜集信息,对信息进行处理后,为用户提供检索服务,并将用户结果展示给用户. 搜索引擎优化(Search Engine ...
SEO优化上首页之搜索引擎作弊案例与反作弊原理
搜索引擎流量价值巨大,有不少人专门研究排名机制,利用搜索引擎漏洞作弊,寻求快速提高网站排名,进而获取更多的流量和利益,甚至有的网站优化公司专门提供作弊服务.搜索引擎为了杜绝这种情况,必须能过滤大量垃圾 ...
SEO优化上首页之搜索引擎用户需求理解
经过前面<搜索引擎原理SEO优化上首页之网络蜘蛛Spider>和<搜索引擎原理SEO优化上首页之内容处理与创建索引>介绍,搜索引擎已经完成页面抓取和分析,并把原始页面.索引等信 ...
Safari配置WebApp----添加启动图和桌面图标让你的WebApp在ios设备上体验如原生一样
现在很多开发者的Web应用程序的设计样式和交互类似本机应用程序,例如,它的缩放比例适合iOS上的整个屏幕.当用户将其添加到主屏幕时,您可以通过使其看起来像本机应用程序一样,在iOS上为您的Web应用程 ...
#翻译# 深入JavaScript的Unicode难题(上)
退一步说, JavaScript处理Unicode时有些怪异. 这篇文章会说明JS在Unicode上令人痛苦的部分, 然后提供解决方案, 并说明在未来的ECMAScript6中是如何改善这些问题的. ...

随机推荐

Leetcode-190 Reverse Bits
#190. Reverse Bits Reverse bits of a given 32 bits unsigned integer. For example, given input 432615 ...
列出场景对象Lightmap属性
首先上效果图: 编辑器代码: using UnityEngine; using UnityEditor; using System.Collections; public class Lightmap ...
socket编程
一.socket地址的数据类型及相关函数 socket API是一层抽象的网络编程接口,适用于各种底层网络协议,如IPv4.IPv6.UNIX Domain Socket.然而各种网络协议的地址格式并 ...
es6学习笔记一数组（中）
接着上一篇,给大家再分享一些数组的其他方法.大家也可以去点击这里学习数组更多的方法 concat方法: 概述: concat() 方法将传入的数组或非数组值与原数组合并,组成一个新的数组并返回. ...
JavaScript 中的类方法，对象方法，Prototype方法
<script type="text/javascript"> function baseClass() { this.showMsg = function() { a ...
ASP.NET MVC之Unobtrusive Ajax（五）
前言这一节我们来讲讲Unobtrusive中的Ajax提交,大部分情况下我们是利用JQuery来进行Ajax请求,当然利用JQuery来进行表单Ajax请求也不例外,但是相对于Unobtrusive ...
MVC中处理表单提交的方式（Ajax+Jquery）
MVC中处理表单有很多种方法,这里说到第一种方式:Ajax+Jquery 先看下表单: <form class="row form-body form-horizontal m-t&q ...
4.羽翼sqlmap学习笔记之Post登录框注入
4.Sqlmap系列教程——post登录框注入注入点: http://xxx.xxx.com/Login.asp 注入方式一: 1.对着注入点使用burp抓包,保存txt格式文件. 2.输入命令: . ...
详解BOM头以及去掉BOM头的方法
类似WINDOWS自带的记事本等软件,在保存一个以UTF-8编码的文件时,会在文件开始的地方插入三个不可见的字符(0xEF 0xBB 0xBF,即BOM).它是一串隐藏的字符,用于让记事本等编辑器识别 ...
JavaScript代码模块化的正规方法
RequireJS-CommonJS-AMD-ES6 Import/Export详解为什么起了一个这个抽象的名字呢,一下子提了四个名词分别是:RequireJS,CommonJS,AMD,ES6,答 ...

探讨webapp的SEO难题（上）

前言