开发中Design Review和Code Review

一.Design Review

详解

翻译为设计评审，也就是对需求设计进行审核，防止出现异常问题，例如下面的这些

可用性

外部依赖有哪些？如果这些外部依赖崩溃了我们有什么处理措施？
我们SLA是什么？主要是指可用性目标几个9? 50/90/99分位数的响应时间是多少? QPS是多少?
我们的超时、重试、过载保护、服务降级机制是什么？如何避免雪崩
我们的调用方有哪些？分别有什么服务配额？是否需要对关键的服务调用方单独部署？

运维

我们都有配置了哪些监控？如果出现问题，我们需要查看哪些信息？这些信息是否都有记录？
报警的处理流程是什么？
系统上线流程和步骤是什么，出了问题后是否可以回滚，以及怎么回滚？

安全

XSS，CSRF，SQL注入这些是否需要处理？
3防怎么搞：防抓，防DDOS，防恶意访问
是否有请安全团队review
是否有风控的需求？
信息存储时是否设计到密码，信用卡，身份证等敏感信息，这些信息是怎么存储和访问的？
系统是否符合公司的安全规范(SSO, 接口认证)？关键业务操作是否可审计(可回溯谁在什么时间干了什么操作)

扩展性

分层，分模块怎么拆分比较合理？拆分出来的模块可以搞成服务单独部署吗？
应用层可以水平扩展吗？有用session吗？可以去掉session吗？
如果系统的负载提升到以前的3到10倍，当前系统是否依然可用
存储层面如果需要扩展存储怎么做？
系统中有哪些上下依赖的节点/系统/服务？这些依赖是否会导致无法并行开发？能否去掉这些依赖？
是否有数据访问API? 数据API的设计对性能的考虑是什么？数据API对异常数据(超大数据集、空数据集、错误数据、schema异常...)的处理是什么?

存储

数据计划怎么存储？会有可能的性能瓶颈吗？需要考虑一些缓存方案吗？
有什么复杂SQL可能会导致慢查询吗？
数据库的操作什么地方用了事务？什么情况会导致锁竞争？我们的锁策略是什么？一致性和可用性如何平衡？未来如果分库分表会有什么影响？
缓存失效会有什么影响？缓存大量失效会有什么影响？冷启动有问题吗？有热点数据吗？多个缓存节点需要权衡可用性和一致性吗？
存储时，是否需要分库，分表，选择的理由是什么？

技术选型

开发语言是什么，框架是什么为什么用他们？
缓存用什么（tair/medis/redis/memached），web server用什么？(nginx+php fpm, apach php扩展，jetty，tomcat，jboss)，消息队列用什么(rebbitmq/beanstalk/kafka/mafka)？为什么用它们？
DB是否可以用、以及用哪种no sql(hbase, tair)来优化？
业界或者其他团队是否有处理过类似问题？他们是怎么处理的？是否可以copy或者借鉴？

服务调用和服务治理

请求同步处理还是异步队列处理比较好？
服务接口的URI设计合理吗？可以向下兼容吗？
服务间的调用协议是什么？有公司标准的调用协议可以用吗？
客户端和服务端的调用协议是什么？有公司标准的调用协议可以用吗？
有什么服务治理相关的要考虑的吗？
能否接入otco或者sg做服务治理？

业务监控

正常的业务逻辑外，可能会有哪些奇葩或者恶意的操作？我们应该怎么处理？
除了系统上的监控外，需要什么业务维度的监控吗？
log是怎么记的？如果要debug能有什么开关迅速打开吗？log怎么rotate？log会影响性能吗？

复用

项目中有用什么新技术吗？为什么要用新技术？未来其他人接手容易吗？
项目中有什么复杂计算的地方吗？这些计算可以用什么算法优化吗？
这个项目可以抽象出来什么可以复用的东西吗？
项目中的什么可以不用自己做，调用现成服务吗？

二.Code Review

详解

翻译为代码审查，大白话就是在代码提交后，由管理员或几个人对提交的差异内容进行审核，一般包括如下

常规项：

代码能够工作么？它有没有实现预期的功能，逻辑是否正确等。
所有的代码是否简单易懂？
代码符合你所遵循的编程规范么？这通常包括大括号的位置，变量名和函数名，行的长度，缩进，格式和注释。
是否存在多余的或者重复的代码？
代码是否尽可能的模块化了？
是否有可以被替换的全局变量？
是否有被注释掉的代码？
循环是否设置了长度和正确的终止条件？
是否有可以被库函数替代的代码？
是否有可以删除的日志或调试代码？

安全：

所有的数据输入是否都进行了检查（检测正确的类型，长度，格式和范围）并且进行了编码？
在哪里使用了第三方工具，返回的错误是否被捕获？
输出的值是否进行了检查并且编码？
无效的参数值是否能够处理？

文档：

是否有注释，并且描述了代码的意图？
所有的函数都有注释吗？
对非常规行为和边界情况处理是否有描述？
第三方库的使用和函数是否有文档？
数据结构和计量单位是否进行了解释？
是否有未完成的代码？如果是的话，是不是应该移除，或者用合适的标记进行标记比如‘TODO’？

测试：

代码是否可以测试？比如，不要添加太多的或是隐藏的依赖关系，不能够初始化对象，测试框架可以使用方法等。
是否存在测试，它们是否可以被理解？比如，至少达到你满意的代码覆盖(code coverage)。
单元测试是否真正的测试了代码是否可以完成预期的功能？
是否检查了数组的“越界“错误？
是否有可以被已经存在的API所替代的测试代码？

经验

code review这事儿，与具体的项目以及人员息息相关。人多真的力量大么？其实不尽然。

就我所知道的范围，比较硬核（强制性）的code review基本上都是发生在一个软件产品的后半段。也就是，软件自身已经成型了，甚至是已经交付了，后续的维护以及版本升级阶段。

如果是从零构建一个全新的软件，以我个人的经验来说，大部分情况下不会也不应该enforce（强制）很hardcore（重量级的）code review，因为那是在浪费时间和精力。为啥？因为在软件还未成型的时候，需求往往也是没有完全理清楚的，每个人理解都不同。一群同床异梦的人聚在一起review，往往最后是一群乌合之众。对于这种情况，我个人是倾向于仰仗个人的（也就是靠大牛）。当然，规模大的话也需要一个团队，适当的review需要，但是不是那种一二三四五死板板的做法，主要是团队leader检查实际的实现是否达到预设要求，我管这种叫单向的review，简单来说，水平好的review差的，大牛的代码大牛自己review即可。

不管是项目前期还是后期，要多构建自动化测试，多构建测试用例。前期因为项目需求不确定，测试难以割裂出来交给专门的团队，这时主要是代码编写者自己写测试代码自测。项目定型之后，就可以也应该组建专门的QA团队负责这个事情了。

其实对于大项目，理想上最牛的码农应该都是QA，并且在项目的初期就介入，进行白盒测试（也就是code review）。但是事实上能做到的应该不多。因为实际的软件开发很多都是需求变来变去，设计和编码是交错在一起的，多大的项目最终落实到个人头上都是一人多角色，即是运动员也是裁判。虽然从软件工程和项目管理角度这样很不好，但是确实是普遍存在。

当然诸如下面许多回答答主所在的软件巨头的成熟产品团队，自然是另外一番景象。我写这个回答的目的只是表达那只是事实的一部分，而且很可能是一小部分。