问题集录--新手入门深度学习，选择TensorFlow 好吗？

新手入门深度学习，选择 TensorFlow 有哪些益处？

佟达：首先，对于新手来说，TensorFlow的环境配置包装得真心非常好。相较之下，安装Caffe要痛苦的多，如果还要再CUDA环境下配合OpenCV使用，对于新手来说，基本上不折腾个几天是很难搞定的。

其次，基于TensorFlow的教学资源非常多，中英文的都有，这对于新手也是非常有帮助的。Google做社区非常有一套，在中国有专门的一群人，会在第一时间把Google的开发者相关的进展翻译成中文。

另外，由于有Google背书，TensorFlow从长期演进来看，基本上可以保证这个技术不会昙花一现。对于一个深度学习新手来说，学习任何一个工具，都有成本，如果刚学会，这个工具就没人用了，这个沉没成本还是很高的。

白发川：TensorFlow分为图和session两个部分，因为构建和执行在不同的阶段，所以很好的支持了模型的分布式，所以学习TF可以比较好的理解模型的分布式计算，另外TF支持直接从分布式文件系统，例如HDFS系统读取数据，所以可以说TF是接通机器学习和大数据的一个桥梁。

新人上手 TensorFlow 经常会遇到哪些问题或困难？

佟达：第一个困难应该是来自编程范式的变化，因为TensorFlow是声明式开发方式，通过Session真正执行程序，这和常见的开发语言编程范式不太一样。如果是曾经有过函数式编程的Lazy Evaluation经验，接受起来会好一点。

当掌握了基本的TensorFlow操作之后，就要使用TensorFlow做些真正有意义的事情。这时候的一大困难在于，TensorFlow的报错信息不那么直观，如果执行出错，新手很难从一大堆调用栈中找到有用的信息。

白发川：首选遇到的应该是数学的知识，TF本身是一个深度学习的框架，和我们常规的程序框架例如Spring，Hibernate之类的框架定位不太一样，会偏向数学部分一点，例如矩阵计算，求导等，虽然TF已经封装了对应的计算的API，但是我们还是需要知道这些概念性的知识，这样才知道应该用什么API。

其次TF通过图的构建和计算部分分离实现模型的分布式，这一块的理解对初学者来说有时候也不太容易。

学习遇到困难之后，有哪些途径可以寻求帮助？

佟达：如果身边有人可以提供指导，直接寻求帮助一定是最有效的。如果身边没有这样的人可以提供帮助，那么StackOverflow是在线寻求帮助的首选。Google的TensorFlow开发团队会有人专门在StackOverflow上回答问题，当然除了Google的人，还有很多热心的开发者提供帮助，比如说我（笑）。

白发川：目前TF的中文资料相对匮乏，所以优先的参考途径肯定是TF的官方doc文档，目前极客学院对TF官方文档做了汉化翻译，不过相对会比官方的延后一点。

有没有推荐的学习资源？

佟达：资源太多了，比如Udacity的Deep Learning课程，Coursera上的Machine Learning课程，还有Stanford提供的课程录像，比如CS231n和CS224n。另外，被称为深度学习圣经的《Deep Learning》也在网上（deeplearningbook.org）免费提供。

白发川：Stanford目前有很多针对机器学习的课程，例如CS231N，还有针对TF的CS20SI，这些都是很好的课程。

是否推荐新手从 Keras 入手？除 Keras，还有哪些适配 TensorFlow 的第三方工具推荐新手使用？

佟达： TensorFlow的API比较底层，有时候要做一件很简单的事情，要写很多辅助代码。而Keras的接口设计非常简洁，做同样的事情，Keras的代码大概是TensorFlow的三分之一到五分之一。不过我认为新手对两者都应该学习一下，这样对于理解原理更有帮助。事实上，我甚至推荐连TensorFlow都不用，先用纯Python自己做一个简单的神经网络。

除了Keras之外，tf slim，tflearn等都是早期尝试简化TensorFlow的工具，不过自从1.0开始，TensorFlow官方支持Keras，估计以后Keras会成为主流。

另外，TensorBoard是新手必须学会使用的，这个工具有非常好的可视化辅助工具，帮助工程师调试模型以及训练过程。tfdbg是1.0之后发布的调试工具，可以在每一个step中实时查看数据变化。不过这个工具目前能做的还不多，而且还有性能问题，开调试模式和非调试模式内存相差好几倍，所以还有很大的提升空间。

白发川：Keras相比TF来说封装的更好，可以说API更加工程化，所以如果说对于机器学习完全没有概念，Keras是一个不错的选择。目前有很多围绕TF进行封装的框架或者工具，例如Keras本身就是对TF的包装，其次TF Learn等也可尝试。

能不能讲讲你们当初上手 TensorFlow 的经历？学习过程中都遇到了哪些困难，又是如何解决的？

佟达：我在使用TensorFlow之前，使用过其他一些机器学习/深度学习框架，比如主要用于语音识别的Kaldi，图像识别的Caffe，还有Spark MLlib，DeepLearning4j等。所以上手TensorFlow并没有带来特别大的困难。

当用TensorFlow做的事情越来越复杂之后，我开始尝试扩展TensorFlow，比如写一些自定义的Op。在TensorFlow中添加自定义Op需要用C++实现，编译好之后，在Python里面讲动态库链接进来才能使用。这一过程还是有些复杂，尤其是C++的代码有问题需要调试，需要使用lldb（llvm的debug工具，类似gdb），这对开发这的要求比较高。另外TensorFlow的编译使用的是Bazel，这是谷歌开源的一个多语言项目管理工具，要想把自定义的Op编译出来，还需要花点时间研究Bazel。

实际上，Google很成功的把TensorFlow封装的很好，开箱即用，然而，框架本身的复杂度还是很高，一旦你想要深入进去，还是需要下很大功夫。

白发川：TF不是我接触的第一个深度学习框架。我是从大数据做起，到后来的开始用Spark MLlib做开发，也使用过h2o和deeplearning4j这些框架，最后才接触TF的。所以对于我来说，更多的是学习TF的API设计相关的改变，以及对比其他框架TF做了哪些差异化的地方。对于API这一块，直接参考TF的Doc就是最好的方法。

不过我可以介绍一下入门到机器学习的经历，我最开始的工作也是和大多数人一样，从事web开发，或者mobile的开发，所以我的情况应该和大多数人相同，后来我开始接触到机器学习的时候发现和之前的思维差别挺大的，首先在我们从事一般的像mobile之类的开发的时候，我们并不会关心什么是矩阵的逆，什么是函数的导数，更加不会关心什么是链式求导，而在机器学习里面，这些都是基础，所以我又重新捡回了大学的线性代数和微积分再次过了一遍。

TF是个深度学习框架，所以使用TF的时候不可避免的要理解什么是隐层，什么是激活函数，激活函数有哪些，以及如何定义损失函数等等这一些概念，对于这一块我当时除了调研一些书籍外也通过看stanford的一些课程来学习，当然过程中也和很多同行进行交流和总结，特别是对于调参这一块，除了学习之外更多的需要自己进行实践。

TensorFlow 升级到 1.0 版本之后，感觉到了哪些提升？

佟达：对我来说，TensorFlow 1.0最重要的变化在于高阶API，比如Estimator，以及和Keras的集成，这些改变可以大幅度的减少我们构建模型的代码量。

另外，1.0的API也经过了一些调整，这导致一些旧代码和新版本不兼容，不过从长期维护来看，1.0的API有更好的一致性，对于开发者来说，还是利大于弊。

白发川：首先相比之前的版本，1.0的速度肯定是变快了，这个官方也明确的提到了，并且也给出了一定的参考指标，TF 1.0加入了XLA，这也是为未来性能优化做的基础。

除了性能方面的体验外，在开发中，TF的API进行的很大的修改，相比之前来说更加的人性化，感觉起来有点像numpy的感觉，所以如果不是1.0的代码，可能会不兼容，不过TF提供了转换的脚本，可以方便直接把代码转换到1.0。

TF1.0提供了调试工具TFBDG，无论是大数据还是机器学习相关的开发，调试始终不是那么顺畅，而1.0提供的调试工具，可以说正在逐渐的弥补这一块，虽然目前还是有很多问题，不过已经有了很大的进步。

你们认为，目前 TensorFlow 有哪些局限性？其中又有哪些是开发者可以利用第三方工具克服的？

佟达：TensorFlow的设计范式带来的一个天生限制就是在TensorFlow中，想要动态修改计算图比较困难。实际上动态修改计算图的需求并不少见，比如训练机器翻译或者聊天机器人的模型，句子长度不一样，计算图其实是不一样的。以前，要解决这个问题，就是设定一个比较长的输入长度，对于比较短的句子，填充一些占位字符。今年早些时候，TensorFlow发布了一个工具，TensorFlow Fold，可以相对方便的动态修改计算图。不过总的来说，TensorFlow在计算图的设计灵活性上还是有些欠缺。

白发川：目前来说，TF要想发挥最大的效果，还是需要借助于GPU，当然这并不算TF的局限，应该说所有数值计算的框架都有这个特点，对于这个目前大家的做法都是搭建自己的GPU集群，GOOGLE甚至开发了自己的GPU：TPU。

虽然大家都比较认可TF是工程化做的很好的深度学习框架，实际上它还是有一些门槛的，简单到API的设计，复杂到模型的训练和调参，其实还是是有一定门槛的，相比来说Keras的API设计更加直观化。

TF虽然提供了java和go的api，不过目前还不太成熟和稳定，所以对于开发语言，我还是推荐python，或者说我建议大家想往这个方向学习的时候，尽量掌握python这门语言，在我们实际开发中，会有很多用处的。

TensorFlow 在 ThoughtWorks 的业务中扮演了什么角色？对于公司进行产品开发，有没有更合适的选择？

佟达：TensorFlow是 ThoughtWorks 目前在深度学习项目上的首选平台，因为它的工程化做的确实要比其他框架成熟，同时又和Hadoop、Kubernetes这些我们已经在很多项目中使用的工具兼容。

至于“更合适”，现在还不太好下判断，Facebook的PyTorch口碑很不错，MxNet被Amazon和很多IT公司支持，而Intel的BigDL另辟蹊径，在CPU上优化深度学习，而且和Spark无缝集成，看起来对于已经使用云计算和大数据工具的公司来说吸引力也非常大。所以在深度学习框架这个领域，目前处于百花齐放的状态，最后谁会胜出，还不好说。

白发川：ThoughtWorks 有自己的机器学习团队，主要方向为大数据和人工智能，当然这两个方向的划分并不完全独立的，实际上在实际开发中我们是将两者结合，实现基于大数据下的人工智能，对于深度学习的框架，我们spike过目前存在的大多数框架，最终选择了TF，所以我们的工作都是将TF工程化和市场化。

在选择对比了不同的框架之后，我们也比较明确现有框架的一些优缺点和局限，所以我们也研发了TW自己的深度学习框架：deeplearning.scala，框架本身是基于scala开发，具体的信息大家可以在github上看到，目前是开源的。