深度学习、物联网专家Sunil Kumar Vuppala博士独家专访

介绍

有多种方法可以学习数据科学，机器学习和深度学习概念。您可以观看视频，阅读文章，参加课程，参加会议等。但是有一件事是无法替代的————经验。

我个人从与数据科学专家和行业领袖的交流中学到了很多。他们管理端到端机器学习和深度学习项目的经验，他们从零开始建立数据科学团队的想法，他们如何管理困难的项目和克服障碍这些等等，是我们无法在任何课程中学习到的，

因此，我很高兴能对这样一位数据科学专家和行业思想领袖Sunil Kumar Vuppala博士进行独家采访。他在班加罗尔是Ericsson GAIA(全球人工智能加速器)的数据科学总监，他带来了丰富的行业和研究经验。

在这次采访中，我真正喜欢Sunil博士的地方是他给出了中肯的答案。他开门见山，分享了他丰富的经验和对我们社区的宝贵建议。你将从他的回答中学到很多东西，而不管你所处的数据科学角色或目标是什么。

Sunil博士有着杰出的学术和工业生涯。他最初在甲骨文(Oracle)担任应用工程师，后来在印孚瑟斯(Infosys)从事人工智能方面的各种研究工作。在他目前的职位之前，他也是飞利浦公司的首席科学家。不仅如此，Vuppala先获得了IIT Roorkee的硕士学位，然后以论文“智能电网中的不确定性下的能源管理优化”在IIIT Bangalor获得他的博士学位。他也是印度顶级学院的客座教授，教授AI和ML。

Sunil Vuppala博士的行业和研究经验

Purva Huilgol（PH）：您有计算机科学的背景，之前曾在软件工程和软件开发中担任过角色。只有在这之后，您才会转向数据科学，然后进入深度学习。

是什么激励您做出这样的转变，您是如何做到的?

Sunil Vuppala博士：这对我来说是一个平稳的过渡。

我的职业生涯始于在IIT Roorkee的校园工作中担任Oracle软件应用工程师
由于我对研究感兴趣，因此在Oracle工作了2年后，我便转到了Infosys做研究。
在那里，我致力于构建物联网（IoT）平台并分析传感器数据

“12年前，我十分看好物联网上。我意识到，除非分析和人工智能支持分析物联网捕获的数据，否则这个循环将不会完成。这激发了我对数据科学领域的探索。”

Infosys的组织变革让我有机会在2012-13年回到自动化和人工智能领域工作。此外，我在博士期间的学习帮助我实现了转变。吴恩达激励我用我们的技术贡献去推动人工智能的民主化来服务社会。

PH: 您在顶级公司也有丰富的行业经验，从网络和电信到软件应用和医疗。您还拥有IIIT-B的博士学位，专注于智能电网和物联网。

您如何处理您的行业和研究角色之间的差距?

Sunil博士:这个问题问得好，我见过很多人在这方面很纠结。我的经历与您所期望的略有不同。

“由于我曾在Infosys和Philips担任研究部门的一员，所以这里涉及到各个领域的互相学习。”

在IIIT，我要解决数百万个变量，而在Infosys，我将这些结果的实现部署为一个测试平台。当这进一步发展成为我博士的一个应用研究问题时，我面临的挑战是把它转变得对我所在的组织更加有益。我需要平衡我的学术研究与行业角色，学术研究是优先于发表论文，行业角色更侧重于专利。

PH:您有研究背景，并与研究实验室有广泛的合作，您能强调一下研究的重要性以及企业在机器学习中应该关注哪些方面吗?

Sunil博士:研究是任何科技公司的核心部分，机器学习也不例外。企业对机器学习研究的关注可以跨越多个方面:

机器学习的未来领域:推理、强化学习、机器学习模型的安全性和可解释性(这是我们在爱立信研究中心和全球AI加速器(GAIA)部门的重点)
在边缘设备上部署优化的机器学习/深度学习模型，如无人机、网络摄像头、移动电话和终端(爱立信的重点领域之一)
为特定领域构建AI平台以解决实际问题(我们专注于在爱立信GAIA部门构建电信平台)

PH::您的大部分研究和行业经验都是关于能源管理和智能电网的。在当今世界，高效的能源管理已经变得如此重要，您认为数据科学家可以如何帮助解决这些问题?

Sunil博士:这个问题很有趣。智能能源管理不仅仅是优化。智能电网中的机器学习可以应用于:

分析智能电网各点的需求、电力和价格数据
预测模式，发现异常并提出预防措施
预测可再生能源的生产和
减少资源和资本的浪费

PH:在“数据科学家”或“机器学习工程师”这两个词流行起来之前，您就已经在这个领域了。鉴于您丰富的经验，我想知道您最具挑战性的项目是什么，您是如何克服这些障碍的。

Sunil博士:对我来说，最具挑战性的项目是代表我的平台团队为美国的一个大型制造客户服务。客户是我们自动化和AI平台的最初客户。产品副总裁告诉我，他将与我分享TB级的数据，我需要在他的组织中找出价值百万美元的案例用于他们的自动化和人工智能。

经过几轮的讨论，我们达成了一个共识，那就是在将整个TB的数据倾倒到平台上等待着奇迹并不是解决方案。我们的想法是采取渐进的步骤。我们从55个客户端应用中的2个开始，并在2天内确定了潜在案例，然后扩展到所有的客户端。这是AI实际应用刚开始的阶段。

“现在，人工智能处于膨胀预期的顶峰，人们认为人工智能可以解决他们所有的问题。我们应该制定现实的业务问题，并将其转化为数据科学问题，然后研究需要什么样的方法来解决这些问题。”

对我来说，最近最具挑战性的项目是在爱立信。我们正试图预测客户对电信运营商的投诉类型，并采取配置更改的纠正措施。

PH:在这个领域的突破，尤其是深度学习，是前所未有的。深度学习算法的下一个前沿是什么?

Sunil博士:我同意这个领域正在快速变化。我将更多的赌注押在深度强化学习和非监督学习的杀手级应用上，包括未来的GANs。我们已经看到了跨领域的深度学习架构的大量应用。

然而，我们在行业中解决的大多数问题都是监督学习。在现实世界中，可用的数据没有标签。

“如果我们可以不需要标签直接用数据的话就可以扩展深度学习的使用，这个领域的潜力将是无限的。”

给有抱负的数据科学家的建议

PH:软件开发人员/工程师的角色慢慢地开始包含越来越多的技能。软件开发人员如何利用他们的软件工程经验来过渡到机器学习领域?

Sunil博士:

对于软件工程师来说，理解确定性软件开发生命周期(SDLC)和模糊的、概率性的数据科学生命周期(DSLC)之间的区别是很重要的。

成功的数据科学家具有很强的数学、编程和领域知识。软件工程师可以为机器学习模型的编程、评估和可视化做出贡献。

因此，软件开发人员应该确定他们的核心优势，并选择他们在这个领域的优势所在。如果他们有计算机科学背景，他们应该专注于数据科学家的基本统计。如果他们有数据处理经验，他们应该以数据工程为目标。

PH:实践机器学习技能的公开数据集并不缺乏。您对有抱负的数据科学家应该做哪些项目来提高他们的简历以适应当前的就业市场有什么建议?

Sunil博士:我强烈认为，学生在寻找工作机会之前，至少应该瞄准两个项目(一个是在课程中做一个优秀的项目，另一个是在自己的领域做优秀的项目)。

目前的就业市场很好。这个行业正在拼命寻找聪明的数据科学家和数据工程师。

以下是一些基于公开数据集的项目:

计算机视觉:图像分类，目标检测，分割和字幕，视频分析
NLP:情绪分析，推理，印度语言的神经机器翻译
语音:建立应用Alexa，印度语言语音处理
多媒体(文本，图像，视频)聊天机器人与可用的会话接口框架。人们可以从基于检索的聊天机器人开始，然后转向基于生成的聊天机器人
印度政府公布了来自各个部门的大量数据。数据科学家可以使用这些数据来解决现实世界的问题，如农业(作物产量)、收入等领域的预测。
ISRO卫星数据分析:各研究所可以与ISRO签订合约，在其海得拉巴和艾哈迈达巴德中心获取高分辨率卫星图像。人们可以利用现有数据建立模型，并在数据仍然属于ISRO的情况下发布模型

PH:更进一步——我想问您一个经常被问到的问题——人们如何才能在理论上学习数据科学和在行业中应用数据科学之间架起一座桥梁?

Sunil博士:学生的目标应该是打下坚实的基础。为此，学生需要:

从标准的可用数据集开始构建它们
接着看现实生活中的数据集，这些数据集在开源平台上很容易获得
熟悉知识产权及《一般资料保护规例》等资料规则

另一方面，行业数据需要大量的预处理和数据分析技能。通常，在企业级别上，这样的过程确实占用了我们大量的时间。

“简而言之，数据科学爱好者应该参加竞赛，维护他们强大的Github，提高他们的学习能力。”

PH:最后，您能给我们列出您最喜欢的这一领域的研究论文吗?每个有抱负或有经验的数据科学家都应该读一读。

Sunil博士:有很多论文要提!

“我强烈建议有抱负的数据科学家去看看2018年图灵奖获得者Geoffrey Hinton, Yann LeCun 和 Yoshua Bengio的开创性工作。”

他们是优秀的教授，现在正支持硅谷的科技巨头让人工智能民主化。以下是我在这个领域最喜欢的一些研究论文:

核心论文:

D. E. Rumelhart, G. E. Hinton, and R. J. Williams. 1986. Learning internal representations by error propagation. In Parallel distributed processing: explorations in the microstructure of cognition, vol. 1, MIT Press, Cambridge, MA, USA 318-362.
LeCun, Yann, Bengio, Yoshua, Hinton, Geoffrey. Deep learning. Nature, 2015/05/27/online, vol 521, pg 436-444
Yann LeCun, Léon Bottou, Yoshua Bengio, Patrick Haffner. Gradient-based learning applied to document recognition. 1998. Journal Proceedings of the IEEE, Volume 86, Issue 11, Pages 2278-2324
ImageNet Classification with Deep Convolutional Neural Networks By Alex Krizhevsky, Ilya Sutskever, Geoffrey E. Hinton; Communications of the ACM, June 2017, Vol. 60 No. 6, Pages 84-90
Yann LeCun and Yoshua Bengio. 1998. Convolutional networks for images, speech, and time series. In The handbook of brain theory and neural networks, MIT Press, Cambridge, MA, USA 255-258
Yoshua Bengio. 2009. Learning Deep Architectures for AI, Foundations and Trends Machine Learning journal, 1 (January 2009), 1-127

高级论文:

Ian J. Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, David Warde-Farley, Sherjil Ozair, Aaron Courville, and Yoshua Bengio. 2014. Generative adversarial nets. In Proceedings of the 27th International Conference on Neural Information Processing Systems – Volume 2 (NIPS’14), MIT Press, Cambridge, MA, USA, 2672-2680
R. R. Selvaraju, M. Cogswell, A. Das, R. Vedantam, D. Parikh and D. Batra, “Grad-CAM: Visual Explanations from Deep Networks via Gradient-based Localization,” 2017 IEEE International Conference on Computer Vision (ICCV), Venice, 2017, pp. 618-626. (DOI: 10.1109/ICCV.2017.74
Mikolov, Tomas; et al. (2013). “Efficient Estimation of Word Representations in Vector Space”. arXiv:1301.3781
Volodymyr Mnih et al. Human-level control through deep reinforcement learning, Nature, 2015 DOI:10.1038/nature14236

结尾

我从Vuppala博士的回答中学到了很多。他本人具有软件工程背景，他对数据科学行业的实际建议和见解对数据科学专业人士非常有益。

以下是这次采访中让我产生了共鸣的几点重要收获:

对于学生来说，维护他们的github、参加竞赛、处理真实数据集以提高他们在这一领域的技能是至关重要的
未来的机器学习将由拥有高能力的研究部门的公司来规划，这将需要大量熟练的数据科学家

欢迎关注磐创博客资源汇总站：http://docs.panchuang.net/

欢迎关注PyTorch官方中文教程站：http://pytorch.panchuang.net/