专访iDST华先胜：城市大脑，对城市的全量、实时认知和搜索

摘要：对外界而言，城市大脑是一个熟悉而又神秘的项目，如果用一个通俗而又古老的词来描述，它就是智慧城市，但事实上城市大脑已经远远超越了大家通常谈论的智慧城市...

编者按：10月11-14日，为期四天的2017杭州云栖大会（门票火热抢购中！）将再度在杭州云栖小镇起航，作为全球最具影响力的科技展会之一，本届大会将有不少阿里集团专家以及各企业行业领袖的精彩演讲。从今天开始，云栖社区将会对大会嘉宾做一系列专访，想了解嘉宾以及最新议题信息请关注“云栖大会”公众号。第一位嘉宾我们采访的是IEEE Fellow，国家千人，阿里巴巴 iDST副院长华先胜，他将在10月的云栖大会上分享关于计算机视觉领域的前沿趋势以及城市大脑最新的进展。

在7月底结束的全球计算机视觉顶级会议——CVPR 2017上，阿里巴巴有四篇论文被大会收录，这四篇论文全部出自阿里巴巴人工智能研究机构iDST和人工智能实验室。作为iDST视觉计算组负责人，华先胜还受邀发表了《Practices of Large-Scale Target Re-Identification》的主题报告，报告中提到了他所负责的城市大脑项目。

对外界而言，城市大脑是一个熟悉而又神秘的项目，如果用一个通俗而又古老的词来描述，它就是智慧城市，但事实上城市大脑已经远远超越了大家通常谈论的智慧城市 -- 你很难想象要实现从感知到决策优化、到预测，以及到干预的背后，技术团队所面临的挑战有多大。

华先胜告诉云栖社区，城市大脑的核心就是大数据和大计算，挖掘大量城市异构数据的不可替代的价值是其任务。但数据也有不同来源，城市数据是视觉数据、公交数据、GPS数据以及人口等异构数据的聚合体，在这些数据中，视觉数据是量最大也是最核心的部分。华先胜指出，视觉数据相比其它数据更加全面，这也是为何视觉方向需要投入更多的人力。

不难理解，相比电商中的商品搜索，城市大脑涉及到的问题更加复杂，如何把城市的车，人，物品，道路，建筑等进行有效等索引和搜索？深度学习又如何帮助计算机视觉克服应用落地难题呢？

ad1d029c5bf5301768ace3b3365463a2735e0a6d

以下是云栖社区对华先胜博士的采访实录：

（华先胜博士，国家千人，IEEE Fellow、ACM杰出科学家、MIT TR 全球 35 位 35 岁以下的杰出青年创新人物，曾担任 ACM Multimedia 等大会程序委员会主席，是视觉识别和搜索领域的国际级权威学者。于 2016 年 4 月加入阿里人工智能研究机构iDST科学家团队，带领视觉计算团队的研发工作。）

云栖社区：您带领的iDST视觉部门在负责城市大脑项目，请介绍一下这个项目的具体情况，目前取得了哪些突破性的进展？

华先胜：首先从high level的角度来讲，城市大脑实际上是大数据和大计算，挖掘大量城市异构数据的不可替代的价值是其任务。因为城市是一个非常特殊的大量的异构数据的聚合体，这其中的异构数据包含视觉数据、公交数据、GPS数据以及人口数据等等。

所以说，一座城市是非常复杂的，里面的数据量非常大，而其中量最大的就是视觉的数据。一个城市如果有十几万摄像头，每天24小时在跑，产生的数据量是巨大的。但是这些数据的价值在过去并没有被充分挖掘出来，海量设备的部署和运维成本很高，但它的价值远远不只是传统的车牌识别和交通处罚 …

因为深度学习对计算机视觉的推动，我们对整个城市的感知可以做得更好，不仅仅是车牌和交通违章的检测问题，我可以知道更多的细节，例如车的形状、型号、路径、速度，同时也可以感知到行人和骑行人等等。也就是，今天的深度学习算法可以使我们对城市进行更为全面的感知，这也是算法方面的能力提升的体现。另一方面是计算能力，云计算、GPU、FPGA等这些都让我们可以实现海量数据的计算，同时实时处理千路，万路，甚至更多路的视频…

有了对城市的全面实时和全量感知，一旦遇到突发情况，马上就可以找出相关的数据，比如查找嫌疑车、肇事车、嫌疑人。此外我们还可以基于分析后的数据对整个城市进行优化，比如说交通的优化。而且，城市大脑还可以进行预测，例如10分钟以后哪里会交通拥堵？20分钟以后哪里会有问题？还可以做更长一点时间的预测，例如，如果明天杭州会下大雨，在西城某个地方还有个大型的演唱会，在东城还有某个大规模的活动，这种情况下你大概就可以预测明天车流的情况，以及可能一些路段的事故几率会提升好几倍。根据预测出来的结果，我们可以提前进行警力和医疗资源的部署，甚至提前做一些交通管制、限流等等，不让不好的事情发生。

总结起来就是，从数据源到感知，到决策优化，到预测，到干预。城市大脑打造的是一个具有数据智能的城市。目前我们在杭州城区和萧山区已经部署运行了很长时间，在算法上也有很多的突破，例如我们在服务器端用更优的算法可以实现更精准的车辆检测、车牌识别，还有实时监测事件事故、预测交通状况，以及整个视频处理的这么一套高效的流程。我们能做大规模的视频处理，这对效率和稳定性都是一个很大的挑战。过去的大半年时间，经过不断的迭代优化，我们在整个链路的处理速度提升了20倍。

云栖社区：计算机视觉部分在城市大脑项目中渠道了一个什么样的作用，它涉及到了哪些研究课题？和其它计算机视觉应用场景相比又有哪些联系和差异体？

华先胜：毫无疑问，视觉的数据在覆盖上没有GPS数据好，因为它是个断面数据，但是视觉数据更加全面，它可以知道整个路口的详尽的情况。所以视觉绝对是核心的，投入的人也是最多的。

城市大脑的计算机视觉部分涉及到的问题除了视觉感知、识别的基本问题外，还有基于视觉的结构化数据之上的一些问题，例如搜索方面。大家知道，拍立淘是电商的商品搜索，而城市的数据远远多于商品的数据，但它也是可以实时索引的。通过摄像头的视觉数据进城市的索引和搜索，这是城市大脑的突破之一。

云栖社区：为一座城市进行图片搜索，如何实现？

华先胜：首先，数据量的问题，是索引技术要解决的问题，但是能不能搜出来，是特征的问题。城市图搜的技术整体路线和拍立淘是类似的，首先要知道目标在哪里，也就是目标检测；然后是识别车或人等移动目标，以及这些目标的一些属性；最后是要抽一个特征，一个高维向量，代表这个目标的本质特征。

一张图像一般有很多目标需要处理，每个目标会作为一个单元放到索引里面去，然后每个单元就会有一个特征来描述它。城市图搜比商品搜索问题更复杂一点，比如说车，同一商品的不同实例对于电商搜索而言，它们是一样的，但是对于车而言就不一样了，相同型号的车，不同车主的车辆是不相同的。从大体的技术上来说就是要找到一些细节特征区分不同的车和人。车的问题还比较好解决，人的特征描述和搜索问题，类人脸看不清楚的情况下，目前还是很困难的。虽然在公开测试集上，我们超越了公开发布的最好结果，但是我们觉得在实际应用场景中还是蛮困难的一件事情。

回到前面提到的数据量的问题，倒排是通常使用的发发。但视觉没有关键词，我不能直接用倒排的技术。因此，我们要把这个视觉的特征变成关键词关健词，虚拟的、抽象的关健词，然后通过这种方式来进行倒排，这样就能解决数据量大的问题。当然，还有搜索量大的的问题，这个一般是通过系统的方法来解决。

云栖社区：从技术角度和商业角度分别谈谈计算机视觉方面面临的挑战？对工业界而言，如何去克服这些挑战？

华先胜：计算机视觉是属于AI里面最重要的一部分，AI创业公司大部分是做视觉的，但是AI还不成熟，一个算法很难在多个场景下都能表现优秀，即便是相对成熟的人脸检测、人脸识别，在不同场景下都还需要调优。

我觉得视觉技术如果要发展的更好，真正的产生实用价值，还是要结合具体的应用场景，结合行业的特点，把算法调到最优。为了克服一些算法本身的缺陷，你还可能需要一个很好的用户界面来降低算法缺陷的影响。

各行各业的场景和数据，是需要做深入的探究的，包括城市大脑也一样，城市大脑的场景看上去和基础行业差不多，例如，检测、识别、跟踪、搜索等等，但是你没有深入了解这个行业，就很难做好并使其产生真正的价值。

云栖社区：计算机视觉现在发展得如此顺利，原因之一就是深度学习，如何看待深度学习已成为计算机视觉的标配？

华先胜：目前识别和搜索方向基本上是用深度学习，但在生成方向，有些传统方法还在使用。

总体来说，这是一件好事情，因为过去计算机视觉离应用很远，而随着深度学习的到来很多场景都开始落地了。像SIGGRAPH这个会议，以前工业界参加的人就非常多，因为这里做的很多研究是可落地的，例如在电影、动画、游戏等等行业；而当时，CVPR会议工业界的参与就少得多。今天，工业界参与CVPR的人数我相信也是远远超过过去的，工业界里面很多人会愿意去看这些技术，这是好事情。

当然，就目前来说深度学习理论方面没有太好的进展，但它也不是没有规律可循，做好的门槛还是很高的。

云栖社区：深度学习在实现计算机视觉应用上存在哪些局限性？未来是否会被新的技术颠覆？

华先胜：局限性有很多，深度学习看上去很美，但实际上还有很多问题没有解决好，比如说人脸识别在小规模上做得还是不错的，几千个人效果还行，但规模进一步扩大做对比就很难实现了；另外，视频质量、分辨率、遮挡问题都限制了识别的效果，这一点机器无法和人相比。深度学习对数据的依赖也很强，小数据上的深度学习仍然需要更多的探究。

深度学习在近几年的发展势头很猛，将来肯定也会有新的技术会颠覆它。

云栖社区：上个月的CVPR，我们一篇名为《从视频到电商：视频衣物精确检索》的论文被收录了，能否为大家介绍一些其中有哪些创新点？

华先胜：这个工作采用了目前最先进的衣物检测和跟踪技术，针对明星同款检索中存在的多角度、多场景、遮挡等问题，提出可变化的深度树形结构（Reconfigurable Deep Tree structure），利用多帧之间的相似匹配解决单一帧检索存在的遮挡、模糊等问题。该结构可以认为是对现有attention模型的一种扩展，可以用来解决多模型融合问题。

云栖社区：做视觉的创业公司越来越多，您认为计算机视觉在哪些应用领域的前景最大？

华先胜：第一个就是交通安防，这也是我们城市大脑在做的方向，交通安防是最快能够落地、市场潜力很大的方向，交通安防问题实际上就是城市的感知和基于感知之上的优化决策，预测和干预；第二个是富媒体，就是通过视觉的方法去挖掘大量的视频、图像数据的价值。

另外，医疗图像方向也是未来的一大热门，虽然医疗领域的落地时间可能会稍微远一点，但它的应用前景很好；还有工业视觉，未来可以通过摄像头来代替过去绝大多数需要人眼来检查、判断的场景，这是一个尚待进一步开垦的领域；端上的视觉智能也是一个很好的方向，包括芯片和一些基于视觉的应用。

云栖社区：谈谈您对人工智能商业化的看法。

华先胜：之前我就曾经讲过，一个成功的人工智能应用，应该具备五个条件。

第一个是算法。你要有好的算法，你的算法要有先进性，你的算法不行一切都没有了基础。

第二个是要有数据。数据本身就是一个很大的话题，里面有数据的采集、搜集、清洗、有效的标注，甚至包括算法里面数据怎么使用。

第三个是用户。你做的这个东西应该有用户的，因为有很多问题是需要用户参与才可以做得越来越好。当然你从商业的角度来讲，没有用户的话也不能够长久。用户本身是数据的消费者，也是数据的提供者，这过去在搜索引擎里面有非常重要的体现，可以说搜索引擎的技术能够做那么好，每个人都有contribution的。

第四个就是平台。这个就是涉及到你要有强大的计算能力和一套体系架构，能够方便地去研发、部署和生产，这一套是必须要有的。当然现在因为有云计算，所以这部分的瓶颈，对于很多企业来讲已经没有过去那么困难了。

第五个就是有好的商业模式。如果没有好的商业模式，就不可能长久。你做一个事情，低频的事情没有多少人用，或者不能给少量用户带来大的价值，最后产生的总体价值不够的话，其实是很难长久的。这几点，我个人觉得其实是都应该具备的。当然了，可能不同的商业应用，应该来说可能有不同的侧重，但是我觉得都应该具备。

云栖社区：您认为CV领域未来会有什么样的新变化？

华先胜：这需要看从哪个level来讲，如果从技术来讲，深度学习本身的演化，这本身就是重要的方向，例如GAN在更多场景的中的应用；大规模的视频处理挖掘也可能是重要的方向。如果再往上层来讲，我们前面讲的智能应用的角度，就是深入行业去让这个人工智能，或者叫视觉智能真正的落地，然后产生真正的影响力，真正的价值。在这个方面进行实践和探究，回过头来还会推动视觉技术的进一步的发展。只有落到实处，才知道还有问题没解决，现实世界是很残酷的。

云栖社区：在本次云栖大会上，您会分享什么话题？能否提前透露一些亮点，以及分享这个话题的初衷？

华先胜：我会介绍视觉技术在各行各业里面的一些应用以及挑战，特别是城市大脑中的技术和应用。以前对城市大脑的介绍都是蜻蜓点水，这次会讲得更深入一些，例如关于城市大脑里面的技术细节，以及它的价值体现，等等。

欲了解更多历届大会相关内容以及最新嘉宾采访，请关注社区“云栖大会”公众号！

云栖大会变迁史（2009-2017）： https://yq.aliyun.com/articles/152072 图说历届云栖大会精彩内容（长图鉴赏） https://yq.aliyun.com/articles/164548

【印象】2017云栖大会城市峰会：上海、南京、成都等： https://yq.aliyun.com/articles/161183 【印象】2016云栖大会城市峰会：上海、深圳、南京、北京等： https://yq.aliyun.com/articles/161000 【印象】2016杭州云栖大会全套资料分享 https://yunqi.aliyun.com/2016/hangzhou/download

用户登录

今日阅读排行

一周阅读排行

关注我