北大校友马里千：计算机视觉商用的下一个十年 - 计算机时代杂志社投稿_期刊论文发表|版面费|电话|编辑部|论文发表- 计算机时代

一、本刊要求作者有严谨的学风和朴实的文风，提倡互相尊重和自由讨论。凡采用他人学说，必须加注说明。二、不要超过10000字为宜，精粹的短篇，尤为欢迎。三、请作者将稿件（用WORD格式）发送到下面给出的征文信箱中。四、凡来稿请作者自留底稿，恕不退稿。五、为规范排版，请作者在上传修改稿时严格按以下要求： 1．论文要求有题名、摘要、关键词、作者姓名、作者工作单位（名称，省市邮编）等内容一份。 2．基金项目和作者简介按下列格式：基金项目：项目名称（编号）作者简介：姓名（出生年－），性别，民族（汉族可省略），籍贯，职称，学位，研究方向。 3．文章一般有引言部分和正文部分，正文部分用阿拉伯数字分级编号法，一般用两级。插图下方应注明图序和图名。表格应采用三线表，表格上方应注明表序和表名。 4．参考文献列出的一般应限于作者直接阅读过的、最主要的、发表在正式出版物上的文献。其他相关注释可用脚注在当页标注。参考文献的著录应执行国家标准GB7714-87的规定，采用顺序编码制。

北大校友马里千：计算机视觉商用的下一个十年

作者:

关键词:

摘要：

导语：近几年，人工智能在国内的商业落地趋于同质化，以识别与检测为主。当人们谈论AI创业，首先想到的总是以感知技术为代表的“AI四小龙”（商汤、云从、依图、旷视）。除了感知，人工智能还有哪些商用方向？在上周推送的文章《陈启峰：在适合自己的赛道上追求速度与突破》中，我们探讨了计算机视觉的另一个潜在落地方向：内容生成。不止一位研究者相信，如果能够用AI技术降低大众的艺术创作成本，那么大家参与内容创作的热情也会提高，说不定还能改写《权游》大结局。

在推动内容生成落地的浪潮中，马里千与ZMO的小伙伴首当其冲。

作者 | 陈彩娴

编辑|刘冰一

2014年，当远在加拿大的 Ian J. GoodFellow 等人提出生成对抗网络“GAN”时，马里千正在大洋彼岸的北京大学攻读研究生，刚刚入门行人重识别。

GAN的核心理念是让两个神经网络相互竞争，一个神经网络生成接近真实的数据，另一个网络试图区分真实的数据和由生成网络生成的数据。“猫抓老鼠”的游戏不断进行，直到系统达到“平衡”，生成器创建的数据就会看起来足够真实，这时判别器只能无奈随机猜测。

图注：GAN的工作原理

由于能够生成“足够真实”的数据，随后几年，GAN在图像内容生成上的影响力日益增大，继而延伸出了基于GAN技术的30多种生成模型，包括 StyleGAN、Recycle-GAN、GauGAN等等。比如，2018年，Nvidia 开发的 StyleGAN 能够生成“不存在的人”：

GAN的出现，让AI内容生成走入更多人的视线。除了“GAN系家族”，近年来，诸如蚂蚁呀嘿、DALL·E（如下）等生成技术也日趋成熟，昭示着内容自动生成的落地可能性。文本：穿着芭蕾舞短裙的萝卜宝宝在遛狗。

图注：“DALL·E”能够根据文本提示生成对应的图像

尽管GAN已诞生六年多，但遗憾的是，目前国内计算机视觉技术的商业应用落地仍局限于感知一块。仔细观察，国内知名的人工智能企业（如商汤、云从、旷视、依图等），他们的主要商用技术便是人脸识别。

“除了检测、识别、语义分割等，计算机视觉在中国还有其他可能的落地方向吗？”马里千也一直在思考这个问题。

随着以GAN为代表的内容生成模型队伍日渐壮大，马里千也已从刚刚入门的“AI小白”成长为在图像生成方向小有造诣的博士候选人之一。怀着对未来内容生成发展的好奇与疑问，马里千不甘于成为大厂的一枚螺丝钉，而是选择开创一番属于自己的事业。

加盟人工智能创业公司ZMO，便是马里千在内容生成创业上的第一步。

北大：开始人体识别研究

2013年，马里千以优秀的成绩从华南理工大学保研至北京大学，攻读计算机应用技术专业。在北大，他开始了人体感知识别的研究课题。

此前，马里千的本科专业为电子科学与技术（微电子方向），所学课程偏硬件。尽管专业成绩一直名列前茅，但马里千很早便确定“自己更喜欢研究软件应用与开发，尤其是视频与图文的特效制作”。所以，在确定保研北大后，他便毅然选择转专业，加入了刘宏教授的智能机器人开放实验室（HRI Lab），开始研究计算机视觉。

图注：北大未名湖本科研究编程与数字图像处理的经历，与计算机视觉的基本概念有很大差距。因此，在刚进入计算机视觉领域时，马里千对技术的细分方向并不了解。在选择研究课题时，组里的方向非常多，有研究表情识别的，有研究人脸识别的，有研究动作分析的，也有研究语音和运动规划的……犹如刘姥姥进大观园，一切都觉得新奇，又眼花缭乱。

一开始，马里千跟着实验室的一位博士师兄着手于RGB-D人体跟踪方面的研究。在拟定硕士研究课题时，他与博士师兄讨论，选择了行人重识别方向。他解释道：

“行人重识别这个课题的延展性特别好，‘进可攻、退可守'。往外拓展，你可以把识别拓展到跟踪问题上，包括单摄像头跟踪与跨摄像头跟踪，进而延伸到动作识别、轨迹分析、行为分析等等。退可守就是，你可以将问题简化为学习单纯的相似性度量，比如判别两张人像图片所显示的是不是同一个人。”

行人重识别的英文名为“Person Re-Identification”（缩写为“re-ID”），最早在这个方向上取得卓越成果的研究机构主要是伦敦玛丽女王大学和香港中文大学，而后引入国内。“Person”的意思是“人体”，而国内翻译成“行人”，是因为这项技术最初主要应用于监控与行人观测。

文章来源：《计算机时代》网址: http://www.jsjsdzzs.cn/zonghexinwen/2022/0211/2285.html