小仙女代刷网免费:快手刷双击

快手如何一步步积累人工智能? 机器心采访了快手多个业务部门的资深人士,希望还原快手人工智能从0到1的全流程。

我在CVPR上看到的快手和我记忆中的不一样。

CVPR,全称IEEE International Conference on Computer Vision and Pattern Recognition,与ICCV、ECCV并称为计算机视觉领域三大顶级会议之一。 今年的CVPR于当地时间6月16日在美国加利福尼亚州长滩开幕,吸引了超过9000名与会者、284家赞助商和104家参展商。

小仙女代刷网免费:快手刷双击

这是快手首次参加CVPR。 在约40平方米的展示面积上,快手展示了基于人脸特征识别的演示,可以在海量视频库中找到与参与者长相相似的用户。 这个有趣的演示很快引起了与会者的注意,人们聚集在展位周围,想看看他们的“双胞胎”长什么样。

给我印象最深的是一位身穿黑色短袖、短发、留着胡须的老人。 匹配结果如此相似,引得围观者哈哈大笑。

这次新奇的经历让我对快手的人工智能产生了兴趣。 刚开始使用快手时候,我也曾有过一段灰暗的日子。 我还知道“记录世界,记录你”、“双击666”等快手流行语。 这个短视频应用给我的生活带来了很多乐趣。 。 然而,快手的人工智能似乎从未被认真讨论过,至少与活跃在手电筒中的其他中国科技公司——BAT、TMD,或者商汤科技、旷视科技、依图科技相比是这样。

仔细想想,快手应该比大多数中国科技公司更依赖人工智能。 成立8年以来,快手日活跃用户已突破2亿。 公司业务涉及生产、审核、分发、消费,需要处理海量数据,以及快手自身业务的特点。 如果没有机器学习的支持,很难取得今天的成就。 。

快手如何一步步积累人工智能? 带着这样的疑问,我采访了快手多个业务部门的资深人士,希望还原快手人工智能从0到1的全流程。

第一个深度学习团队

2015年12月,彭博社发表题为《为什么2015年将是人工智能突破之年》的文章。

今年,人工智能遍地开花。 谷歌开源其机器学习平台TensorFlow,成为全球最大的机器学习平台; 此前不被很多人看好的亚马逊智能音箱Echo,目前已经占据了整个音箱市场销量的25%; 10月,一款名为AlphaGo的智能代理推出,首次击败职业围棋棋手。 谁也没有想到,这个智能体会在不久的将来掀起一场巨大的科技浪潮。

1月至12月,全球超过300笔投资涉及人工智能领域,几乎每天都有人工智能初创公司获得融资的消息; 人工智能在中国也受到资本的追捧。 据德勤报告显示,2015年中国人工智能总投资达450.7亿元人民币,同比增长306%。

在此背景下,2015年底,快手迈出了深度学习的第一步。 创始人兼CEO宿华找到李岩,希望他能成立深度学习部门(DL组),用算法打击盗版和非法内容。 当时,快手已经拥有超过1亿的Android和iOS用户,用户分布在北上广等一二线城市以及众多三四线城市。

苏华

确保内容安全性和原创性是几乎每个视频应用程序的必要条件。 违法内容过多,会挤压内容生产者的流量,导致整个平台瘫痪。 换句话说,这是快手生存的底线。

被苏华委以重任的李岩毕业于中科院计算技术研究所。 他是快手的老员工,工号75人左右,早期在视频安防领域颇有建树。 2015年11月,李岩组建了一个不足十人的团队,目标是在几秒内删除色情、暴力等违法内容; 识别非原创和盗版视频内容。

为了招人,李岩尝试了各种方法,甚至在知乎上寻找人才。 当时有研发人员不了解快手,还有一些工程师只是因为快手离家近才来面试。 但面试后,他们被快手所做的事情所吸引,并决定加入快手。

在技​​术积累的过程中,快手对视频内容的理解产生了更多的需求:视频里的人在说什么? 场景在哪里? 你想表达什么? 深度学习部门不再局限于解决视频安全或版权问题,而是希望帮助快手老手更快找到自己喜欢的内容。

当时深度学习部门只有图像和音频两个单模态内容理解团队,但视频理解出身的李岩坚信,多模态内容理解对于快手这样的短视频公司极其重要。 在2018年的一次公开演讲中,他举了一个例子,“在一个男人表演口技的视频中,如果把声音关掉,我们只依靠画面信息,我们不知道他在做什么。我们可能会认为他在唱歌或者在唱歌剧,这表明如果你仅仅从视觉上看,你可能无法获得真实的信息。”

“视频是视觉、听觉、文本模态的综合信息形式,而用户行为也是另一种模态的数据,所以视频本身就是一个多模态问题,而用户行为更是一个更加复杂的多模态问题,所以多模态研究对于快手来说是一个非常重要的课题。”

2016年,深度学习部门开始涉足语音、文字、音乐等多种媒体形式。 李岩决定将团队名称从深度学习组更名为多媒体理解组(MMU)。

这一年后来被称为短视频元年,资本纷纷涌入这股潮流。 65%的市场资金投资于短视频内容创作者,76%的垂直细分领域的短视频内容进行了投资。

2017年初,完成3.5亿美元融资的快手率先从短视频领域的“战斗”中脱颖而出,总用户和日活跃用户分别达到4亿和4000万。 截至年底,这两组数据分别增长至7亿和1亿,日均上传视频超过1000万条。 快手团队的规模也从200多人扩大到800多人。

此后,MMU团队迅速扩张,各个单模态团队都引进了业界顶尖人才做算法优化和工程实现。 起初,不同模式的业务群独立发展。 到2018年,各组算法开始整合。

多模式理解的挑战

作为快手第一个深度学习团队,MMU团队面临着巨大的挑战。

过去几年,单模态内容理解能力在学术界还不够成熟,学术界对视频理解没有强烈的研究需求。 结果,视频理解一直没有解决方案。 在工业界,即使是全球最大的视频平台 YouTube,也可以在一定程度上绕过视频理解,因为它的视频包含丰富的文本信息——标题、介绍和标签。

但快手不同。 作为移动互联网时代兴起的短视频应用,快手为用户提供了轻量、新颖的视频拍摄体验。 用户喜欢拍摄后立即上传视频,但不喜欢文字编辑。 描述视频的文字信息严重缺失。 快手需要理解内容才能做出推荐算法,而视频理解成为了无法回避的障碍。 李岩表示,快手是一家早期的公司,对视频内容分析的需求非常强烈。

复杂的应用场景和多样化的用户分布给MMU带来了另一个维度的挑战。 负责视频理解方向的赵旭是MMU团队的老员工。 他给机器之心举了一个例子:快手有很多风景的视频内容。 有的景色美丽动人,犹如“仙境”。 所以快手标签需要描述“仙境”等风景; 但在学术数据集中,你不会看到这样“奇怪”的标签。

“这不再是具体的分类算法问题,而是如何定义合理的标签系统。”

语音群体最直观的问题就是方言口音。 MMU语音组的岳浪表示,快手用户的地域分布结构与中国移动互联网的人口分布结构基本一致:只有约7%的人口居住在一线城市,其余93%居住在一线城市。非一线城市,尤其是一线城市。 很多小城镇的年轻人,或者三四线以下的人,说话口音很重,这就需要快手收集特定方言区域的语音和文字数据。

音乐团体面临的难题之一是对用户的演唱进行评分。 传统的歌唱评分是将用户演唱的歌曲与原始歌唱音频进行比较。 匹配度越高,得分越高。 但在快手,很多用户都是来自偏远地区的少数民族,他们唱的民歌在快手的搜索库中找不到。

“我们现在需要解决的不是1+1等于2的问题,而是当你计算1+1时,你发现你连纸笔都没有。”超旭说。

经过两年的探索,MMU集团逐步形成了基于多模态技术的两大业务体系:信息分发和人机交互。 前者利用多模态实现视频内容的精准理解,后者利用多模态帮助人们更好地记录生活。

为了更好地理解这两个方向,我们分别举一个方向的例子:冷启动项目属于内容分发,也就是说当用户第一次打开快手应用时,除了内容和视频中的人物之外,由于用户打开快手页面是为了“发现”而不是“关注”,所以算法无法获取任何行为数据,因此快手必须在冷启动阶段提供个性化的内容推荐。 2018年MMU集团参与了冷启动优化项目。

在人机交互中,视频配乐是典型的多模态理解场景。 MMU音乐组的水涵告诉机器心,快手首先需要对视频进行理解,包括人脸识别、年龄性别、动作时间、地点和场景识别,然后对风格、情感、节奏、主题等进行场景理解,以及音乐的适合度。 这个过程涉及多个部门之间的协作,包括视频理解、人脸识别、自然语言处理、视频检索、音乐检索,最后是推荐算法。

算法优化带来的红利是显着的。 2018年第二季度,快手APP月活跃用户数达2.4亿,日活跃用户数突破1亿。 今年4月,腾讯向快手追加4亿美元融资,使快手估值达到近200亿美元。

然而,多模态研究给MMU团队带来的挑战并没有减少。 李岩表示,多模态研究还存在三大难点:多模态融合后,由于样本空间变大,单一模态的语义差距会进一步增大; 不同模态之间数据的综合在建模时,会出现数据异质性差距; 多模态数据集构建困难,存在数据缺失的问题。

MMU的下一个目标是从低层感知过渡到高层语义理解,这也是李岩认为的“目前业界最难的问题”。 MMU目前正在开发视频分类系统,以更好地保护未成年人使用它。 快手,这需要算法对视频内容有更深入的理解:视频表达什么概念? 流露出什么样的情感?

“我认为视频内容理解是未来人工智能在现实生活中大规模爆发的关键技术,而快手在这方面既有战场,也有数据。我们的MMU应该是未来人工智能的关键力量业。”李岩说。

快手的“Google X”

在MMU发展的同时,快手也在大力发展其他部门,比如负责音视频传输和质量保证的音视频技术团队、负责推荐的社科团队等。 与 MMU 一样,这些部门都是业务驱动的,专注于产品开发和技术实施。

随着快手视频理解技术在推荐、内容安全等方面的应用日益成熟,宿华希望成立一个专注于前沿算法的实验室,将好莱坞等特效内容加入到用户的内容制作中,利用人工智能让用户获得新奇的体验。

于是,2016年,宿华找到了清华大学的老同学、博士生。 郑文,斯坦福大学计算机科学博士。 在斯坦福大学期间,郑文的研究方向主要集中在计算机图形学和电影特效方面,其导师曾两次获得奥斯卡技术奖。 毕业后,郑文继续在美国从事机器学习和计算机视觉相关的研究。

郑文

2016年9月,在宿华的催促下,郑文回国加入快手,并成立了Y-Lab。 郑文当时对国内媒体表示,“我觉得他想做的事情很有趣,也很符合我的经历,我也感兴趣,所以就回来了。” 宿华没有制定具体的考核标准。 只做有趣的事情。

Y-Lab早期员工、现任增强现实(AR)技术负责人孟松向《机器之心》回忆起与宿华的一次对话。 他表示,宿华想建立一个类似谷歌实验室(Google X)的技术部门,从事AI、AR领域的前沿技术研究和探索,为未来做好准备。

Google 据国内媒体报道,Y-Lab 中的 Y 代表 Young,Y 是 X 的下一个字母,因此也意味着超越 X。

“我们目前在5G技术研究和3D图像捕捉方面所做的初衷是成为AI和AR领域的世界领先者。”孟松说。

随后两年,Y-Lab开发了各种有趣新颖的demo,涵盖AR特效、面部关键点、手势识别、语义分割、人体关键点检测等多个领域。

去年,Y-Lab的“AR换脸特效”受到网友好评。 用户可以选择相册中的照片,将相册中的人脸传输到AR三维模型中,生成仿人脸。 3D虚拟角色。

去年同样推出的神奇表情包“快手时光机”可以预测用户60年后的模样,并演示了这些年来的整个变化过程,引起了许多网友的情感共鸣。 这款神奇手表的背后,其实涵盖了快手的动态人脸捕捉、定时面部变形化妆、头发分割染发、动态老化控制等技术。

快手时光机

为了让AI算法能够在不同的移动设备上运行,Y-Lab自主研发了深度学习推理引擎YCNN。 负责人脸关键点研发的秀虎告诉机器心,YCNN可以在手机上进行底层神经网络运算(比如卷积运算); 建立一套量化流程配合手机代码,在不损失准确性的情况下加快推理速度。 团队在做算法时,也会有意识地根据YCNN的特点设计匹配的网络结构。

然而,Y-Lab遇到了很多企业实验室的通病:优秀的前沿算法在转化为产品价值时却未能成功。 由于Y-Lab本身定位于前沿探索,预计业务产出较低。 不过,作为企业实验室,Y-Lab不能像学术机构那样进行“雪上加霜”的研究,需要为商业做出贡献。

2018年,Y-Lab为魔幻表情部门设计了很多新的底层算法,比如3D照片、天空图像、面部关键点等。但由于Y-Lab和下游特效团队属于两个独立的部门,沟通上他们之间的问题导致整个魔法表情的上线过程并没有达到预期,用户数据也不理想。

调查原因,负责语义分割的陈星透露,为了让算法在产品上正常运行,有多个部门参与。 “我们(Y-Lab)只关注算法层面,算法完成后如何落地,不是一个部门能够完成的快手刷双击,这就产生了一个问题,算法开发出来后,必须保证落地后的效果。”是的,如果不在同一个部门,沟通成本会更高,算法最终的效果也会不可控。”

去年底,部门做出调整,解决这一问题。 魔幻表情部特效团队并入Y-Lab。 同时,招聘了多名计算机视觉相关算法专家,增加了产品经理,增加了产品设计和工程。 化能力。

为了增加团队内部的沟通,除了每周一开会之外,Y-Lab今年还设立了一个新单元,名为“胜利会议”:员工们聚集在一起,分享本周的进展和成果。 每个人都可以带零食聊天。 微笑着开会。

据几位老员工反映,部门调整后,团队沟通变得更加顺畅。 合并后的第一个项目是为染发制作特效。 晨星团队利用深度学习创建了头发区域的语义分割算法。 特效团队根据算法制作了染发特效。 上线后,用户数据表现较好,荣获公司内部“闪电奖”。

染发效果

作为此次架构调整的标志,快手正式将Y-Lab更名为Y-Tech。 从Lab到Tech的转变背后是整个实验室定位的变化。

组织架构的调整对团队产生了一定的影响。 晨星表示,过去团队的主要精力是研发,但现在也要专注于产品实现,负责更多的事情。 不过,他并不认为整个部门的 DNA 发生了变化。 “我们仍在追踪最前沿的技术,以坚强的意志和巨大的潜力做事。”

为了持续强化整个实验室的前沿探索能力,在本次结构调整中,快手为Y-Tech增添了一支生力军——来自西雅图和硅谷的海外实验室。

算法背后的包容性价值

刘吉和王华燕于去年下半年加入快手。 当他们提到为什么加入快手时,他们都提到了价值观。

2018年初,刘吉在北京国贸大酒店宴会厅见到了苏华。 两人当年均入选《麻省理工科技评论》中国青年科技英雄榜。 刘吉当时是腾讯AI实验室的专家研究员、美国罗彻斯特大学的助理教授。 因“让机器学习算法更加精准高效,探索人工智能潜力边界”而被授予发明人称号; 宿华在快手取得的巨大成功为他赢得了“企业家”的称号。

两人之前素未谋面,但在与苏华沟通后,刘吉对加入快手产生了兴趣。 “我们(指他和苏华)做事逻辑性比较强,国内很多公司还是习惯于复制粘贴,但我觉得他做事是基于解决问题本身,从原理出发。这和我的方法是一样的。”

去年11月,刘吉加入快手,担任西雅图AI实验室和FeDA商业化实验室负责人。

王华燕是斯坦福大学博士生,师从Coursera创始人、斯坦福大学教授Daphne Koller。 毕业后,他加入了硅谷人工智能独角兽Vicarious的创始团队,并在那里呆了四年。

王华燕在2019CVPR快手展台

为了招募王华彦,郑文飞赴硅谷与他交流。 王华彦表示,他能感觉到快手非常迫切需要提高AI算法的效率。 “快手希望在手机上使用最先进的算法,这和我的研究兴趣是一致的——比如如何让人工智能算法像人类一样高效。” 去年7月,王先生加入快手,担任硅谷实验室负责人。

虽然同处海外,但两个实验室的研究方向和定位不同:硅谷实验室专注于数据效率和计算效率,针对的是Y-Tech的产品业务。 据王华彦介绍,硅谷实验室近期将推出一个项目,在Android上的模型版本上可以达到与iOS相同的效果。 “比如,即使是快手的千元老手机,也能呈现出和苹果一样的效果。 和手机上一样的美颜效果。”

℄雅图AI实验室目前专注于端到端模型压缩的前沿算法。 今年,刘吉教授领衔的快手研究团队与罗切斯特大学合作,发表了两篇基于能耗建模的模型压缩论文,分别发表在 ICLR 2019 和 CVPR 2019 上。 两种方法都是基于硬件模型的个性化模型压缩——让人工智能惠及大量低端机器用户。 ICLR 2019第一篇论文主要通过权重级别的细粒度剪枝来获得稀疏性。 CVPR 2019第二篇论文主要通过通道级粗粒度剪枝来获得稀疏性。

与学术界探索未知可能性不同,刘吉的研究思路围绕快手平等包容的价值观,即赋予每个人平等记录的权利。 “我们和现在很多学术论文最大的区别就是,它们实际上是离线完成的,没有考虑实际硬件的限制。我们现在所做的一切都必须在手机上,而且数据是实时的。而且,很多快手用户“所有的手机都是几千元,我们的很多AI功能都需要在这些低端配置上运行,这对我们的技术提出了更高的要求。”刘吉说。

刘吉教授负责的另一个部门是FeDA智能决策实验室。 这是与商业化团队建立的西雅图和北京联合实验室。 主要致力于利用前沿的搜索技术,高效、精准地连接用户价值和商业价值。 这也是在2018年10月快手正式宣布开启“商业化元年”的背景下成立的一个部门。还有一点,Fe指的是快手的特殊名词——“朋友经济”,也是快手经济的缩写。化学元素符号中的铁原子。

据刘吉介绍,整个西雅图实验室目前约有十个人,但“一个人支持一个项目”。 近期,FeDA为广告推荐部门重新设计了基础计算设施,从主流CPU处理方式改为GPU方案,单机效率提升600多倍; 将强化学习应用到广告竞价中,效益提高了5个百分点。

刘吉在2019CVPR快手展台

“极端”的含义

2019年快手年会上,宿华和另一位创始人程一笑说了20遍“追求极致”。 宿华在年会上强调,“希望每个学生都能有追求完美的精神”,“不追求完美就赢不了”。

如果你想起快手最近曝光的一封内部信,就不难看出一向稳重佛系的宿华为何在年会上如此激动。

6月18日,快手两位创始人的内部信被曝光,以罕见而激烈的方式警告公司员工快手将“改革组织,优化结构,实现春节前3亿DAU的目标”。 2020 年。”

在这封内部信发布之前,快手仍在快速增长。 2018年全年,快手日活跃用户增长6000万,DAU达到1.6亿。 不久前,快手副总裁王强宣布,快手日活跃用户已突破2亿。 成立8年来,快手拥有员工8000余人。 但快手的竞争对手也在努力。 截至2019年1月上旬,抖音日活跃用户已超越快手,超过2.5亿,月活跃用户超过5亿。

创始人在内部信中表示,“在看似不错的数字背后,我们看到了深深的隐患:我们不再是最快的团队,而且随着我们的成长,我们的肌肉开始变弱。 ,响应速度变慢,我们与用户的连接感知越来越弱。”

“是的,我们对现状很不满意。松散的组织、佛系的态度、‘慢公司’正在成为我们的标签,这让我们失眠。从去年年底开始,从我们两个人开始,快手管理层进行了深刻的反省和反思。”

据快手内部员工透露,快手各部门已经开始进入战斗状态。 不少员工周六自发来公司加班,有的部门甚至出现“996”状态。 这在以前的快手是比较常见的。 稀有的。

由于3亿DAU的“大KPI”,技术部门并没有做出明显的调整。 他们能做的就是像宿华所说的“追求极致”。

Y-Tech的孟松举了个例子,“我们同时在研究很多前沿的新技术。 项目要求至少比竞品提前三个月到半年。 这些技术还没有成熟的解决方案。 作为参考,业内很少有人尝试,但每个人都非常愿意和积极地朝这些方向努力。 “比如在混合现实领域,快手正在探索适合快手用户的产品形态,致力于把先进的技术送到用户手中。在移动平台上实现,用算法给用户带来新颖的体验。这是一个非常具有挑战性的项目,但即便如此,快手仍然要走这条路。

快手圣地亚哥实验室负责人王祥林告诉机器之心,大多数内部员工可能并不了解他的音视频团队目前的一些工作:快手正在参与新一代视频压缩标准的制定。 快手联合全球各大公司和大学研究机构,致力于将自主研发的技术纳入国际标准,在下一代视频压缩标准中拥有话语权。

追求完美听起来似乎是一个抽象的概念,但对于快手来说却具有重要的战略意义。

在快手,用户行为随时随地影响内容推荐,比如点击视频、点赞、评论、观看视频时长等。当用户向下滚动页面时,内容也在实时变化。 快手的生产者比例非常高,这需要快手处理比竞品多几倍的UGC。 快手是一家算法重的技术驱动型公司。 即使是1%的算法改进也可以转换为巨大的业务价值。 追求完美的一小步是快手的重要一步。

结论:人工智能改善幸福

接受采访的大多数快手退伍军人都是快手平台的忠实“老铁杆”。

生孩子后,Chenxing拍摄了他的孩子的两到三百个视频。 他说他是一个极简主义者,并且不太使用魔术表情,但他的妻子喜欢使用它。 例如,她使用魔术表情使孩子看起来很丑陋,然后拍摄视频。 她觉得这很有趣。

“因为我们了解算法逻辑,所以我们觉得这东西可能不是那么神奇;那么他们会认为这是特别神奇的,喜欢拍照。当他们看到家庭中的人们玩这种魔术手表时,他们非常非常感到惊讶。

Chaoxu说,他是一位非常沉重的快手资深人士。 “我通常使用快手大约一个小时,这不包括查看背景数据的时间。” 与普通退伍军人不同快手刷双击,Chaoxu使用快手时会观看什么样的内容? 这是他不认识的东西。 “例如,我没有添加此标签,也没有非常准确地识别零件。”

自从他全年都在硅谷,王华扬(Wang Huayan)看着快手时会感到怀旧。 “我看了一个录像带,那是一个农村地区的场景。老太太在路上行走,然后一个邻居来要求老太太去她家吃晚饭。在中国农村,你知道人类的触觉非常重要,然后老太太不愿意去,然后该人坚持将她拉开,他们两个开始在路上战斗。

“如果是在中国农村地区,那些经历过这种经验的人会认为这是一个非常普遍的场景,但不会出现在任何正式记录中。没有像快手这样的平台,这种中国民间文化也许会赢得``在50年以来都没有。”

在去年的图灵会议上,苏华曾经说过:“应使用什么样的问题来解决什么样的问题,不是一个数学问题,而是为社会和人类解决哪些问题。我已经考虑了很多。” 我有很长时间的答案。 在过去几年的实践领域中,我发现,无论我们从事哪种技术,它最终都应被用来增强人类的幸福或改善幸福。”

这种幸福感是指这些。

(注意:Chaoxu,Shuihan,Yuelang,Xiuhu,Chenxing和Mengsong在文章中都是假名)

Shibei·GMIS 2019年全球数据情报峰会于7月19日至20日在上海的Jing'an区举行。 以“数据智能”为主题,这次峰会着重于最尖端的研究方向,同时更加关注数据情报经济及其工业生态的发展,从研究到实施方面提供了技术的参考。

这次峰会将包括主题演讲,主题演讲,AI艺术展览,“ AI00”数据情报列表的发行,封闭式晚宴等。参加的确认客人参加:

发表评论