辰野客资源整合网

您现在的位置是:首页 > 资讯中心 > 生活百科

生活百科

人脸识别的原理是什么

2023-08-13 15:27:13生活百科97
01发展史1 .面部识别理解人脸识别( Face Recognition )是一种基于人脸特征(如统计或几何特征等)自动识别身份的生物识别技术,又称人脸图像识别、人像识别、人脸识别、人脸识别等。 人脸识别通常是基于光学人脸图像的识别和验证的简称。人脸识别是通过摄像头或摄像头采集包括人脸在内的图像和视频流,自动在图像中检测和跟踪人脸,并对检测到的人脸图像进行一系列相关APP操作。 技术包括图像采

  01发展史

  1 .面部识别理解

  人脸识别( Face Recognition )是一种基于人脸特征(如统计或几何特征等)自动识别身份的生物识别技术,又称人脸图像识别、人像识别、人脸识别、人脸识别等。 人脸识别通常是基于光学人脸图像的识别和验证的简称。

  人脸识别是通过摄像头或摄像头采集包括人脸在内的图像和视频流,自动在图像中检测和跟踪人脸,并对检测到的人脸图像进行一系列相关APP操作。 技术包括图像采集、特征定位、身份确认和检索等。 简单来说,就是从照片中提取眉毛的高度、嘴角等脸部特征,通过特征的比较输出结果。

  2 .人脸识别发展简史

  第一阶段( 1950s―1980s )初级阶段

  人脸识别被认为是一个常见的模式识别问题,主流技术基于人脸的几何结构特征。 它集中体现在剪影的相关研究中,对人脸剪影曲线的结构特征提取与分析有较多的研究。 人工神经网络也曾被研究者用于人脸识别问题。 早期从事AFR研究的研究者,除了布雷索( Bledsoe )之外,还有戈登斯坦( Gordon stein )、哈蒙( hamon )和金出武雄( hamon )等。 总体而言,这一阶段是人脸识别研究的初级阶段,非常重要的成果并不多,实际应用也很少。

  第二阶段( 1990s )高潮阶段

  这一阶段尽管时间比较短,人脸识别却发展迅速,不仅出现了Eigen Face、Fisher Face与flex map匹配等许多经典方法,而且最著名的Visionics (目前Identix ) FaceIt 从技术角度看,二维人脸图像的线性子空间判别分析、统计表观模型、统计模式识别方法是此阶段的主流技术。

  第三阶段( 1990s末(现在) ) ) ) ) )。

  面部识别的研究不断深入,研究者开始关注面向真实条件的面部识别问题。 主要包括以下四个方面的研究。 1 )提出不同的人脸空间模型,包括以线性判别分析为代表的线性建模方法、以Kernel方法为代表的非线性建模方法、基于3D信息的3D人脸识别方法等。 2 )深入分析和研究影响人脸识别的因素,包括光照人脸识别、姿态人脸识别、表情人脸识别等。 3 )利用包括局部描述符( Gabor Face、LBP Face等)和深度学习方法的新的特征表示。 4 )利用新的数据源,包括视频人脸识别和草图、近红外图像人脸识别等。

  02市场研究

  1 .全球人脸识别市场

  前瞻性基于人脸识别行业的发展现状到2016年,全球生物识别市场规模为127.13亿美元左右,其中人脸识别规模约为26.53亿美元,占20%左右。 到2021年,全球人脸识别市场预计将达到63.7亿美元,按预期期限的复合增长率预计将达到17.83%。

  2 .中国人脸识别市场

  前瞻基于人脸识别行业的发展现状,估计中国人脸识别市场规模约占世界市场的10%左右。 2010-2016年,中国人脸识别市场规模逐年增长,年均复合增长率达27%。 2016年,中国人脸识别行业市场规模约为17.25亿元,比上年增长27.97%,增长率比上年提高4.64个百分点。

  3 .国内主要玩家分布

  3.1中国人脸识别公司的一部分(排名不分先后) )。

  3.2四大独角兽介绍及比较细分领域

  (1)旷工科技:

  2014年,接受阿里巴巴旗下蚂蚁金服投资,主攻金融和监管两大行业,子公司广视智安; 团队成员除清华校友外,还有来自美国哥伦比亚大学、英国牛津大学、美国南加州大学的科研和开发人员,截至目前员工只有100多人。

  在金融、安防、零售领域分别开始商业化探索,培育Face Financial、Face Security、Face BI等垂直人脸识别解决方案,主要将人脸识别应用于互联网产品,自行研发,美图展示、Face Security 2016年获得上亿元的C轮融资,最后选择通过计算机视觉技术和NLP技术的结合,制造“识别万物”智能机器人,提供硬件模块,其中内置他们家的算法。 目前正在准备IPO的启动,通过VIE架构,他们可以绕过a股,实现快速上市,而不符合连续三年盈利的标准。

  )2)商汤科技:

  SenseTime (商汤科技)由接受IDG资本投资,主攻金融、移动互联网、安全监控三大行业的香港中文大学汤晓欧创立。 “商汤”里的汤指的是汤晓欧本人,汤晓鸥和其团队开发的DeepID算法将深度学习应用于人脸识别,在技术指标上实现了新的突破。 主要情况是围绕各个美化软件和直播平台绘制人脸图,重点加强了人脸识别的关键点检测和跟踪技术。

  球队有300多号人,从当初的toC也转向了toB领域; 2014年成立的商汤科技选择了另一条路,选择用“四大美女”这个话题来引起人们的骚动,到最后的四大美女为止,一共去了三个人。 商汤的网络都是自己设计的,对深度学习网络的掌控能力更强,在提供SaaS服务的同时,可以通过SaaS获取背后的数据,进行进一步细致的分析,再次提高服务质量。

  )3)云从科技

  2015年4月,周曦获得战略投资从科技成立云,同年针对金融和银行业发布了40多种解决方案。 构建了包括算法、产品、销售、售后服务在内的全产业链,为农行、建行、交行、中行及多家公安提供了定制化服务。 团队成员除了来自中科大的校友外,还来自中国科学院的各研究所,UIUC、IBM、NEC、MicroSoft等世界顶级学府和研究机构。

  截至2016年11月,成立一年半来,研发团队扩大到200多人。 核心产品为人脸识别系统和IBIS集成生物识别平台,还具备3D模型、红外生物、静音生物等技术,可根据场景需求自由调节。 连接硬件、开发和技术,属于全产业链模式。 由于人脸识别系统往往需要深入定制,只有这样才能在客户提出需求时快速反馈、修改,统一用户体验。

  (4)基于图的技术:

  2012年9月,朱珉和他的好朋友林晨曦创立了依图科技。 这家从事人工智能创新研究的创业企业从图像识别入手,首先与全国省市级公安系统合作,对车辆品牌、型号等进行准确识别,然后扩展到人物识别,通过静止人像比对技术和动态人像比对技术,由公安系统进行人员身份验证、识别

  6年来,基于地图的科技产品已应用于全国20多个省市地区的安防领域。 除了安全防范领域,基于地图的也进入了智慧城市领域和健康医疗领域。 它必须协助政府构建“城市大脑”,缩小医疗领域巨大的知识差距,改善医疗体验。

  (5)细分区域对比表

  (6)主要客户比较

  4 .商业模式

  4.1人脸识别商业模型设计步骤

  4.2人脸识别收益模型

  03人脸识别流程及关键技术

  1 .面部识别系统的配置

  2 .脸部识别的一般流程

  2.1面部采集

  (1)前言

  不同的脸部图像由摄影镜头拍摄,包括静止图像、运动图像、不同的位置、不同的表情等。 如果拍摄对象在设备的拍摄范围内,则摄像设备会自动搜索并拍摄面部图像。

  )2)面部采集的主要影响因素

  图像大小:人脸图像过小会影响识别效果,人脸图像过大会影响识别速度。 非专业人脸识别相机常见的最小识别人脸像素在60*60或100*100以上。 在规定的图像大小内,算法易于提高精度和召回率。 图像的大小反映在实用场景中的是脸部和照相机的距离。

  图像分辨率:图像分辨率越低越难识别。 图像尺寸综合图像分辨率,直接影响相机的识别距离。 目前4K摄像头看人脸的最远距离为10米,7K摄像头为20米。

  照明环境:过度曝光或太暗的照明环境会影响脸部识别效果。 可以从相机搭载的功能中补充光线,过滤光线的影响。 此外,还可以使用算法模型优化图像光。

  模糊程度:实际场景主要致力于解决运动模糊,脸部相对于照相机的运动往往会产生运动模糊。 有些相机具有防模糊功能,但成本有限时,可以考虑通过算法模型优化此问题。

  遮挡程度:五感无遮挡、脸部边缘清晰的影像最佳。 在实际场景中,大多数人脸被帽子、眼镜、口罩等遮蔽物遮挡,这部分数据需要根据算法要求决定是否保留训练。

  采集角度:脸部相对于照相机的角度,正面脸部最佳。 但是,在实际场景中,很多情况下很难准确地拍摄脸部。 因此,算法模型需要训练包括左右脸、上下脸在内的数据。 工业安装摄像机的角度必须满足人脸与摄像机构成的角度在算法识别范围内的要求。

  2.2面部检测

  (1)前言

  在图像中准确定位人脸的位置和大小,提取其中有用的信息,如直方图特征、颜色特征、模板特征、结构特征和Haar特征等,并利用信息达到人脸检测的目的。

  )2)面部关键点检测(面部定位) ) ) )。

  自动估计脸部图像上脸部特征点的坐标。

  )3)主流方法

  基于检测到的特征,采用Adaboost学习算法(结合几种弱分类方法,再结合新的强分类方法的分类方法),选取能最好地表示人脸的矩形特征(弱分类器),按照加权投票方式将弱分类器作为一个强分类器

  最近的面部检测算法模型类型包括三种viola-jones框架(性能可以是一般速度,适合移动端、嵌入式使用)、dpm )、cnn )及其组合。

  2.3人脸图像预处理

  (1)前言

  根据人脸检测结果,对图像进行处理,最终服务于特征提取过程。

  )2)原因

  系统获取的原图像由于各种条件的限制和随机噪声,往往不能直接使用,需要在图像处理的早期进行灰度校正、噪声滤波等图像预处理。

  )3)主要预处理流程

  脸部定位(获得脸部位置一致的图像)、脸部图像的光线校正、灰度变换、直方图平均化、归一化) )得到大小一致、灰度取值范围相同的归一化脸部图像)、几何校正、中值滤波)、图像平滑操作来消除噪声

  2.4面部特征提取

  (1)前言

  人脸识别系统中可用的特征通常可分为视觉特征、像素统计特征、人脸图像变换系数特征、人脸图像代数特征等。 人脸特征提取是针对人脸特征进行的,也称为人脸特征,它是人脸特征建模的过程

  )2)人脸特征提取的方法

  基于知识的表达方法(主要包括基于几何特征法和模板匹配法)通过人脸器官的形状描述和它们之间的距离特性获得有助于人脸分类的特征数据。 特征分量通常包括特征点之间的欧几里得距离、曲率、角度等。 人脸由眼、鼻、口、颚等局部组成,几何描述这些局部与它们之间的结构关系可以作为识别人脸的重要特征,这些特征称为几何特征。

  基于代数特征或统计学习的表示方法:基于代数特征方法的基本思想是将人脸空域内的高维描述转换为频域或其他空间内的低维描述,其表示方法为线性和非线性投影表示方法。 基于线性投影的方法有主成分分析法或K-L变化、独立成分分析法和费休线性判别分析法。 非线性特征提取方法有两个重要的分支:基于核的特征提取技术和以流形学习为中心的特征提取技术。

  2.5匹配和识别

  进行提取出的面部的特征值数据与数据库中保存的特征模板的检索匹配,设定阈值,通过将相似度与该阈值进行比较,来判断面部的身份信息。

  3 .人脸识别的主要方法

  3.1 Eigen Face (特征脸) ) ) ) ) ) ) ) )。

  MIT实验室的特克( Turk )和潘特( pant )提出的“特征脸”方法,无疑是这一时期最有名的脸部识别方法。 随后的许多人脸识别技术都与特征人脸有或多或少的关系,目前特征人脸连同归一化的协同相关量方法已经成为人脸识别性能测试的标准算法。

  人脸识别特征人脸算法文档:

  3.2渔夫的脸)。

  弗米尔( Belhumeur )等提出的Fisherface脸部识别方法是这个时期的另一个重要成果。 该方法首先利用主成分分析( PCA )对图像的表观特征进行降维。 在此基础上,采用线性判别分析( LDA )的方法对降维后的主成分进行变换,得到“尽可能大的类间分散度和尽可能小的类内分散度”。 该方法仍是主流人脸识别方法之一,产生了许多不同的变种,包括零空间法、子空间判别模型、增强判别模型、直接LDA判别方法、基于最近核学习的改进策略等。

  Fisher Face算法文档:

  3.3 EGM (弹性图匹配) ) )。

  其基本思想是用一个属性图来描述人脸。 属性图的顶点表示面部的重要特征点,该属性是作为相应特征点处的多分辨率、多方向局部特征的Gabor变换12的特征,被称为Jet; 边的特性是不同特征点之间的几何关系。 对于给定的输入人脸图像,弹性图匹配通过一种优化搜索策略定位预先定义的几个人脸关键特征点,同时提取它们的Jet特征,得到输入图像的属性图。 最后,通过计算与已知人脸属性图的相似度完成识别过程。 该方法的优点是在保留人脸全局结构特征的同时,对人脸的重要局部特征进行了建模。

  柔性图匹配算法文档:

  3.4基于几何特征的方法

  几何特征是眼睛、鼻子、嘴等的形状以及它们之间的几何关系(例如相互的距离)。 这些算法识别速度快,所需内存小,但识别率低。

  3.5基于神经网络的方法

  神经网络的输入可以是降低分辨率的人脸图像、局部区域自相关函数、局部纹理的二次矩等。 虽然这种方法也需要大量样本进行训练,但许多APP应用程序的样本数量有限。

  3.6基于线段Hausdorff距离( LHD )的方法

  心理学的研究表明,人类在识别漫画等轮廓图的速度和准确度上一点也不比识别灰度图差。 LHD基于从脸部灰度图像中提取的线段图,定义了2个线段组之间的距离。 与其他不同,LHD没有建立不同线段组之间的线段一对一的对应关系,因此也能够应对线段图之间的微小变化。 实验结果表明,LHD在不同光照条件和不同姿态下有很好的表现,但在表情较大时识别效果不佳。

  3.7基于支持向量机( SVM )的方法

  近年来,支持向量机是统计模型识别领域的新热点,试图使学习机在经验风险和泛化能力方面妥协,提高学习机的性能。 支持向量机主要解决的是两类问题,其基本思想是试图将低维线性不可分问题转化为高维线性可分问题。 常规实验结果显示,SVM识别率较好,但这需要大量的训练样本(每类300个),这在实际应用中往往不现实。 另外,支持向量机训练时间长,方法实现复杂,该函数的取值没有统一的理论。

  4 .技术发展方向

  三维信息的结合:二维信息与三维信息的融合,使特征更具鲁棒性

  多特征融合:单一特征难以应对复杂的光照和姿态变化

  大规模人脸比对:以海量数据为对象的人脸比对与检索

  深度学习:在大数据条件下充分发挥深度神经网络的强大学习能力

  5 .脸部识别数据库

  Yale脸部数据库

  ORL脸部数据库

  CMU PIE人脸数据库

  FERET脸部数据库

  MIT数据库

  BANCA脸部数据库

  CAS-PEAL脸部数据库

  JFE表情数据库

  Cohn-Kanade表情数据库

  MMI表情数据库

  6 .技术指标

  6.1人脸检测中的重要指标

  例如:在具有照相机的拍摄图像中,总共检测到100个人的面部,并且通过算法检测到80个人的面部。 其中75人是实际脸部,5人把路标误认为是人脸。

  检出率:识别正确的脸/图中所有人的脸。 检测率越高,表示检测模型的效果越好。

  误检测率(识别出错误的脸/识别出的脸。 误检率越低,表示检测模型的效果越好。

  漏检率:未识别的脸/图像中所有人的脸。 漏检率越低,表示检测模型的效果越好。

  速度:从图像采集完成到面部检测完成的时间。 时间越短,检测模型的效果越好。

  在该实际情况下,检测率=75/100误检测率=5/80漏检率=(100-75 )/100

  6.2人脸识别中的重要指标

  1000张样品图像中,共计600张正样品。 相似度为0.9的图像共有100张,其中正样本为99张。 0.9阈值正确率高达99/100; 但是,0.9阈值被正确输出的数量确实很少,只有99/600。 这样容易发生漏认。

  检出率:识别正确的脸/图中所有人的脸。 检测率越高,表示检测模型的效果越好。

  误检测率(识别出错误的脸/识别出的脸。 误检率越低,表示检测模型的效果越好。

  漏检率:未识别的脸/图像中所有人的脸。 漏检率越低,表示检测模型的效果越好。

  速度:从图像采集完成到面部检测完成的时间。 时间越短,检测模型的效果越好。

  在该实际情况下,检测率=75/100误检测率=5/80漏检率=(100-75 )/100

  6.3人脸识别中的重要指标

  1000张样品图像中,共计600张正样品。 相似度为0.9的图像共有100张,其中正样本为99张。 0.9阈值正确率高达99/100; 但是,0.9阈值被正确输出的数量确实很少,只有99/600。 这样容易发生漏认。

  精度( precision )被认为正确的样本数/被认为正确的样本数=99/100

  召回率( recall )被认为正确的样本数/所有样本中的正确数=99/600

  错误接受率/误认率/误认率( FARFalse Accept Rate ) :

  定义:将身份不同的两张照片判别为同一身份。 越低越好

  FAR=NFA/NIRA

  公式中的NIRA表示类间测试次数,是不同类间的测试次数。 例如,假设有1000个识别模型,有1000个人要识别,并且每人只提供了一个要识别的素材,则nira=1000*(1000-1 )。 NFA为误接受次数。

  FAR决定系统的安全性,FRR决定系统的易用性,实际上对应FAR的风险远远高于FRR。 因此,在生物认证系统中,将FAR设定在万分之一到百万分之一的非常低的范围内,在FAR固定的条件下,FRR小于5%的系统具有实用价值。

  错误拒绝率/拒绝率/拒绝率( FRR False Reject Rate ) :

  定义:将身份相同的两张照片判别为不同的身份。 越低越好

  FRR=NFR/NGRA

  上式中的NFR是班级内的测试次数,是同一班级内的测试次数。 例如,如果有1000个识别模型,则有1000人必须识别。 然后,如果每人提供要识别的素材,则NIRA=1000,如果每人提供n张图像,则NIRA=N*1000。 NFR是错误拒绝次数。

  04行业APP应用

  1 .人脸识别( FR )其他行业

  1.1 FR金融

  (1)实名认证

  金融机构传统上通过人工肉眼判断、邮件验证、银行卡绑定等手段进行实名认证。 这些传统手段存在准确率不高、客户体验差、成本高等问题,给金融企业的业务发展带来了很大的困扰。 基于人脸识别的实名认证方式具有准确率高(一亿人中有两个面孔相同的人存在)、客户体验好)、认证速度快、客户操作少)、成本低的优点,被许多大型金融企业所采用。

  )2)人脸识别在银行远程开户中的应用

  远程开户时,金融机构可以通过智能终端在线进行身份认证,采用人脸识别技术开户可以大大提高业务处理的安全性、时效性,节省大量人力。

  )3)刷脸取款

  在这方面人脸可以代替银行卡,只需要人脸密码就可以完成取款。 在前面两个方面,人脸识别技术已经被国内大型银行广泛采用,在刷脸取款方面,农行和招商率先上线了ATM刷脸取款功能。

  1.2 FR医疗

  (1)重点应用

  打击涉医犯罪,确保就诊安全。 建立针对性医疗罪犯布控库,配合属地公安部门进行实时布控管理。

  管理职务犯罪,遏制不正当竞争。 对进入医院诊疗区域的医药代表进行管控,协助解决药品流通领域经营不规范、竞争失范等问题。

  消除职业医生的骚动,保护人身安全。 打击频繁发生的专业医疗骚动,提高事件响应速度,由被动响应转变为主动预防。

  规范就诊流程,协调医患关系。 重点防范黄牛、医托等干扰正常就诊秩序的特殊人群。

  加强监管,维持医疗保险基金。 实现就诊患者与医保信息库身份证照片比对,杜绝非法使用医保卡。

  对易发生事故的严重精神障碍患者的管制。 结合“雪亮工程”,确保严重精神障碍患者流入地、流出地发现管控到位。

  )2)人脸识别在医疗行业的应用突破基于三点

  获取目标人群信息:由于行政体系不同,医疗行业难以获取目标人群信息,需要相关行政机关做好重要的协调工作。 对象信息包括但不限于脸部照片、人物照片、人物基本信息、人物动态等。

  人脸识别算法进一步提高:目前人脸识别算法的准确率已经达到相当高的水平,误报、漏报都是控制在可接受范围内的更近算法,通过非结构化视频/图像获取更多的价值信息,获取更多的维度

  提高管理者的思维和水平:人工智能、人脸识别是革命性的技术,可以给医疗行业带来巨大的提升。 如何将人脸识别真正应用于医疗行业的各个方面,需要管理者和技术提供者共同拓展思维,共同努力。

  )3)人脸识别在医疗行业的发展前景

  公安视频监控、医警联动平台:系统满足公安现有标准要求,然后与公安机关视频监控、医警联动等平台无缝对接,将报警信息及相关视频、图片推送至辖区派出所,实现联动

  面部验证:输入对象的照片,就可以知道此人的身份及其是否属于重点管理者,是否来过医院,其出现的时间、频率。 可用于筛查可疑人物,找出其活动规律。

  工作人员卡车播放:输入对象的照片,就可以调查这个人是否来过医院,去过哪里。 该功能可以恢复特定人的行动轨迹,用于嫌疑人的行动讨论和事后取证。

  门禁系统:与门禁系统对接,确保洗脸开门、洗脸上班等高级功能,方便办公区域、手术室、药库、住院部等区域出入管理。

  对接系统:与二代证、医保卡等卡系统对接,将采集到的脸部照片与证件上的照片进行比对,验证卡用户真实身份。

  1.3 FR新零售

  )1)应用人脸识别的优势

  重点客户图片:帮助卖方获得客户和潜在客户更准确的信息,建立用户图片。 设置在超市、商场、商店等入口处,可统计每天进店人数、大致年龄和性别等; 另一个可以安装在架子上,分析顾客的兴趣和消费习惯等。 通过大数据分析挖掘回头客,提高客户出栏率和VIP转化率;

  为零售商降低本增益:采用智能化系统代替人工,通过人脸识别系统代替收银人员连接支付终端,可以快速实现零售导游和商品人流分析等。

  减少突发事件发生:商店被盗的突发事件,通过对所得数据的分析,还可以将不良客户拉进“黑名单”,降低信用等级。

  完美的线上连接:通过识别系统获得的用户偏好还可以回到线上,通过在线将获得的数据反馈给厂商,帮助厂商更全面地了解消费者的需求,准确开发产品,设计营销策略这些都是完美实现新零售业“上线”内在要求的良方。

  )2)人脸识别的安全风险

  面部特征易被复制:破解密码的最常用手段是复制,窃取数字密码、取指纹进行解密的案例数不胜数。 与大脑和其他介质中记录的数字密码相比,暴露在外部的人的脸更容易被复制。 通过拍照可以完全获取和复制人脸特征,可以通过整形技术和照片识别等欺骗手段欺骗人脸。

  个人信息泄露问题:在科学技术发达的今天,人们似乎可以通过无孔不入的渠道查到消费者的各种信息。 在刷脸支付中,如果像脸部特征这样的人体密码被他人保管,如何确保个人信息的安全系数? 获取用户的面部特征是否涉及隐私? 基于人脸扫描系统的支付在普遍使用后,会不会带来基于位置服务的个人行踪泄露?

  1.4 FR安全性

  )1)智慧城市基础

  视频分析:根据视频中的人脸照片进行远程、快速、非接触式重点人员布控报警。 应用于车站、机场、地铁等重点场所和大型商场超市等人群密集的公共场所的视频监控系统,可进行视频图像采集、自动分析、人脸实时比对,主动在监控场景中识别重点关注者,实现重点关注者的布控和识别。

  重要场所查处:对机场、车站、港口、地铁重点场所和大型商业超市等人流密集的公共场所进行查处,达到查处部分重点人员、缉拿逃犯等目的。

  静态库或id库的检索:将常住人口、暂住人口的人脸图像预先数据库化,通过输入各种途径采集的人脸图像,进行比对和相似度排序,即可获知输入者的id或其他相关信息。 在这样的APP应用中存在两种扩展形式,单一的id库自动统一比对,发现可疑的一个人具有两个以上id信息的静态库,发现在两个id库之间自动发现交叉数据的静态库冲突。

  检索动态库或捕获库:将不断采集的各摄像机点的捕获图像作为库,输入一张指定人脸图像,即可实现指定时间范围和指定摄像机点出现的所有捕获记录当将GIS系统与摄像机点相关联时,可以将检索到的捕获记录进一步按时间顺序绘制到GIS上,从而获得人的运动轨迹。

  )2)反恐援助

  目前,新疆、西藏等城市将人脸识别作为基础设施建设领域的投资重点,由于人员复杂、居住人口相对混乱等因素,这些城市成为恐怖主义等违法犯罪行为的高发场所。 人脸识别技术采用人脸检测算法、人脸跟踪算法、人脸质量评估算法及人脸识别算法。 实现城市居民人脸捕获采集、建模存储、实时黑名单比对报警和面后检索等功能。 可以在危险发生之前停止。

  )3)儿童安全的保镖

  近年来拐卖儿童现象盛行,为了更好地保护儿童的安全,一些幼儿园和小学在门口安装了人脸识别系统。 系统采用人脸识别和IC/ID卡(非接触式智能卡)双重认证。 每个幼儿在入学登记时进行相关登记。 资料、头像、IC/ID卡号码、接送者、接送者头像。

  每次入园时刷卡报道,放学后刷卡进行家长脸部认证,认证失败的拍下照片后向管理员报警,认证成功的拍下照片后放行。 无论识别成功与否,系统都会记录被识别者的图像。 每次接送都有详细的时间,接送工作人员的照片。 此外,系统还提供了短信的扩展,可以在手机上看到父母在人脸识别认证时拍的照片,进行了从监控到接送的过程,杜绝了孩子从重要来源之一被绑架的可能性。

  )4)智能酒店管理

  以前,接待人员的查询——身份证扫码——押金支付——选房层开房卡——打印纸质发票的流程非常繁琐,尤其是开身份证耗时最长,遇到团队入住情况更是复杂身份证识别设备高频使用可能出现故障,急于进屋休息的顾客只能到前台等待手续办好,顾客体验非常差。

  人脸识别技术很好地解决了这一难题,实现了酒店系统化的业务管理和一站式共享解决方案。 智能酒店的安防系统利用人脸识别技术,当顾客前往前台时,系统会自动根据顾客摄像头拍摄到的视频获取顾客身份进行比对。 整个验证比对过程简单、快速、自动化,大大降低了人工识别带来的误差。 另外,针对酒店的VIP客户,系统可以实时对比酒店大厅的摄像头视频和酒店基础系统录入的VIP人脸数据,VIP客户到达时,酒店第一时间提供个性化周到的服务,提高客户满意度

  1.5 FR公安

  寻人:将老百姓和其他业务部门提供的照片直接发送给系统,进行比对、检索、筛选,最后人工确认。

  将派出所抓获的违法者抓获:对派出所抓获的,登记笔录,对其中少数民族、聋子、沉默者等无法验证身份的,拍照并送各种照片库比对,大案要案人员排查或验证前科,累计处理。

  如果需要验证无名尸体来源,首先拍摄正面照片,然后发送到计算机。 如果照片闭上眼睛、破损或变形,可以通过合成系统或人工制作标准照片,发送到比对系统进行验证。

  目击者描述排查:从现场目击者那里得到嫌疑人的形象描述后,可以通过人物合成系统进行排查。

  视频监控图:一般的监控系统相对于场景,得到的涉案嫌疑人图像都存在模糊、偏转、反面光线等质量不好的问题,此时基于图像通过人像合成系统或人工制作标准照片,照片比对系统

  在公共场所集会:在政府、球场等公共场所,往往有人会惹麻烦。 此时,公安民警不方便直接带人,可以用望远摄像机拍摄特写。 如果效果不理想,可以通过人像合成系统进行修改,发送到比对系统进行验证。

  一代/二代居民身份证识别:基于罪犯身份证照片信息,对照系统照片库信息资料,提取与身份证照片相似的人的信息,可以充分利用现有的二代身份证照片资源,为公安部门的工作提供高效、有利的帮助。

  其他应用:常住人口对比查询、暂住人口对比查询、重点人口对比查询、CCIC逃亡者对比查询等。

  1.6 FR商务场景

  访问者注册:访问者访问公司在平板电脑上进行访问者信息的注册,利用摄像头自动抓取脸部,通过系统打印访问者信息

  识别迎宾:公司员工、贵宾进入公司门口,摄像头可识别访客,实现门禁功能管理

  人脸识别工作:还可以在门口的前置平板电脑上进行人脸识别工作,在手机端进行人脸识别试验

  智慧生活:很多小区、楼房都需要人脸门禁系统,人员出入快捷,方便管理住户、访客的出入记录

  智慧教育:为严防替考事件发生,确保考试安全,人脸识别可加强考试入场环节考生身份认证,有效实现智能视频监督考试、作弊防范等;

  智慧商场:利用人脸识别技术,跟踪和分析商场内人流属性、人群分布等。

  应用模式典型的具体应用特点说明应用领域:

  2.fr的某些APP

  2.1面部检测跟踪

  (1)应用

  商场客流跟踪分析、地铁、车站、场馆、机场等场所可疑人员跟踪检查、体育赛事现场监测等。

  )2)难点

  多人脸跟踪、远程人脸识别、背景复杂度、低质量图像人脸识别(算法预处理),再加上侧脸) 3D重构人物全面)、遮挡、模糊、表情变化、强弱光照)多特征融合增强抗干扰能力)等多种实际环境

  (三)建议

  远场识别(可通过距离识别)、背景复杂)可以模糊无关的场景,突出主角)。

  2.2人脸关键定位

  (1)应用

  可用于图像的合成、视频的分析(直播行业的监查黄、监查暴力),重点分析脸部表情的感情。

  )2)难点

  移动大角度侧脸、表情变化、遮挡、模糊、明暗等静态键进行捕捉。

  (三)建议

  可以平滑处理模糊的部分,也可以根据眼睛和嘴巴的特征制作不同的区块。

  2.3人脸识别

  (1)应用

  重要APP应用(金融认证、海关检查、火车站、机场等进站)、非重要APP应用(智能小区居民出入、办公楼出入、公司上班打卡等)。

  )2)难点

  年轻时的证照与本人身份匹配、戴眼镜与不戴眼镜、侧脸与前脸、表情、背景干扰、整容后双胞胎长相相似等。

  (三)建议

  基于三维人物分析可以避免认证时的假冒、动作分析等。 )蜡像、海报、真人不分

  2.4人脸属性(性别、年龄、种族、表情、首饰、胡子、脸部活动状态) )。

  )1)脸部表情识别( Face expression recognition简称FER ) ) )。

  人们认为人类主要有愤怒( anger )、喜悦( happiness )、悲伤( sadness )、惊讶( surprise )、厌恶( disgust )、恐惧( fear )六种基本情感。 大多数表情识别都是基于这六种情感及其扩展情感实现的

  主要困难点如下

  表情精细化程度区分:是否需要按感情分类最弱的表现。 分类的极限需要产品给出评价规则。

  表情类别多样化:是否需要补充其他类别的情感。 六种感情,在某些场景下改变不了人的真实感情。 因此,除了基本的表情识别外,还有精细表情识别、混合表情识别、非基本表情识别等精细领域的研究。

  缺乏稳健性

  )2)面部性别识别

  性别分类是典型的两类问题,人脸性别分类问题需要解决的两个关键问题是人脸特征提取和分类器的选择。 脸部的性别识别实际上只能识别脸部的外表是偏向女性还是偏向男性,很难正确判断女性的男性相、男性的女性相。

  )3)人脸年龄识别

  难点:多将一个人的分年龄识别与多人的分年龄识别、脸部年龄识别和脸部识别结合起来识别,除了能在一定年限内更准确判断“是否是一个人”的问题外,还有是否戴眼镜、头发长度、肤色等。

  提出:识别年龄无变化的人脸只需采用分类即可,而针对年龄变化的人脸识别方法是通过年龄仿真,将测试图像和查询库中的图像转化为某一共同年龄,消除年龄差异的影响,实现年龄相同人脸图像的识别

  )4)人脸属性的应用

  可基于物理属性(性别、年龄、种族、眼镜脸等)用于广告定向投放、个性化智能推荐、客户分析、婚姻生活等的化学属性(脸部运动、情感等)包括直播视频社交、图像合成、图像美化

  )5)识别建议

  在分析人脸属性时,可以利用k近邻算法匹配云上的相似照片后,分析相似属性。

  2.5面部聚类

  (1)应用:个性化相册管理、照片分享社交、婚恋交友相似面孔匹配兴趣社交推荐等。

  )2)难点:角度、光线、发型、脸型等干扰分类。

  (3)建议)根据一张脸部照片,依次对照其他照片进行分析后进行分类等(智能相册、相亲)。

  2.6真人检查

  (1)应用:银行开户验证、车站、机场、公司打卡等。

  )2)难点: 2D和3D识别检测、人与蜡像、硅假脸识别、照片与人识别检测验证等。

  (3)推荐)基于三维人物分析避免认证时的伪像等,为了区分伪像可以动态识别验证) )不易区分蜡像、海报、真人)。

  2.7人脸/妆

  (1)应用:兴趣社交、交友、图片合成、个性化用品推荐和广告投放等。

  )2)难点:美颜与一般滤镜效果的差异、美颜后的自然效果等。

  (3)方案:基于数据集的算法更新迭代。

  2.8人体关键点( CPM、DeeperCut ) ) )。

  (1)应用:按键动作抓拍、人体姿态估计、舞蹈难度评估。

  )2)难点:多目标关键点定位、关键点遮挡、光照强弱等。

  (3)提案:关键点遮挡(块处理,在三维构筑中寻找关键点) ) )。

  3. FR商业化

  3.1从时间上看商业化的不同阶段

  3.2从业务场景看

  场景关键点:

  盘子足够大,支撑公司的发展

  数据回流,为公司提供

  使用频率高,需求占有率高

  可在业界复制

  3.3垂直行业面孔解决方案(以房地产行业为例) )。

  (一)房地产业分布

  商业地产:写字楼小区工厂商业零售酒店

  住宅地产:生活小区公寓

  )2)房地产行业市场规模

  010-350001 (3)演进方向与客户痛点

  视频监控:传统视频监控厂商正在进行智能变革,从以前的“监控”视频,到现在“读”视频中的人、车、物、事

  门禁管理:传统门禁管理领域的价值链较低,所有厂商都在变革寻求新的方式,大部分都在探索生物识别方式; 人脸识别面板机、门机、其他通行闸门如雨后春笋般出现;

  楼宇对讲:普通的楼宇对讲功能已不能满足使用要求,对协同人脸识别的门禁系统的需求越来越大;

  防盗报警:通过智能化手段,达到降本增效的目的,成为防盗报警、巡检等功能的重点迭代方向

  可视化系统:降低非专业人员使用难度,多数据为“我”所用,为多决策提供依据; 信息孤岛问题亟待解决,万物互联已是所有厂商的共识。

  离岛情报问题(痛点) :

  智能系统种类繁多,无法实现系统之间的无缝连接,综合管理难度大,效率低

  智能子系统数据采集离散,标准不同,数据价值大幅下降,无法为管理提供决策依据和帮助

  各子系统依靠人工管理,人员配备要求高,劳动强度大,劳动力成本高

  大多数B端客户不知道具体的业务或细节,需要形象化、可视化系统的提示。

  )4)建设程序和框架

  步骤:

  第一步:人员通信管理

  基于人员通行管理的平台系统(功能性产品后台系统管理)。

  员工、VIP、访客、陌生人、黑名单等人员权限管理

  步骤2 :传感器网络融合

  CTV、车辆等;

  基于“人员”、“车”、“监控”的三位一体智能建筑场景应用;

  其他子系统模块链接在一起,形成整个传感器网络,智能物相连;

  第三步:商业地产新零售

  人员、车辆、CCTV三大功能在工作消费场景下融合;

  构建以人为本的商业综合体运作方案。

  整个IoT体系结构:

  (5)影响因素及优化方案

  有几个主要因素可以监控系统性能。

  模板库的人数:不能很大。 请包括重要人物。

  通过摄像机的人数:根据摄像机同时出现的人数,决定每单位时间的核对次数

  报警反馈时间:实时性越高,对系统性能要求越高

  相机拍摄张数:帧数越多,人通过相机前拍摄的次数就越多,比对的次数也就越多。

  实战优化方案:

  使用更高级的高清摄像头(3-5百万);

  室内光线,或室外白天,无侧光和折射光;

  人群朝着同一个方向,朝着摄像机的方向运动;

  适当的监控点,如走廊、巷道或安全门/闸口(避免组团同时出现);

  照相机和脸的角度小于20度。

  3.4顶级企业应用案例

  (1)谷歌: 2011年07月,谷歌收购了面部识别软件公司PittPatt

  )2) Facebook:2012年6月Facebook收购以色列面部识别公司Face.com

  (3)微软) 2012年6月微软亚洲研究院发布了人脸检测算法、人脸识别系统

  (4)网易) 2012年5月,网易人脸识别系统在全国范围内开放,用于邮箱注册

  (5)百度) 2012年12月,百度发布人脸识别,进行基于图像的全网民人脸搜索

  (6)阿里: 2015年11月,通过发售支付宝( Alipay )进行脸部认证后支付

  (7)腾讯: 2012年下半年,成立优图项目组

  05人脸识别( FR )的产品落地

  1. FR技术产品的优点

  1.1非接触

  人脸图像采集与指纹、掌纹不同,需要接触指掌纹专用采集设备,指掌纹的采集除了对设备有一定磨损外,还不卫生,容易引起被采集者的反感。 另一方面,脸部图像的采集设备是摄像机,不需要接触。

  1.2非入侵

  脸部照片的拍摄可以由照相机自动拍摄,不需要工作人员的介入,也不需要被拍摄者的协助,在通常的状态下从照相机前面通过就可以了。

  1.3友好

  由于人脸是出生后暴露的生物学特征,隐私性不如指掌纹和虹膜强,人脸的采集不如指掌纹采集难接受。

  1.4直观

  我们判断一个人是谁,最直观的方法是看这个人的脸,不需要指掌纹和虹膜等

相关领域专家才可以判别。

  

  1.5 快速

  

  从摄像头监控区域进行人脸的采集是非常快速的,因为它的非干预性和非接触性,让人脸采集的时间大大缩短。

  

  1.6 简便

  

  人脸采集前端设备――摄像头随处可见,它不是专用设备,因此简单易操作。

  

  1.7 可扩展性好

  

  它的采集端完全可以采用现有视频监控系统的摄像设备,后端应用的扩展性决定了人脸识别可以应用在出入控制、黑名单监控、人脸照片搜索等多领域。

  

  2. FR三大识别场景

  

  2.1 人脸确认(1:1)

  

  简介:将某人面像与指定人员面像进行一对一的比对,根据其相似程度来判断二者是否是同一人,相似 程度一般以能否超过某一量化阀值为依据。简单的说就是A/B两张照片比对,产生的计算数值是否达到要求。

  

  产品应用:快速的人脸识别比对,移动支付认证、安全性身份核对、作为身份确认的一种新方式,比如考生身份确认、公司考勤确认、各种证件照和本人确认。

  

  实际问题:产品在系统设计的逻辑上,需要先考虑调取已储存对象信息的先验条件。通过界面/语音的提示,使得待认证者预先知道自己正处于被核对的过程中,且已预先了解拟核对对象的身份。

  

  比对来源的三种主要方式:

  

  用户自传照片,比如支付宝的人脸比对,用户自传的照片最大的问题是照片质量的合格率太低,拍照的光线、角度等因素会导致采集源的质量下降,不利于后期的大批量人脸特征码管理。

  

  使用身份证读卡器,读取身份证上的照片,遗憾的是这张照片2K的大小,不过也是目前用最多的源照片提取方式,比较适合签到场合。

  

  使用公安部旗下NCIIC的人脸比对接口(注意,不是网纹照片接口,这个接口已经不对外),使用的是直接的人脸比对接口。

  

  2.2 人脸辨认(1:N)

  

  (1)简介

  

  将某人面像与数据库中的多人的人脸进行比对,并根据比对结果来鉴定此人身份,或找到其中最相似的人脸,并按相似程度的大小输出检索结果。

  

  (2)产品应用

  

  人脸开门、人脸检索,排查犯罪嫌疑人、失踪人口的全库搜寻、一人多证的重复排查等。

  

  (3)实际问题

  

  走失儿童的项目中去: 这一类系统的部署需要两个条件:A. BCD基本库(比如1000万人) B.强大的算法硬件

  

  零售店中的刷脸支付长江,需要用户预先输入全手机号,确定用户身份再进行人脸识别,将原本为1:N的问题转化为了1:1的问题。

  

  (4)产品难点

  

  a. 1:N中的N能够支持多大

  

  场景多样化:从一个班级百号人刷脸签到,到一个公司千号人的刷脸打卡,再到一个学校的几万人,一个四线城市几十 万人,一个一线城市的几千万人,难度是呈指数上升的。

  

  公司实际情况:目前各家公司的成熟人脸识别应用能够支持几万到几百万人不等的应用场景,而且还有一个错误率的概念。比如,公司宣称千万分之一的错误率的情况下(1/10000000),人脸通过率其实只有93%,这是因为很难做到一定不发生错误,而且每个人都能识别通过。(假如一家公司说自己能做到亿分之一的错误率,通过率能做到98%以上,多半是虚假宣传,在实际使用中是很难达到的)

  

  b. 非配合场景

  

  在配合场景下:比如ATM机刷脸取款,用户会自主配合,将人脸以一个理想的角度通过识别。

  

  而在非配合应用场景下,比如监控视频下的人脸识别,追踪违法犯罪分子的身份信息,情况就要困难得多。这种情况下,用户脸部会发生角度偏大,遮挡,光线不可控等问题。

  

  c. 跨人种,跨年龄识别问题

  

  研究发现,在一个数据集上训练好的模型,想到迁移到另外一个人种上,效果会出现较大程度的下降。另 外,人脸随着年龄的变化带来的改变也给人脸识别带来不小的挑战。

  

  要改善这样的问题,一个必要条件是需要建立一个足够完备的跨人种,跨年龄的人脸数据库;在国内的话,是 以汉族人为主,同时跨年龄的人脸数据库也比较难收集,需要不短的时间跨度。

  

  d. 产品体验

  

  近来备受关注的刷脸支付,很多时候都会要求用户输入全手机号,或手机号后四位,以缩小用户搜索库大 小,实际上这是比较影响体验的。

  

  西安一高校晨读刷脸签到,由于系统实际响应匹配时间过长,导致学生排百米长队。

  

  2.3 多人脸检索(N:N)

  

  (1)简介

  

  1:N同时作业就是N:N了,同时相应多张照片检索需求。

  

  (2)实际产品问题中

  

  在视频级N:N的校验中,如果要提高通过率,很多时候是采取降低准确率的方式,降低算法队列数量;同样在一些比赛中为了降低误识率,大大提高了准确率,所以算法在校验的过程中必须遵循至少一个固定标准,追求的是速度效率还是最高准确率。

  

  视频流的帧处理所用,对服务器的计算环境要求严苛,目前的算法系统所支撑的输出率非常有限。

  

  主要的限制如下:

  

  海量的人脸照片解析需要大量运算(目前很少看到在采集端直接解析的,都是照片剪裁)海量的人脸照片传输需要大量的带宽(常见的720布控摄像头抓取最小的人脸照片为20K)海量的人脸照片在后台检索需要耗费大量的运算(国内主流主机为例,最多到24路摄像头)。

  

  3. 产品实战中的物理问题

  

  3.1 光照问题

  

  (1)简介

  

  光照问题是机器视觉重的老问题,在人脸识别中的表现尤为明显。由于人脸的3D结构,光照投射出的阴影,会加强或减弱原有的人脸特征。

  

  (2)解决思路

  

  A、对其进行包括光照强度和方向、人脸反射属性的量化,面部阴影和照度分析等,尝试建立数学模型,以利用这些光照模型,在人脸图像预处理或者归一化阶段尽可能的补偿乃至消除其对识别性能的影响,将固有的人脸属性(反射率属性、3D表面形状属性)和光源、遮挡及高光等非人脸固有属性分离开来。

  

  B、基于光照子空间模型的任意光照图像生成算法,用于生成多个不同光照条件的训练样本,然后利用具有良好的学习能力的人脸识别算法,如子空间法,SVM等方法进行识别。

  

  3.2 人脸姿态问题

  

  (1)简介

  

  与光照问题类似,姿态问题也是目前人脸识别研究中需要解决的一个技术难点。姿态问题涉及头部在三维垂直坐标系中绕三个轴的旋转造成的面部变化,其中垂直于图像平面的两个方向的深度旋转会造成面部信息的部分缺失。针对姿态的研究相对比较的少,目前多数的人脸识别算法主要针列正面、准正而人脸图像,当发生俯仰或者左右侧而比较厉害的情况下,人脸识别算法的识别率也将会急剧下降。面部幅度较大的哭、笑、愤怒等表情变化同样影像着面部识别的准确率。

  

  (2)解决思路

  

  第一种思路:是学习并记忆多种姿态特征,这对于多姿态人脸数据可以容易获取的情况比较实用,其优点是算法与正面人脸识别统一,不需要额外的技术支持,其缺点是存储需求大,姿态泛化能力不能确定,不能用于基于单张照片的人脸识别算法中等。

  

  第二种思路:是基于单张视图生成多角度视图,可以在只能获取用户单张照片的情况下合成该用户的多个学习样本,可以解决训练样本较少的情况下的多姿态人脸识别问题,从而改善识别性能。

  

  第三种思路:是基于姿态不变特征的方法,即寻求那些不随姿态的变化而变化的特征。中科院计算所的思路是采用基于统计的视觉模型,将输入姿态图像校正为正面图像,从而可以在统一的姿态空间内作特征的提取和匹配。

  

  3.3 遮挡问题

  

  对于非配合情况下的人脸图像采集,遮挡问题是一个非常严重的问题。特别是在监控环境下,往往彼监控对象都会带着眼镜,帽子等饰物,使得被采集出来的人脸图像有可能不完整,从而影响了后面的特征提取与识别,甚至会导致人脸检测算法的失效。

  

  3.4 年龄变化

  

  随着年龄的变化,面部外观也在变化,特别是对于青少年,这种变化更加的明显。对于不同的年龄段,人脸识别算法的识别率也不同。一个人从少年变成青年,变成老年,他的容貌可能会发生比较大的变化,从而导致识别率的下降。对于不同的年龄段,人脸识别算法的识别率也不同。

  

  3.5 人脸相似性

  

  不同个体之间的区别不大,所有的人脸的结构都相似,甚至人脸器官的结构外形都很相似。这样的特点对于利用人脸进行定位是有利的,但是对于利用人脸区分人类个体是不利的。

  

  3.6 图像质量

  

  人脸图像的来源可能多种多样,由于采集设备的不同,得到的人脸图像质量也不一样,特别是对于那些低分辨率、噪声大、质量差的人脸图像(如手机摄像头拍摄的人脸图片、远程监控拍摄的图片等)如何进行有效地人脸识别是个需要关注的问题。同样的,对于高分辨图像对人脸识别算法的影响也需要进一步的研究。

  

  3.7 样本缺乏

  

  基于统计学习的人脸识别算法是目前人脸识别领域中的主流算法,但是统计学习方法需要大量的训练。由于人脸图像在高维空间中的分布是一个不规则的流形分布,能得到的样本只是对人脸图像空间中的一个极小部分的采样,如何解决小样本下的统计学习问题有待进一步的研究。

  

  3.8 海量数据

  

  传统人脸识别方法如PCA、LDA等在小规模数据中可以很容易进行训练学习。但是对于海量数据,这些方法其训练过程难以进行,甚至有可能崩溃。

  

  3.9 大规模人脸识别

  

  随着人脸数据库规模的增长,人脸算法的性能将呈现下降。

  

  3.10 动态识别

  

  非配合性人脸识别的情况下,运动导致面部图像模糊或摄像头对焦不正确都会严重影响面部识别的成功率。在地铁、高速公路卡口、车站卡口、超市反扒、边检等安保和监控识别的使用中,这种困难明显突出。

  

  3.11 人脸防伪

  

  伪造人脸图像进行识别的主流欺骗手段是建立一个三维模型,或者是一些表情的嫁接。随着人脸防伪技术的完善、3D面部识别技术、摄像头等智能计算视觉技术的引入,伪造面部图像进行识别的成功率会大大降低。

  

  3.12 丢帧和丢脸问题

  

  需要的网络识别和系统的计算机识别可能会造成视频的丢帧和丢脸现象,特别是监控人流量大的区域,由于网络传输的带宽问题和计算能力问题,常常引起丢帧和丢脸问题。

  

  3.13 摄像机的头像问题

  

  摄像机很多技术参数影响视频图像的质量,这些因素有感光器(CCD、CMOS)、感光器的大小、DSP的处理速度、内置图像处理芯片和镜头等,同时摄像机内置的一些设置参数也将影响质量,如曝光时间、光圈、动态白平衡等参数。

  

  4. 实战中的数据标注

  

  4.1 数据标注

  

  (1)一般来说,数据标注部分可以有三个角色

  

  标注员:标注员负责标记数据。

  

  审核员:审核员负责审核被标记数据的质量。

  

  管理员:管理人员、发放任务、统计工资。

  

  只有在数据被审核员审核通过后,这批数据才能够被算法同事利用。

  

  (2)数据标记流程

  

  任务分配:假设标注员每次标记的数据为一次任务,则每次任务可由管理员分批发放记录,也可将整个流程做成“抢单式”的,由后台直接分发。

  

  标记程序设计:需要考虑到如何提升效率,比如快捷键的设置、边标记及边存等等功能都有利于提高标记效率。

  

  进度跟踪:程序对标注员、审核员的工作分别进行跟踪,可利用“规定截止日期”的方式淘汰怠惰的人。

  

  质量跟踪:通过计算标注人员的标注正确率和被审核通过率,对人员标注质量进行跟踪,可利用“末位淘汰”制提高标注人员质量。

  

  4.2 模型训练

  

  数据标记完成后,交由算法同学进行模型的训练,期间发现的问题可与产品一起商讨。训练过程中,最好能可视化一些中间结果。一来可以检测代码实现是否有Bug,二来也可以通过这些中间结果,来帮助自己更好的理解这个算法的过程。

  

  4.3 模型测试

  

  测试同事(一般来说算法同事也会直接负责模型测试)将未被训练过的数据在新的模型下做测试。

  

  如果没有后台设计,测试结果只能由人工抽样计算,抽样计算繁琐且效率较低。模型的效果,需要在精确率(识别为正确的样本数/识别出来的样本数)和召回率(识别为正确的样本数/所有样本中正确的数)中达到某一个平衡。

  

  测试同事需要关注特定领域内每个类别的指标,比如针对识别人脸的表情,里面有喜怒哀乐等分类,每一个分类对应的指标都是不一样的。测试同事需要将测试的结果完善地反馈给算法同事,算法同事才能找准模型效果欠缺的原因。同时,测试同事将本次模型的指标结果反馈给产品,由产品评估是否满足上线需求。

  

  (1)测试环境说明

  

  例如:

  

  CPU:Intel(R) Core(TM) i7-4790 CPU @ 3.60 GHz

  

  内存:8GB

  

  系统:Ubuntu 14.04 x86_64/Windows 7 SP1 64bit

  

  GCC版本:4.8.2

  

  (2)测试集和测试需求说明

  

  比如“图片包含人脸大小应超过96*96像素,测试结果达到XX程度满足需求。

  

  经典人脸身份识别测试集LFW,共包含13233 张图片 5749 种不同身份;世界记录99.7%。

  

  CK+ (一个人脸表情数据集),包含固定表情和自发表情,包含123个人的593个表情序列。每个序列的目标表情被FACS编码,同时添加了已验证的情感标签(生气、厌恶、害怕、快乐、悲伤、惊讶)。

  

  (3)需要说明“有效距离,左右角度,上下角度,速度”等参数值(范围)

  

  注:这和“部署的灵活性”相关――由于不同客户不同场景的需求不同,所以技术方的人脸检测模块,一般可以通过调整参数得到N种亚型,以适应不同应用场景(光照、角度、有效距离、速度) 下对运算量和有效检测距离的需求。

  

  (4)测试结果――欠拟合

  

  定义:模型没有很好地捕捉到数据特征,不能够很好地拟合数据

  

  左图表示size与prize关系的数据,中间的图就是出现欠拟合的模型,不能够很好地拟合数据,如果在中间的图的模型后面再加一个二次项,就可以很好地拟合图中的数据了,如右面的图所示。

  

  解决方法

  

  添加其他特征项,有时候我们模型出现欠拟合的时候是因为特征项不够导致的,可以添加其他特征项来很好地解决。例如,“组合”、“泛化”、“相关性”三类特征是特征添加的重要手段,无论在什么场景,都可以照葫芦画瓢,总会得到意想不到的效果。

  

  添加多项式特征,这个在机器学习算法里面用的很普遍,例如将线性模型通过添加二次项或者三次项使模型泛化能力更强。例如上面的图片的例子。

  

  减少正则化参数,正则化的目的是用来防止过拟合的,但是现在模型出现了欠拟合,则需要减少正则化参数。

  

  尝试非线性模型,比如核SVM 、决策树、DNN等模型。

  

  (5)测试结果――过拟合

  

  定义:模型把数据学习的太彻底,以至于把噪声数据的特征也学习到了,这样就会导致在后期测试的时候不能够很好地识别数据,即不能正确的分类,模型泛化能力太差。例如下面的例子。

  

  上面左图表示size和prize的关系,我们学习到的模型曲线如右图所示,虽然在训练的时候模型可以很好地匹配数据,但是很显然过度扭曲了曲线,不是真实的size与prize曲线。

  

  解决方法

  

  从产品角度:

  

  重新清洗数据,导致过拟合的一个原因也有可能是数据不纯导致的,噪音太多影响到模型效果,如果出现了过拟合就需要我们重新清洗数据。

  

  增大数据的训练量,还有一个原因就是我们用于训练的数据量太小导致的,训练数据占总数据的比例过小。

  

  从算法角度:

  

  交叉检验,通过交叉检验得到较优的模型参数;

  

  特征选择,减少特征数或使用较少的特征组合,对于按区间离散化的特征,增大划分的区间;

  

  正则化,常用的有 L1、L2 正则。而且 L1正则还可以自动进行特征选择;

  

  如果有正则项则可以考虑增大正则项参数 lambda;

  

  增加训练数据可以有限的避免过拟合;

  

  Bagging ,将多个弱学习器Bagging 一下效果会好很多,比如随机森林等.

  

  4.5 标注流程中遇到的问题

  

  (1)项目过程中的不确定性

  

  a. 出现原因:

  

  一般情况下,只要数据标注的规范清晰,对规则的界定从一而终,标注工作的流程还是比较简单的。

  

  数据标注规范可能会在测试后根据结果情况进行调整,那么,规则修改前后“数据标注的一致性”就出现了问题,会导致多次返工,在时间和人工成本上颇有影响。

  

  b. 解决方法:

  

  1)如是分类性质的解析工作,建议标注规则先从非常肯定的非黑即白开始;规则设定由简到繁,带有疑虑数据再另外作记号。随着规则一步步深入,可能会出现交叉影响,此时就需要放弃一些低频问题的规则,余下的未标注的数据就根据新的规则标注。

  

  2)如是多类规则
TAG:
热门标签: 孟尝君(1) 月饼(2) 闽南语(1) 门店(1) 蝴蝶犬(1)

部分信息与图片素材来源于互联网,如内容侵权与违规,请与本站联系,将立即处理,举报邮箱:1356571586@qq.com


随机关键词:

资源联系人