零售

SandStar视达王秋萍:计算机视觉助力零售数字化

动态计算机视觉:线下零售的“眼、脑、手”

2019年12月31日
  • 人工智能
  • 零售

近日,爱分析在京举办了2019爱分析·中国人工智能高峰论坛。爱分析邀请了SandStar视达合伙人王秋萍进行了题为《计算机视觉助力零售数字化》的主题演讲。

王秋萍提出,动态计算机视觉是零售行业人货场的普适技术,在线下非结构化的数据下扮演零售企业的眼镜”和大脑”。在未来零售中还可能有机会扮演行动端“双手”的角色,在机械臂等方面极具想象空间。

现将王秋萍的演讲实录分享如下。

王秋萍:谢谢爱分析的邀请。我是王秋萍,SandStar视达的合伙人。我们是一家专注于计算机视觉和计算机图形学的一家创业公司。在过去三年里,SandStar视达深耕零售领域。

我们认为计算机视觉是零售的秘密武器。过去几年,视达在动态计算机视觉方面做了很多研究,积累了大量的视频和图象资料,希望通过视觉方面技术的演变,给零售这个传统的行业一个新的赋能。

全球零售行业是一个21万亿美金的市场,其实84%还都是线下零售,因为其中66%消费者的购买决策都是线下,也就是说这么大体量的市场里,线下零售现在面临着非常大的数字化、智能化的冲击和挑战。

随着电商的不断演变,我们已经能够在电商平台做到千人千面,每一个消费者进到每一个页面里,看到的东西和别人都是不一样的。但是对于线下零售来说,商家最大的痛点就是他们对这些消费数据是一无所知的,虽然大部分线下门店中都有摄像头,但是这些摄像头目前主要起到的作用也仅限于监控,但监控作用对零售商是没有智能辅助。那这些摄像头就相当于“睁眼瞎”,根本没有拿到项目的数据,并且做出相应的处理和分析。

视达通过计算机视觉技术让摄像头真正起到“眼睛”的作用,,让千千万万的传统零售商看到“人货场”的数据。

计算机视觉是线下零售的“秘密武器”

计算机视觉领域里有三个技术上的难点,但这也是我们最大的技术优势。

第一个就是商品识别。前面的演讲也有提到,现在市面上有很多公司做人脸识别,但商品识别相对于人脸识别来讲更难。因为商品形似性非常大,如果一个货柜有二三十种SKU,一个便利店有几百种,一个商店就是20000-30000种。我们通过过去三年的数据累积,目前已经积累了超过六亿的视频和图象,能够识别超过三万种SKU,已经满足了大型超市对视频数据量的需求。

 

第二个很大的难点就是动态识别。纵观整个零售市场上的计算机视觉公司,大部分还在做静态识别。静态识别和动态识别最大的区别就是静态识别只是货柜开门前拍一张照片,关门后再拍一张照片,对比出消费者拿了什么商品。动态识别则通拿取放回整个过程的视频记录,清晰完整地看到消费者在货架前与商品做的所有互动行为从而进行分析。另外,相较于静态识别,动态识别的成本更低。前面也提到了,静态识别是需要拍照片的,因此每层货架都需要放置2个摄像头,而动态识别的摄像头数量要求会低很多,只需要两个,上面一个,下面一个,自然形成一个天然的屏障,让所有的动作都能看得到。

在静态识别的领域里,如果要做到完全看清总体商品,就一定要在货架上留出很大的空间,空间浪费率很高,但对于动态识别来讲就没有这个限制。

消费者在购物过程中有很多不可预测的行为,比如说碰到了一个瓶子,或是一个商品摞在另外一个商品上,对于静态识别来讲这些都是灾难,因为这个时候机器完全分不清商品,但对动态识别来讲能够完全解决这方面的难点。

第三个难点是人脸识别。不仅仅是识别人脸的属性、特征,而且要能够把人脸ID和会员ID联系起来,能够把人、货、场的数据更好关联起来,知道谁是我的消费者,他们的特征是什么,有哪些动态路线,消费习惯又是怎么样的,拿取了哪些,又放回了哪些,和哪些商品有互动,这样的话对于线下的数据会有更清楚的认知和了解。

视达科技做的是线下零售的“眼睛”和“大脑”,通过摄像头这个“眼睛”获取到人、货、场的数据,同时汇总到大脑”里进行数据分析,做到真正的数字化和数据驱动的智能化数据决策过程。

零售数字化的核心是“人货场”

在这里给大家分享一个案例。上周在和爱分析的同事沟通时还有提到,2019年最大的感触是什么?我们就是觉得今年商业化进程比之前快很多,我们认为动态视觉是零售的人、货、场数字化中唯一普适的技术,这也是我们的核心技术,能够解决普通门店里最难的两件事:数据采集和非结构化数据分析。

 

大家可以看到,右上角的这个图就是两个人拿取放回的过程,通过对人体骨骼的识别和头肩特征的提取看到人核心关节的动作,看出每一个消费者拿了哪些东西,放回了哪些东西,最终这个数据记到会员ID上。

这就涉及到我们另外一个核心技术,我们能够通过头肩特征和人体骨骼识别,定位消费者,进行跨摄像头追踪,绘制出他在该零售场景中的消费路径。

我们结合一个实际案例来说明上述技术,某连锁便利店客户,应用我们的人体骨骼识别,捕捉到顾客在消费场景中对商品做的所有互动过程,汇总到大数据分析。并通过热力图,获取消费者停留在哪个地方的时间比较长,停了多久等信息,从而判断哪些商品更受欢迎。

另一个案例中的客户是国内某石油石化企业,这是他的一个加油站场景,视达科技帮助他们重新定义了人---场的概念。客户想将传统的加油站进行智慧化转型。所以每辆车进入加油站后我们都可以通过摄像头捕捉到车辆信息,包括车牌号、车型、该车辆的市场售价,以及与车相关联的人的信息,比如车主年纪区间,做了什么行为动作,加了几号油等等。我们还可以通过不同的服装去检测到哪一些是工作人员,消费者与工作人员是否有互动。

从加油的场景再延伸到加油站便利店,我们可以知道这个车主加完油以后有没有进便利店,或者是否有购买行为,购买了什么,这样就把人、车、货、场联系起来了。

接着就是加油站中便利店的场景,在该消费场景中,消费者的痛点一般是排队时间比较长。对于管理者来说,可能也想知道工作人员是不是在高效地工作,他们有没有微笑服务。这个场景里大家可以看到通过人脸识别摄像头,可以清晰的看到每位消费者的等待时间,以及店员平均的结账市场。传统的方法横捺计算等待时间,但是运用了智能零售,则可以根据“大脑”的数据分析得到明确的数据,从而优化结算流程,调整管理制度,提供工作效率。

接下来介绍一下动态视觉的智能货柜,,它最大的好处就是真正做到了让你拿了就走。通过刷脸或刷二维码等方式,打开货柜之后随意在货柜里拿任何东西,这两个摄像头可以通过动态的捕捉看到你拿取放回的动作,而且准确率高达99%以上。

对于厂商来说,部署起来也是非常容易的,因为我们只需要两个摄像头和服务器,不需要任何层架改装。而且最关键的一点就在于,除了给消费者提供更好的体验,给零售商提供更简单的改装体验以外,我们还能够给零售商提供很多数据,包括选品的建议,陈列的建议,精准营销等等。

 

 

 

以某大型饮料厂商客户为例,该厂商有几百种SKU,每次选择什么商品放到货柜里,都是凭经验,或者拍脑袋决策的。有了智能分析的系统之后,就可以根据环境、销售量等参数分析,帮助客户智能选品。

传统零售是一个相对传统的行业,对数据是一无所知的,但是他们也想做到像电商一样去找到清晰的交易漏斗,了解漏斗中每层的准确数据。我们通过计算机视觉给客户拿到这么多的数据,通过大数据的分析能够建立这么一个销售漏斗。

同样也是我们客户的例子,一家便利店在做了一个月的数据采集之后,找到了一个很核心的问题。这个便利店挨着小学,货架放满了小孩爱吃的零食,互动非常多但销量不高,小朋友经常拿起来看,但并不买。我们回去看整体的数据分析,发现其实消费者是小学生的家长,但是这些商品并不是针对他们的,是针对小学生的。发现这个问题之后,我们把整个货架上的商品做一些改变的建议,最终商品销量翻了5倍之多。

零售科技的未来:“眼、脑、手”三个维度

最后想和大家聊一下零售科技在未来的发展。我们目前主要做“眼睛”和“大脑”,未来我们还会加一个“手”。视达科技在做机械臂相关的开发,未来也许真的能做到无人零售概念。比如说店里可能会有机械臂补货,或者未来提供个性化的货架,通过机械臂,根据你的喜好和你的交易历史给你一个定制化的货架,这就像淘宝千人千面的首页推荐一样。

我们认为计算机视觉是整体AI领域里真的能够帮助零售企业做到数字化、智能化,提供数据驱动的智能化分析的一项技术。我们也希望能够与各位一起见证新零售和智慧零售的到来。谢谢!