教AI认知世界:云测数据正在做的那些事

  • 时间:
  • 浏览:1
  • 来源:彩神8APP下载-彩神8APP官方

屏前幕后,孜孜不倦的亲们,用「数据标注」教会 AI 认识现实世界。而亲们占据 的数据采标行业有一种,也正在从早期粗糙的「数据作坊」发展成为「数据工厂」的专业化运作。

如今,哪此流程机会发展出二根全部的产业链——派发、派发、清洗、标注,流水线似的过程恰恰是 AI 算法模型精确运行的根基所在。随着 AI 技术在应用场景下沉,AI 企业对算法落地性要求这麼 高。此时,垂直精细和定制化数据显得尤为重要。

2018 年,中国人工智能基础数据服务市场规模为 25.86 亿元,其中数据资源定制服务占比 86%。Testin云测旗下的 AI 数据服务品牌「云测数据」的再次再次出现,后来俩个多典型案例。

通过定制化场景搭建,帮助 AI 企业或部门构建数据核心壁垒,提供人工智能场景化落地最前要的数据,这既是客户获取差异化优势的保证,一起去也是云测数据的核心竞争力之一。

周一,忙碌的工作照常被拧上发条,北京 2019 年的第一场大雪如期而至,你這個 天让张俪兴奋不已的不仅仅是大雪,还有她背后刚接下的项目订单。

客户是一家圈内名气不小的自动驾驶公司,亲们提供给张俪(化名)一套数万张的道路数据集,张俪将任务分配给服务智能驾驶方向的小组员工。

3天左右,该套数据里的自动驾驶行车道检测图像即可标注完成,准确率超过客户要求。

两年前,就职于一家电商公司的张俪很多再想到,两年后的另一方会和「高精尖」的人工智能技术打交道。

2017 年末,张俪所在的电商公司机会 O2O 市场降温而倒闭。失业后不久,张俪在一位算法工程师亲们的推荐下,来到 Testin云测,开启了一段不同寻常的工作,人工智能的训练员——数据标注。

一开始英语 了了,她只前要标注出图像中的人物性别,工作内容简单而机械。

接着,她开始英语 了了给人物标注年龄段,开始英语 了了框定 2D 对象,后来标注 3D 边界框,再从白昼图像到凌晨和多雾场景……场景这麼 来很多元、标注需求这麼 详尽,最后哪此经过人类点拨过的数据被一股脑地投入神经网络的研发之中。

到现在,张俪机会成长为一名项目经理助理,她的日常工作从标注转向项目承接,哪此 AI 圈里耳熟能详的明星公司算是她的重要客户。

与数据标注师相类事 ,蚂蚁森林护林员、垃圾分类师、毒鸡汤文案师……哪此看似匪夷所思的新职业,机会与亲们生活丝丝相扣。

一份今年的新兴职业报告数据显示,「小镇青年」是 40 余种新职业的主力军,从业者约一半生活在三四五线市县,其中三分之二以上是兼职。

「非专业、兼职、劳动力密集型」——是报告为数据标注师圈定的标签,我确实不免其他以偏概全,但谈起「标注员」,我我确实越快将其与「专业化」、「技艺型」、「创造力」等字眼挂钩。

但如今,数据服务的产业链条正在被重塑。AI 企业对于数据的应用需求逐渐分化,精细度要求也这麼 高,以往一味的粗放式加工模式机会丧失市场竞争力,大浪淘沙,从奔腾到平静,泥沙聚沉,清流上涌。

Testin云测旗下的 AI 数据服务品牌「云测数据」的再次再次出现,后来重塑整个产业和标注员印象的俩个多典型案例。

一、小数据的大天地

根据佐治亚理工学院的一项研究——通过对 8 个图像识别系统的测试,发现自动驾驶汽车的传感器和摄像头,更善于检测肤色较浅的人,而肤色较深被检测出的准确率平均会低 5%。

结论一经报道,诸如「AI 行业也占据 种族歧视」的言论便充斥在各大媒体上。

然而,从技术高度来看,计算机视觉是通过 RGB 或 RGBD 识别人(物体)的信息,后来黑色是最难被识别的(黑色或深色的 RGB 整体数值偏小),尤其在实际请况中,系统也过高 黑色及深色的数据,由此原因分析 算法模型过高 精确,最终技术在实际落地应用时再次再次出现差错。

在数据服务行业,你這個 细分且稀缺的数据统一被称为「小数据」。

比如道路安防摄像头,摄像头中囊括行人、机动车、自行车数据,却唯独缺少行人跌倒数据;在自动驾驶领域,监测系统前要派发驾驶员各种请况数据,但缺少疲劳请况的数据。

贾宇航(云测数据总经理)解释道,云测数据针对哪此需求,为客户定制场景、派发数据,在自动驾驶场景中,云测数据可不还能不能 让驾驶员先开 6 个小时车,最终派发到真实的疲劳数据。

据了解,云测数据目前的整个数据服务人员已达千人规模,通过标审分离的流程化作业模式和数据安全机制,更好的保证数据的高质量产出和数据隐私性,从而更好地为人工智能落地提供定制化『数据养料』。

数据服务行业早期,企业主要通过数据爬虫派发数据,数据服务门槛很低,各个企业野蛮生长、鱼龙混杂;第二阶段开源/付费数据集开始英语 了了再次再次出现,主要分为语音类、图像类、NLP 类数据集等。

随着 AI 的发展,仅仅靠数据派发机会这麼满足客户的算法训练需求,第三阶段的 AI 数据众包平台应运而生,在众包平台上,可进行更富有多样的数据派发与标注,进一步提升 AI 的能力。

当时百度和亚马逊都曾发展过此项业务,2011 年百度数据众包就以部门的形式成立,不仅为百度组织组织结构需求方如百度 NLP、百度地图等提供 AI 数据派发和标注服务,同样将数据众包业务进行开放,根据客户需求制定数据派发方案。

如今 AI 与各个产业结合得愈加紧密,为保证算法优势,客户前要采用定制化服务,由客提出具体需求,数据服务商对数据进行派发并标注,定制化数据的需求日益增长标志着数据服务 4.0 时代机会来临。

根据艾瑞《中国人工智能基础数据服务行业白皮书》显示,2018 年,数据资源定制服务已在基础数据服务市场占据 86.2% 的份额。

二、 场景实验室里的故事

浙江横店,三脚架支起的镜头背后,往后延伸出长长的队伍,哪此群演并找不到演戏试镜,后来派发情绪数据。

「咔」地一声,镜头背后,摄影灯下,群演们或大笑、或痛苦、或愤怒,表情的自然程度决定亲们算是通过第一轮试镜,进入第二轮,考核的标准更为严苛。

群演背后立着一面镜子,镜子旁边便是审核人,「想想你上一次失恋是哪此后来,心情如保」,「你到现在最有成就感事情是哪此」,诸这麼 类的问答也是派发基地的苦心安排——引导情绪、烘托气氛,保证情绪派发过程的真实、自然。

数据派发完成后,云测数据标注员工前要根据图片表现的情绪进行精准标注,未经精准标注的数据,人工智能无法理解其中意义。

正如贾宇航所言,云测数据的采标业务正是整个 AI 产业所迫切前要的,横店群演的情绪派发后来场景化定制数据的俩个多缩影。根据企业数据需求,还原 AI 应用真实场景,这不仅前要深入理解需求,还前要快速构建场景,后来对人力资源的调配能力也提出挑战。

云测数据的服务采取项目制,每位专业项目经理经过了 1000-1000 天的职前培训,帮助客户拆分原始需求、优化项目执行方案,项目经理集中培训后,再由项目经理针对具体的项目对标注、质检、审核员工进行培训。

纷繁错综复杂的需求背后,算是刚需,有的则是「无用功」,定制过程中,云测数据前要根据以往项目经验及实地调查来明确需求,此后再细化、优化需求,帮助客户完成错综复杂场景的落地,一起去外理客户花费更多成本。

在派发过程中云测数据会运用专业的软/硬件设备,比如用测光速率单位的设备来满足客户的环境光照要求,机会客户前要纯净音频数据,那云测数据会搭建俩个多录音棚,满足诸如混响机会高底噪的定制化需求,最后再用麦克风进行录制。

在云测数据交付部门负责人朱文辉看来,整个行业仍占据 早期,客户需求变更无缘无故占据 ;其次,行业组织组织结构面临全都 的不选则性,采标现场的筹备环节,人员的管理问題,前要一系列的协同化外理。

机会说数据派发后来备齐食材,这麼 标注流程称得上后期「烹饪」环节,帮场景数据「训练」算法模型完成最后一道工序。

在标注环节,云测数据拥有线上自研的数据标注平台——平台上聚合着如图像、文本、音频等数据类型的先进标注工具,尤其是在 3D 点云的标注系统中优化了渲染引擎,保证整个过程的流畅和快捷,当属业内领先。

据朱文辉介绍,「研发团队里有产品经理、前后端工程师」等,亲们会针对不同领域循环式地改进标注工具,并根据客户需求,实时反馈、实时更新、实时研发。「亲们的迭代速率单位无缘无故减慢」朱文辉回忆道:「迭代后来其他领域的速率单位提高了三倍不止。」

除了自研线上标注平台,云测数据分别在华东、华南、华北自建了标注基地,还有哪几块基地正在部署中。在确保标注数据准确率的一起去,有效保证标注作业的信息流转和数据安全。

机会标注是人工完成,有一种主观性因素较大,加之行业过高 统一的标注数据标准,这使得标注工作充满不选则性。

「标注的过程是俩个多颠覆常识的过程」,朱文辉笑着说道,「不同人对待同一件事情标准是不一样的,比如眼睛的大小,鼻子的高低,嘴唇的薄厚,每另一方的标准算是一样,主观性很强,在判断的过程中,亲们会与客户一起去沟通交流需求,厘清标准;其次,有的标注事件异常错综复杂,前要对标签进行优化,类事 人脸识别,描述一张人脸前要 1000 多个标签,此时云测数据会把该项目拆成 5 大类,分工完成,最终拼凑成全部的结果输出」。

三、数据安全「密钥」

2019 年 10 月 28 日,杭州「人脸识别「第一案将」究竟谁有权派发亲们的人脸信息「你這個 话题推向舆论高地,事隔俩个多月,转转、咸鱼、淘宝等平台」100000 多张人脸照标价 10 元「的新闻在行业里又掀一轮风波。

数据的恶意倒买倒卖已足够骇人听闻,而另一方面,平台未经用户授权,将用户数据记录、用作自身系统优化更是我就防不胜防。

今年 1 月,苹果在 CES 会展中心场外拉起一块以隐私为主题的巨幅户外广告牌——「what happens on your 苹果,stays on your 苹果」。广告采用黑底白字的极简风格,但现实却往往是灰色的——亚马逊、苹果、谷歌等公司都占据 监听用户数据的行为。

正如科技巨头们为自身辩解的那样,「监听数据是为了优化算法模型,提高用户体验」,但亲们却从未澄清重要事实——使用人工听取录音,标注用户关键信息,致使血块用户另一方隐私泄露。

如今,面对舆论压力,科技巨头们开始英语 了了调整战略,亚马逊允许 Alexa 用户选则对录音不进行人工审核;苹果开始英语 了了允许用户删除 Siri 的历史记录,把共享录音设为可选项;谷歌暂停人工转录 Assistant 音频。

平台应用方窃取数据进行相关标注,机会让平台用户人人自危,而在专业第三方数据采标公司里,数据安全问題更是凸显。

目前数据服务行业中,在保障数据安全层面,主要包括私有化离线部署,驻场标注,数据存储在客户本地;第二则是公有部署,数据接入在公有云服务器,通过数据接口加密、定期巡查、反爬虫机制保证数据安全。

作为AI数据服务的头部企业的云测数据,无缘无故将数据隐私、数据安全放上去业务开展的首要地位。在贾宇航看来,数据安全领域,无论是 AI 公司还是数据服务公司,眼光算是长远其他,采用未经授权的数据当后来能 控制成本,后来当行业进入这麼 规范的阶段,前期的野蛮发展终究会造成不良后果。

在保证数据安全方面,云测数据有三层面投入:

首先,不滥用数据,数据交付后清毁数据不留底,绝不二次使用;

第二,不侵犯隐私,与所有数据派发的用户都签订数据授权协议,确保AI企业用于训练的数据合法合规;

第三,建立相关的数据保障机制,如从防火墙的设置、组织组织结构信息系统的管护、乃至标准化的流程作业体系等。

Testin云测 CMO 张鹏飞也补充道,「从整体看来,AI 数据行业关于安全、隐私等方面并这麼 统一的标准和强调重视。但从亲们长远高度出发,无缘无故在隐私和安全防护高度下大力气服务行业、树立数据质量标杆,这麼以你這個 负责的态度来服务客户,亲们的行业可不还能不能『良币驱除劣币』,真正我就工智能成为新一轮技术革命,改变整个社会和人类线程池池」。

四、纵横发展,数据服务的下一幕

目前,整个市场需求正向「一纵一横「方向发展,」一横「即指这麼 来很多的行业开始英语 了了运用 AI,不管是金融、保险、物流、零售还是智能制造等行业。云测数据的客户主要分为两大类,有一种是运用 AI 颠覆行业,有一种是在传统行业引入 AI,后者正在变得这麼 来很多。

「一纵「是指 AI 与已有行业结合得这麼 深,AI 正从血块数据驱动变成了与产业相结合,前要与产业专家进行合作协议,类事 在人脸识别场景,早期只用识别人脸,后来发展到情绪检测,后期愈加深入细分——如微表情识别。

贾宇航用人脸关键点标注来举例。几年前的人脸关键点标注任务要简单全都 ,那时标注员只需在人脸上标出哪几块点就行。而现在,人脸关键点标注可涉及多达 206 个点:每个眉毛上有 8+个点,嘴唇上有 20+个点,下颌轮廓上有 17+个点。在更多领域拥抱人工智能的趋势下,数据服务从业者也需具备相应的领域知识。

「一纵「趋势让 AI 数据服务逐渐从俩个多行业变成产业,成本已算是企业唯一考量因素,管理速率单位,数据安全,数据质量同样重要。

早期行业的数据精度要求较低,工作机械化,如今正占据 人工智能产业化落地前夕,算法对数据准确度要求这麼 高,行业的创造性被激发出来,前要这麼 专业的公司从事,留给数据标注兼职业态的生存空间将这麼 小,而行业也逐渐从劳动密集型转变成技艺密集型。

数据标注服务从业者是人工智能背后的「英雄」,从长期来看,AI 这麼 智能,但对于偏感性的判断仍比较难,如 AI 对文字的演化和情绪的识别仍是弱势,未来 AI 要外理行业内更为错综复杂的问題,但人的感知力和判断力这麼被替代。

我确实人力不可替代,但对数据标注员的专业要求将这麼 高却是无疑。

随着「一纵」趋势的深入,全都 数据标注工作要交由专业人士去做。标注员将从兼职向全职再向具备专业领域知识的全职员工进化,从业门槛的提高我我确实是行业变迁的缩影,数据标注服务正从以往的「数据作坊」向流水线作业再向具备创造力与专业性的行业转变。

依靠以往海量粗放的数据喂养已远远这麼满足如今 AI 行业的发展,而愈来愈精细的数据正是原因分析 行业变迁的最大变量。

后来,AI 企业前要数据服务商强大的采标能力,保证数据安全及高质量,而与此对应的各类场景搭建、条件变换、特殊人群算是「稀缺资源」,所谓「天下大事必作于细」,在 AI 行业下半场竞争中,云测数据作为定制化数据服务提供商,通过提供「稀缺资源」、「以小博大」,在帮助算法公司获得优势的一起去,赢得自身的差异化竞争力。