深度布局5G领域    小米5G手机国内首发
平沙门户网站
您所在的位置:平沙门户网站>科技>关于人脸识别,好与坏之间还有五十度灰

关于人脸识别,好与坏之间还有五十度灰

 ( 2019-11-08 13:20:52   )

人工智能没有人们想象的那么聪明。

曹卫宇

资料来源:ben-evans

不久前,人工智能变脸设备app zao开始流行。然而,由于诸如用户数据风险等问题,它后来被从货架上移除进行校正。当时,它引发了许多关于人脸识别、数据安全和监管问题的讨论。著名硅谷技术、互联网分析师、a16z合作伙伴本尼迪克特·埃文斯(Benedict evans)最近写了一篇文章,从技术、数据和监管等方面深入探讨了人工智能人脸识别技术。

以下是翻译,略加删除。

早在20世纪70年代和80年代初,科学技术产业就创造了革命性的新技术,赋予政府和企业前所未有的能力——跟踪、分析和理解所有人的能力——数据库。

关系数据库意味着理论上的小规模可能性可以在实践中大规模实现。人们对此很担心,市场上有很多书。

具体来说,人们担心两个问题:

人们担心这些数据库包含错误的数据或错误的假设,特别是数据库可能无意中在机器中编程并保留了当今社会的一些偏见。

此外,人们还会担心,如果坏人创建并使用这个系统来做人们不喜欢的事情,会有一些不好的后果。

如今,人们对人工智能(更恰当地说,是机器学习,因为人工智能只能通过机器学习来实现)的讨论,尤其是对人脸识别的关注,与当年的数据库大体相似。此外,我们还试图找出其中有多少是全新的问题,有多少人担心,为什么他们需要担心。

人们在使用数据库时犯了一些错误。

你可能听过类似的老笑话,比如税务局拼错了你的名字,但是直接改名字比纠正拼写错误更容易。还有一种情况并不完全是一个笑话。如果你和通缉犯同名,警察会一直阻止你。或者如果你和恐怖分子同名,你会发现自己被禁止飞行或者更糟。在另一个例子中,一名安全研究员今年表示,他将“空”注册为一个自定义车牌号码,并随机收到数百张违章停车罚单。

由此我们可以看到三个问题:

当然,所有官僚机构都将面临这一系列问题,这是几千年前的情况。此后,数据库为人们提供了一种新的实现形式。现在轮到机器学习了。然而,机器学习也以各种方式把事情搞砸了,这是它工作方式固有的。

想象一下,你想制作一个能识别猫图片的软件系统。实现这一目标的旧方法是设置逻辑步骤——进行一些设置,可以检测边缘、耳朵、眼睛、计算腿的数量等等...最后,数百个步骤被拼凑在一起,但这永远都行不通。这就像试图建造一匹机械马,这在理论上是完全可行的,但在实践中太复杂了,而且还有无数类似的计算机科学问题。

机器学习(Machine learning)将这些难题从逻辑问题转化为统计问题——它使用100,000张x照片和100,000个非x照片图例来生成(即训练)模型,这些模型可以通过统计引擎在一定程度上区分不同的照片,而不是记录识别照片的方式(例如,上面写有x的照片)。然后你拿出另一张照片,系统会告诉你这张照片是否与x照片匹配,匹配程度如何。

计算机可以制定规则,不是因为人们给了他们规则,而是因为计算机可以根据数据和答案制定规则(这是x,或者这不是x)。

资料来源:franç ois chollet

这可以很好地解决包括人脸识别在内的一系列问题,但也有两个误解。

首先,x和非x图例中的培训数据是什么?我们能确切地确定吗?传说中还有别的吗?

最好的例子来自一个通过皮肤照片识别癌症的项目。一个明显的问题是人们可能没有均匀分布的不同色调的皮肤图案。然而,另一个可能的问题是皮肤科医生习惯于在癌症照片中放置标尺来测量皮肤问题(斑点等)。),所以如果在所有癌症传说中都有鳞片,而在所有非癌症传说中没有鳞片,那么在统计学中,鳞片可能比皮肤上的小斑点更多。因此,人们可能无意中设置了一个尺度识别器,它不是癌症识别器。

这里需要理解的一个结构性问题是,系统无法理解它所看到的东西——它没有皮肤、癌症、颜色、性别、人甚至图像的概念,就像洗衣机不知道什么是衣服一样,系统只对数据集进行统计和比较。

那么,数据集是什么?如何选择?有没有人们没有注意到的细节?数据中是否有任何东西可能与人无关,没有预测价值,但会影响结果?人们可能无法分辨这两者的区别,但是计算机会把它们当作信号。

第二点更微妙:什么是“匹配”?人们熟悉的计算机和数据库通常会给出“是”或“否”的答案。然而,机器学习不会给出“是”或“否”,而是“可能是”、“可能不是”和“可能”的答案——机器学习给出了一个概率。

在最近一些充满噱头的报道中,我们可以看到上述两个问题:例如,通过使用罪犯的面部照片来训练面部识别系统,然后给一个正派的人(通常是政治家)拍照,询问系统,如果有任何匹配,系统会说是。结果,政治家和银行抢劫犯成功地“匹配”。

在计算机科学家看来,这就像是一种破坏——故意使用扭曲的数据集,故意将用例的精确度设置得太低,然后(错误地)给出一个概率结果——“匹配”这样,人们可以用小猫的照片或卷心菜的照片做同样的事情。例如,如果你告诉计算机“从卷心菜照片中找到最匹配这张脸照片的那张”,计算机会说“好的,下面的卷心菜照片是最近的”。这是一个失败的系统设置,就像撞墙说,“看!汽车抛锚了!”,好像已经证明了什么。

当然,你确实证明了一些事情——汽车撞到墙上会抛锚。这种证明仍然有价值,因为当人们听到“人工智能”时,他们通常认为它是智能的——人工智能、数学和计算机,而数学是不偏不倚的。的确,数学没有偏见,但是数据可能有偏见。人工智能技术,像数据库一样,可能会搞砸一些事情,所以上面提到的“反例”是有价值的。否则,有些人在不理解这一点的情况下,会“错误地”开发人脸识别系统,并把他们的产品卖给一些小警察局,拍着他们的胸脯说,“这是人工智能,永远不会出错。”

这些是机器学习的基本问题。需要反复解释的一点是,机器学习与人类相关数据没有特殊关系。同样,机器学习的能力也非常强——有许多有价值的案例表明,机器学习能够识别计算机之前无法识别的东西。

然而,正如我们知道数据库是有价值的,同时也可能出错,我们需要理解机器学习的工作原理,并确保人们清楚地知道一件事:计算机也可能出错。机器学习在某些方面确实比人类更好,就像狗在寻找毒品方面比人类更好,但是我们不能仅仅因为狗展示了初步证据就轻易判定人有罪。

到目前为止,我们正在讨论的是,如果人脸识别系统(或机器学习系统)给出不准确的结果,将会产生什么样的后果。

还有同样相反的问题:人们也可以开发一个具有准确结果的系统,并将结果应用到我们不喜欢的东西上。滥用肖像是一个容易引起注意的问题——有人可能在你不知情的情况下使用你的肖像,但你不能改变它。

想象一下,房地产开发商使用面部识别来标记和跟踪沿着购物街行走的每个人,看看这些顾客进入了哪些商店,他们看到了什么商品,他们穿了什么衣服,然后把这些与销售点和信用卡联系起来。

我认为大多数人会对此感到非常不舒服,因为这是被动的,不是为了顾客的利益。这一系列行动来自未经授权的私营企业,这是对隐私的非自愿侵犯。顾客甚至可能不知道。

然而,如果这种跟踪是匿名的,可行吗?如果身份识别系统不与信用卡和个人姓名相连,而是仅用于分析足迹,该怎么办?如果系统只通过衣服和步态跟踪购物中心周围的人,而不涉及到人的脸呢?

所有这些讨论实际上都不是关于技术的。尽管我们大多数人会走极端,不管是黑人还是白人,理智的人不会这样做,因为中间有一个巨大的灰色区域。

为了解决这些问题,科技行业的对策是建立一个伦理委员会和一套针对工程师、研究人员和公司的行业行为准则。这两种方法的主张是:

承诺不要制造带有“坏数据”的产品

保证不使用数据做“坏事”。对于董事会来说,它还需要一个定义“坏事”的过程。

这些都是必要的,但我认为它们还不够。

首先,在我看来,承诺不制造结果可疑的人工智能产品更像是对我自己公司的承诺——不要把事情搞砸。但事实上,没有人会“计划”搞砸任何事情。有人建议公司列出一些它试图避免的具体问题。尽管未来在某些方面会取得进展,但问题是没有办法完全阻止它。

回到数据库,我的一个朋友史蒂夫切尼最近写了一篇博客,提到他在路上被警察拦住并戴上手铐,因为赫兹(一家著名的租车公司)报告了关于他的租车盗窃的错误信息。这不是机器学习问题,而是40年前的数据库技术问题。

我们花在讨论如何避免数据库问题上的时间比大多数数据库工程师多,但是问题仍然会出现。最重要的是,阻止史蒂夫的警察对数据库和问题有一个概念,并有检查它们的常识(和授权),但他仍然铐着我的朋友。

这可以追溯到我之前提到的人脸识别技术。你可以保证不犯错误,但是让人们知道技术会犯错误可能更有价值——我们不能假设计算机总是正确的。

其次,一些公司认为人脸识别(或任何类型的机器学习)技术是邪恶的,并说他们不会生产这样的产品,这是一件好事,但是“邪恶”与否通常只是一个主观的想法。

目前,有很多例子表明人脸识别技术已经发展成为一种产品。尽管尖端成果仍掌握在少数公司和机构手中,但任何软件公司现在都可以轻松开发“人脸识别”产品。

此外,从一些城市到欧盟的各级政府都在推动人脸识别的监管,这当然是强制性的,但仍然不能防止这项技术失败。然而,城市和政府可以执行审计程序,以发现问题,并在出现情况时采取补救或惩罚措施。

在我看来,挑战在于如何从抽象层中找到关键点。例如,当庞氏骗局破裂时,人们并不认为将来需要对excel表格进行更严格的监管。真正需要干预的地方是金融服务。同样,制定一部法律来规定手机的面部解锁、面部变成小啊毛、超市购物卡持有者的识别系统、警察可以使用摄像头监控的地方等,也不太可能是一个有效的方法。

快乐十分钟投注 江苏11选5 贵州快三

 

瑞士有一群学过中医的欧洲人