【正见新闻网2019年12月26日】
智慧装置里的虚拟助理越来越好用了。不管是苹果的Siri,亚马逊的Alexa,或者谷歌的Google Assistant。我们对它发号施令,询问天气或交通,帮忙打电话,或干脆要它说笑话解闷。
不过最新一期《彭博商业周刊》报导指出,我们透过声控与AI的私密交流,可能在不知情的情况下,被真人逐字抄录和标注,成为AI提升语音辨识能力的材料。
史拉蒂丝(Ruthy Hope Slatis)从波士顿的人力派遣公司接到了一份任务有点模糊的工作:帮亚马逊公司(Amazon.com Inc.)听打一些录音档案。这份“数据助理”的工作是把一些随意的语音内容逐字逐句打进笔电,时薪12美元。
这些音档包括了人们在自己家里的私密谈话。
时间是在2014年秋,当时亚马逊刚推出的Echo居家智慧装置最热门话题就是声控的虚拟助理Alexa。Alexa可以报新闻,解答问题,甚至陪小孩做功课。不过史拉蒂丝也开始理解,这套神奇AI其实背后需要靠很多和她一样的真人才能够运作。
亚马逊把云端里的声音指令收集下来,但仍需要真人“数据助理”协助训练和提升这套系统。一开始,她以为她说话者是收了钱自愿提供发音模式给机器研究。但显然不是。
她听到的录音内容有时很怪异。有些孤单的人对Alexa吐露自己的私密的欲望和恐惧,也有人对着Alexa猛烈拍打。随着Alexa大受欢迎,史拉蒂丝听打的内容也越来越丰富。有些她的同事听到小孩子报出了自己家里的地址和电话,有人要Alexa帮忙订购成人玩具,也有人在聚餐时聊说她们的聊天内容会不会被亚马逊给偷听去。
“这些人不可能知道有人正在听他们说话,”她说:“这没得到他们事先同意。”2016年,她辞掉了工作。
从史拉蒂丝辞职之后,已经有大约1/4的美国人购买了包括Echo、Google Home和Apple HomePod这类的“智慧音箱”。市场上的激烈竞争也带动亚马逊的Alexa,苹果的Siri,谷歌的Google Assistant,微软的Cortana,以及脸书的类似服务更加深入到人们的生活中。麦克风如今内建在手机、手表、电视、冰箱、汽车以及其他冠以“智慧”之名的装置之中。有人预估到2023年全球智慧音箱的市场销售量将达到110亿美元,全世界大概会有74亿个声控装置被人们使用。平均每人大概有一个。
根据科技公司的说法,这些装置并不会把你说的每句话都建档,它们的智慧录音装置只有使用者打开时才会启动。不过它们卖的装置里有些是在厨房里或卧室里,而且麦克风永远开着,可能无意间就录下了我们无意和他人分享的声音。
Siri的目标不再是搞笑陪聊天 Apple语音收集分析越来越具侵略性
今年四月,彭博新闻率先报导了科技界--包括苹果、亚马逊和脸书--使用真人来评估未经使用者同意搜集来的录音档。
少部分主管和工程师同意,使用这么庞大的外包人力监听并纪录资料可能有侵犯隐私的问题。不过在他们看来,基本上这只不过是公司为了提升产品的做法。
用声控装置控制电脑,是科技人许久以前的梦想。不过要让AI听懂人类说话,首先要让它知道说话是怎么一回事。科技公司的电子“耳朵”要升级进化,需要依靠成千上万低薪的人力来逐一注解声音的资料。我们人类微弱的轻柔低语需经过解读辨认,才能够成为他们数据库里有价值的资产。
要教导机器辨识和回应人们说话,需要有逐字逐句相符的音频档案,这需要文字记录的文本,它是缓慢而且成本昂贵的过程。较早期的开发者购买或是建构了巨大的录音图书馆,由人们对着麦克风阅读报纸或是其他预先写好的材料。
在90年代,语音辨识仍是错误率一塌糊涂的阶段。当时苹果曾经发给实验室员工一件搞笑T恤,上头印着“I Helped Apple Wreck a Nice Beach”(字面意思是“我帮苹果毁了漂亮海滩”,照理说原本应该是 I helped Apple recognize speech,但是recognize speech(语音辨识)发音听起来很像wreck a nice beach)。这个充满自嘲意味的笑话,反映了语音辨识技术初期的困难。
苹果也是第一家改变技术模式的公司。它在2011年推出有Siri的iPhone 4S,技术来自前一年美国国防部赞助的研究成果。从此之后,录音档的收集和逐字记录不再是在实验室里进行。苹果在短时间内销售了400万支4S手机,很快就开始累积大量免费、自然的声音资料,并运用这些资料来提升Siri的能力。苹果资深主管形容这是非常繁琐的工作,“听了15到30分钟之后,你的头就开始痛。”公司把许多工作外包给了一些欧洲的IT厂商,包括爱尔兰的GlobeTech。
过去几年来,苹果对于收集和分析人们声音越来越有侵略性。Siri的目标不再是搞笑陪聊天,而是要发展成语音的搜寻引擎,必须满足用户们无穷无尽的询问。为了扩充Siri的辞库,苹果也越来越加仰赖对音档的分析。兼职人员必须协助分析各种不同的语言,口音,以及各种次文化特殊用语。
位于爱尔兰科克的GlobeTech公司前员工形容,他们每天的工作是戴着耳机坐在笔电前面,听取并注记1300则音档。有些可能是单独一句,有的是整段对话。据说更早之前每天配额是2500则,后来为了提高准确率才下调标准。工作时他们点击音频,电脑就会出现Siri所“听到”的文字,然后核可或是修改文字的内容。
这些工作人员使用的程式CrowdCollect可以基于一些理由跳过一些录音:比如语言类别错误、误触按钮、音轨消失。但是并没有一套机制让工作人员可以回报或是消除一些不适当的录音内容,例如喝醉了的人对着麦克风要求传色情讯息。
对他们而言,没有所谓太过私密的内容,他们必须如实逐字核对所有听到的声音。兼职人员多半来来去去,公司几乎没有关于隐私权方面的教育训练。
兼职人员说,大部分询问Siri的内容都平凡无奇,比如“播一首贾斯汀的歌”或是“附近最近的麦当劳在哪”,但是有些内容十分露骨,也有些是一长串包含种族歧视和恐同的谩骂。一名前员工形容他们上班的休息抽烟空档,经常在交换他们听来的“恐怖故事”。
对语音助理下达指令时 你透露的资料比想像多
在2015年,当苹果执行长库克宣示隐私权是“基本人权”的同时,苹果的机器每个星期处理的语音询问已经超过10亿条。这时的iPhone使用者已经不需按钮就可启动Siri,“它”可以随时听你说话。
在苹果的用户条款里已经说了,为了提升Siri的能力,你的语音资料可能被录下并进行分析。不过它没提到的是,你的话可能会被打工挣时薪的一些真人听到。
苹果Siri部门的主管不认为他们的系统侵犯到隐私。他们说这些录音档已经消去苹果用户ID资料。他们也认定,使用者都清楚公司会对他们的音档进行处理,所以用真人来协助处理并没有任何问题。
过去长期在Siri进阶发展部门任职的布尔奇(John Burkey)在《彭博商业周刊》的访问中说:“这并不叫监听。这叫做‘询问Siri得不到结果,所以我们来修理一下。’这就和某个app故障了,问你要不要传送通知给苹果。这只不过是个语音的bug。”苹果也说,只有不到0.2%的询问Siri内容,是由真人进行分析检验。
如今苹果已把Siri送进了蓝牙耳机和HomePod等产品,每个月处理150亿个声控指令,即使是0.2%也等于是每个月3000万则,一年就3.6亿则。特别危险的可能是Apple Watch的“举手说话”功能,带着装置的人一举手就可自动启动Siri,不经意就被录音下来的机会特别高。
苹果的HomePod大概只占美国智慧音箱市场的5%。市场有七成归亚马逊所有。亚马逊2011年着手打造了Echo,它的七组麦可风随时可注意重新录音的“启动”指令。这些音频和苹果一样,会送交他们的“数据助理”来分析。
贝佐斯显然预先想到了收听用户录音可能引发的排斥效应。因此Alexa的设计事先考量到避免用户不要因为被录音而吓到。
当用户呼唤“Alexa”,Echo就有一圈的灯会亮起,就像虚拟助手是被叫醒来。“个性设计”团队也对人们最常提问的一些问题设计了一些俏皮的答案,让Alexa更有人味。程式人员也开发入口网站让使用者可以播放和删除自己的录音。亚马逊的发言人骄傲地宣称Alexa从创造之初就建立了隐私权的标准。
2016年,亚马逊创造了“常用发音数据库”(Frequent Utterance Database,或称FUD)协助Alexa对常问问题提供更多答案。据说FUD还引发了内部员工之间的紧张,因为产品团队想用更有侵略性的方式发掘数据,而安全团队则希望加强保障用户的个人资讯。
2017年,亚马逊推出了配备摄影机的Echo Look,它被宣传成AI的造型师,可以帮使用者推荐出门的穿搭。程式的开发人员本来还打算设计程式,让使用者要求Alexa说个笑话时摄影机就会自动打开。这个设计的构想,是要录下使用者的面貌,同时评估笑话是否让他发笑。不过,亚马逊最后放弃了这个构想,目前Alexa也没有应用到脸部辨识科技。
从罗马尼亚的布加勒斯特到印度清奈,亚马逊在全球各地广设转录语音档的“农场”。今年也举行了好几次的海外听写员的招聘活动。亚马逊说为了让Alexa通行全球,他们需要对地方的口音和流行语有充分理解,不过也强调“严肃看待用户和他们的语音录音安全”。
其他科技公司也不落人后,微软推出了Cortana语音助理和Skype通讯app。谷歌和脸书也看好语音数据会大大提升它们的广告收益。因为语音资料可以让AI更容易掌握目标族群的年龄、性别、情绪、甚至是所在地点和兴趣。
密西根大学教授绍布 (Florian Schaub)在《彭博商业周刊》的访问里说,大部分人往往忽略或低估了自己下达语音指令时透露的资讯,“如果你常问美式足球的问题,你大概就是NFL的球迷。如果背景音传出婴儿哭声,他们就可以推论你们是一家人。”
Google雇用兼职人员转录从Google助理录下的声音指令。公司曾经承诺这些音频不会涉及到个人资讯,不过今年夏天有个Google 的合约雇员把超过1000个用户录音交给了比利时的广播公司VRT NWS。他们根据录音的内容猜出了其中几个说话者的身分,被辨认出来的人因此大为震惊。因为装置有时会错误判读启动声控的指令“OK, Google”,所有这些外流的音频大约有十分之一事先并未征得用户的同意。
(镜周刊)