不正确查看此页面?清除您的浏览器缓存!

ICT

2021年11月20日

数据和技术的性别偏见

撰稿人:斯蒂芬妮·米克尔森(Stephanie Mikkelson)

本文详细介绍了针对妇女和女童的技术实力直接危害(在线GBV)和间接危害(算法偏见,数据偏见,数据安全,性别盲技术)。这是一篇有关的后续文章在仪表板下检查:数据技术中的性别偏见

直接伤害 /基于性别的暴力(GBV) /对妇女的暴力行为(VAW)

对妇女和女孩的直接伤害包括故意暴力,例如:在线骚扰,仇恨言论,跟踪,威胁,模仿,黑客攻击,基于图像的虐待,障碍,障碍,人口贩运,虚假信息和诽谤,吹动,宣传,Astroturfing,Astroturfing,与IoT相关的骚扰以及与IoT相关的骚扰以及与IoT相关的骚扰以及虚拟现实骚扰和虐待。这些类型的暴力可以轻松归类为GBV/ VAW,技术实力的GBV/vaw,或在线GBV/ vaw,因为行为背后的意图是明确的,要伤害个人或群体。在这些主题上有一个小但不断增长的工作。

一段时间以来,一直专注于此类技术的直接伤害的团体是APC和记者,尽管这项工作在历史上并不是要专注于女性,但对妇女的靶向很普遍,因此女记者联盟最近反对在线暴力。儿童保护社区也有很强的存在,因为它与儿童有关。传统的GBV社区由于技术实用的GBV是由男性和女性之间的权力不平衡问题引起的,因此也开始接受此类主题。

其中包括一系列技术上的直接危害清单,这些危害汇集了来自世界各地的消息来源,包括个人讨论,在线活动和多次会议。此列表并不意味着详尽无遗,而仅仅是为了共享信息。

间接伤害/ GBV/ VAW

如今,大多数技术(尤其是数字技术)的创建方式正在扩大性别不平等并歧视妇女和女孩。尽管防止妇女获得工作,资金,公共服务和信息,几乎完全忽略了滥用数据和技术的间接伤害。

Here we are talking about algorithmic bias (i.e. coded bias in artificial intelligence and machine learning), data bias (i.e. missing or mislabeled datasets), data security (i.e. sharing identifiable information), and other gender-blind tech that isn’t incorporating the voices of women and girls (e.g. bots, car crash dummies, and human resources software perpetuating harmful gender norms). Let’s dive a little deeper into these indirect harm by breaking down the different elements and terminology.

算法偏见 -

算法本身没有偏见,但它们是由人类撰写的,有意识偏见。每项数字技术都是用算法构建的。一个算法基本上是一组指令,告诉计算机做什么。算法是由程序员或编码器编写的。举一个简化的示例,如果编写算法是为了根据我们的世界人口及其指示(又称代码)所说的“所有数据”来做出决定,但是计算机和程序员都不认识到其“所有”数据集实际上是由90%的男性组成的,只有10%的女性,那么显然女性没有按比例代表。如果我们的社会是90%的男性,这将不是问题,但是由于我们的世界人口大约是50%的男性和50%的女性,因此该算法现在错误地将男性数据放大到几乎整个人口,无意中使女性成比例地非常小,并且非常小,并且他们的关注实际上是看不见的。如果不明显,这对女性来说是一个巨大的问题。

让我们考虑一下如果该算法或类似的东西被用来雇用新员工(例如,亚马逊),选择贷款的人(例如苹果卡),提供公共服务,甚至只是为了向一半人口提供基本信息(例如Google搜索引擎)。这意味着我们现在正在雇用更多的人,向男性提供更多的贷款和公共服务,并且从男性的角度提供所有基本信息。90%的男性和10%女性的例子是一个极端和简化的例子,用于清晰地描绘出算法如何仅捕获它被告知要看的内容,并且真的很重要

亚马逊和苹果工资是对女性算法偏见的最新实际例子。亚马逊建立了一种机器学习工具,该工具仅在被拉动之前识别出男性候选人。苹果卡正在接受调查,因为根据其算法给男性提供了比男性更高的信用额度,他们无法向客户解释为什么。研究还表明,目前使用的语言模型谷歌搜索引擎也存在性别偏见,使有害性别刻板印象永存。这些公司正在寻找并找到上述问题的补救措施,但是它们的存在恳求对问题进行更多的审查和整体方法。

在这里,我们提供了有关算法的更多定义。我们有机器学习(ML)是为了自动化数据分析而构建的算法。ML算法在特定数据集上进行培训;或换句话说,用培训手册教书(人类)教的东西。ML非常普遍,当您想快速分组或分类大量数据时,非常有用。然后,当构建ML算法以找到自己的培训数据集时,可以将ML带到另一个级别。换句话说,写自己的手册并自学。这种ML称为“无监督学习”。

更高级的ML子集包括深度学习(DL)和不同神经网络(nn)。人工智能(AI)是当前涵盖我们所描述的所有内容(ML,DL,NN)等的广泛且流体的术语,但随着计算变得更加先进,它将继续改变。AI被定义作为“制造计算机的[流程和力学)以行为的行为,直到最近,我们认为需要人类的智力”。根据这个定义,AI的示例只会继续扩展,但目前与ML互换。

当今ML和AI中一些最大的问题包括黑匣子问题,概念漂移和过度拟合。这黑匣子问题可以是两件事的组合,一件事可能是根本无法访问原始算法(例如知识产权),或者,这也可能是关于该算法变得如此复杂以至于甚至创作者也无法再解释决策过程。In order for us to understand if there is algorithmic bias, whether or not it has the right proportion of male to female or if it’s original vision of the world population is skewed to favor men, we would need to review the original algorithm, original training dataset, as well as any changes it may have taken in the “learning” process. Knowing why an algorithm is making certain decisions can be difficult with unsupervised ML algorithms. Another concern to keep in mind, with ML when being used to predict future events or trends, is概念漂移,当变量(即围绕您要预测的内容)以无法预见的方式转移时,这会导致预测随着时间的流逝而变得不准确。最后,另一个问题,特别是与性别偏见有关的问题是过度拟合。这是对特定类型的数据(例如雄性)进行了太多训练的算法的时候,它在识别新数据(例如女性)的轻微差异时很难产生与原始数据(例如男性)相同的输出。应当指出的是,过度拟合是可固定的,但是确实需要大量的手动工作才能使某人对算法进行具体差异。可能被认为超过成本的工作。

数据偏见 -

数据偏见有多种形状和大小,模拟和数字。数据偏见并不是什么新鲜事物,当我们谈论ML时,这只是一个更大的问题。一个看似很小的偏见变得更加重要,并且难以检测算法或模型运行的时间越长。例如,假设我们有一个基本数据集来培训我们的工作模型。在这个数据集中,所有男性都是医生,工程师和建筑工人,所有妇女都是护士,秘书和老师。This isn’t a problem in itself, since men can be doctors, engineers, and construction workers and women can be nurses, secretaries, and teachers, but since we’re talking about a computer and not a human, the computer will not be able to detect that women can be engineers unless we show it with data.

现在,假设该原始模型是在一家大型公司中用于寻找工作的新候选人的。一个employee would search for engineering candidates and results would come up all men and one may think this is strange, but one could also think, “well, everyone knows that there aren’t a lot of women engineers, so I guess this makes sense that it’s all men… must be that pipeline problem” and move on to their next task. This of course is not because there are no women engineers, but because the algorithm was only able to identify men as engineers. This is a problem that would then reinforce gender stereotypes from the backend, meaning that it would be extremely difficult, if not impossible, to detect this problem as an average front end dashboard user.

这是一个基于挖掘AI要清楚地描绘出该问题,但是数据偏差会影响结果的许多不同的方式。数据偏见中最紧迫的问题是妇女和女孩的总体缺席正确表示,特别是在培训数据集中。如果它们在数据集中未正确表示,那么似乎根本不存在这些问题。

研究中数据偏见的三个主要类别是选择偏见(计划),信息偏见(数据收集)和混淆偏见(分析)。在我们的情况下,认知偏见可以削减所有数据偏见。数据中的性别偏见的结果是解决方案或证据,这些解决方案或证据要么在最坏的情况下以微小影响,充其量或全球增强性别刻板印象。世界比以往任何时候都更加了解数据偏见,因为我们了解到我们的世界数字化越多,主义就会被指数地编码到我们的生活中。考虑一下技术的发展速度以及如何在每个工作领域中削减的方式。数据和技术是性别歧视或平等未来的关键人物。

数据安全 -

我们将研究GBV镜头的数据安全性 - 这主要是关于技术解决方案,这些解决方案尚未承担与之相关的全部风险收集分享考虑到个人数据。这适用于大多数性别平等项目,因为即使质疑性别规范或赋予妇女权能(或质疑)通常都是敏感和政治性的。与GBV的幸存者合作时,这是更真实的。

新演员进入性别平等或GBV领域时,新演员的第一个可以理解的冲动是按位置找出流行数据,但这可能是危险的。我们都想知道这些信息,但是经常被忽略的是性别平等和GBV数据很复杂,不能与其他类型的数据相同。GBV事件数据尤其如此,但遵循代理指标(即使与性别平等指标不同,这是非常相似的)。在任何给定地区共享学校或学生的人数可能不会有问题,但是GBV幸存者的名称和地点或感知到妇女的赋权活动家与错误的人或团体共享,因此结果可能会因暴力增加甚至死亡而反弹。

在处理性别平等数据时,整个过程都需要来自一个理解的地方三分之一的女人一生中遭受了身体或性暴力,大多数对妇女的暴力行为都被一个亲密伴侣。这意味着,仅提出有关性别平等或GBV的问题,可能会使三分之一的妇女处于危险之中。因此,如果收益大于风险,则应仔细检查所有性别平等项目。

充分评估性别平等和GBV项目数据收集的风险对于妇女的安全至关重要。

正如专门处理GBV事件数据时的几个附加注意事项一样,也必须认识到GBV数据被大量报告,因此使用数据的任何人都必须了解ML工具中的局限性和可能的​​算法偏差。此外,在没有适当的GBV响应服务的情况下收集此类信息是在道德上值得怀疑

性别盲技术 -

性别盲形技术是创建的任何技术解决方案,而无需分析产品如何对男性和女性的影响如何。这意味着不仅要考虑产品是否或多或少对不同的性别有害,而且还要考虑它是否或多或少有用。不考虑性别的后果可能会有很大差异。最好的情况是,该技术对男性和女性的负面和积极的结果将相同,但最糟糕的情况只能对男性产生积极的结果,而对女性的结果只有负面结果。这确实适用于任何技术产品,是否数字。本文中给出的许多示例都是性别盲技术,如果我们从一开始就考虑性别,则可能避免或最小化。

尽管我们不能客观地说,除非创作者明确承认他们没有进行性别影响分析,否则任何技术都是真正的性别盲文,我们可以根据我们拥有的信息做出假设。

让我们以Siri为例。Siri是一家女性声音机器人或虚拟助手,旨在帮助其数百万人的日常用户提供信息。当用户说“嘿Siri,您是Bi ***”或其他原油性命令回应是一种轻率的“如果可以的话,我会脸红”。这不是性别盲技术的证明,但显然是一个更大问题的指标。当我们仔细观察Siri,Alexa和Google Home的内部工作时,我们会发现它们都使用ML并与自然语言处理(NLP),使用大语言模型(lm)通常包括性别刻板印象单词嵌入(例如,男人是对计算机程序员,因为女人是家庭主妇)。这意味着,除了Siri对言语性骚扰的轻蔑反应外,Siri还编程为以性别有偏见的反应做出反应。

尽管据称创建这些机器人的公司正在从事偏见,但我认为可以肯定地说没有彻底的性别影响评估,而Siri绝对是性别盲目的技术类别。

除非我们故意分析并包括各种妇女和女童的声音,否则技术将继续由“并为“默认人”。


关于作者

斯蒂芬妮·米克尔森(Stephanie Mikkelson)是一名开发从业人员和全球研究人员,专注于大型INGO和联合国机构的负责任性别数据和数字解决方案。

本文最初是在媒介上发表的,并经许可在此处复制。请参阅原始文章和其他文章斯蒂芬妮·米克尔森(Stephanie Mikkelson)

标签:性别数字鸿沟,,,,性别平等,,,,ICT访问

斯蒂芬妮·米克尔森(Stephanie Mikkelson)

发表评论

登入评论。

    由工程师。
    为了所有人。

    E4C会员资格是一种精心策划的体验!当您成为会员时,我们将根据您随着时间的推移与我们的内容互动的方式为您量身定制独特的用户资料。您的行动和偏好将使我们能够为您服务与您最相关的内容。此外,成为E4C成员还可以授予您获得独家参与机会和E4C新闻通讯。

    加入E4C并成为全球社区的一部分,该社区认为工程可以改变世界!

    成为会员