你知道什么是AI的数据设计吗
作者:优漫动游设计部 2023-08-08 15:57 查看: 84

  在人工智能领域,数据是推动AI技术发展的基础。而AI模型的性能和公平性取决于数据的质量和代表性。因此,在设计AI模型时,数据设计是至关重要的一环。它涉及到各种问题,例如如何选择数据、如何标注数据、如何收集数据以及如何评估数据的质量。


你知道什么是AI的数据设计吗


  在人工智能应用程序的开发过程中,设计数据是开发AI模型的第一步。这个过程通常是一个迭代的过程,需要使用试验数据来开发初始的AI模型,并通过收集额外数据来修补模型的局限性。关键标准是确保数据适用于任务,并且覆盖足够的范围来代表模型可能遇到的不同我们和场景。

  然而,目前用于开发AI的数据集通常覆盖范围有限或者具有偏差。这会对AI模型的性能产生负面影响,因为不同人群和场景的数据缺乏代表性。为了提高数据覆盖率,让更广泛的社区参与数据的创建是一种方法。目前最大的公共数据集CommonVoice项目就是一个例子,该项目包含了来自166,000多名参与者的76种语言的11,192小时语音转录。

  当现实世界中的代表性数据难以获得时,合成数据可以被用来填补覆盖空白。例如,在医疗保健领域,可以共享合成医疗记录来促进知识发现,而无需披露实际的患者信息。在机器人技术中,真实世界的挑战是终极的测试平台,也可以用高保真模拟环境来让智能体在复杂和长期任务中实现更快、更安全的学习。

  然而,合成数据也存在一些问题。由于合成数据与现实数据之间总是存在差距,因此将基于合成数据训练的AI模型转移到现实世界时通常会出现性能下降。如果模拟器的设计不考虑少数群体,那么合成数据也会加剧数据差异。因此,在标准化和透明的报告中记录数据设计地上下文就非常重要。

  为了更好地理解数据的质量和相关信息,研究人员已经开始创建各种「数据营养标签」(datanutritionlabels)来捕获有关数据设计和注释过程的元数据(metadata)。这些元数据包括数据集中参与者的性别、年龄、种族和地理位置的统计数据,这有助于发现是否有代表性不足的亚群未被覆盖。数据来源也是一种元数据,它跟踪数据的来源和时间以及产生数据的过程和方法。

  元数据可以保存在一个专门的数据设计文档里,数据文档对于观察数据的生命周期和社会技术背景来说非常重要。文档可以上传到稳定且集中的数据存储库(例如Zenodo)中。这些元数据标签和文档可以帮助研究人员、政策制定者和公众更好地理解数据,以及评估AI模型的性能和公平性。

  在未来,随着技术和数据资源的不断发展,我们相信数据设计的过程会越来越透明和标准化。这将有助于确保数据的质量和代表性,并为开发高效、高效、平等的AI模型提供坚实的基础。

  广州UI设计培训,系统学习,融会贯通,直奔主流技术,节省时间,老师督促指导,学习效率高,随堂练习,及时解决问题,企业IT大牛指导实战落地项目,与企业需求无缝连接,签订就业协议,诸多合作名企,4个月后直接走向工作岗位,避免工作后的水土不服。高薪名企有增加!了解详情请登陆广州UI设计培训官网
预约申请试听课
填写下面表单即可预约申请试听!怕钱不够?可就业挣钱后再付学费! 怕学不会?助教全程陪读,随时解惑! 担心就业?一地学习,可全国推荐就业!
IT培训问答
开班时间

微信客服