近年来,随着问答技术和多模态理解技术的蓬勃发展,视觉问答任务(Visual Question Answering)变得越来越受关注。诸如 VQA、CLEVER、Visual-7W 等大规模视觉问答数据集陆续发布,极大地推动了视觉问答任务的迭代发展。然而,当前大部分视觉问答数据都是人工合成问题,如 “她的眼睛是什么颜色” 这种标注者在看到ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的图片问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集后虚构设计出的。人工产生的数据会相对简单、低质甚至有偏。因此,在这项工作中,我们基于 QQ 浏览器中用户真实的问题,提出了一个基于中文的大规模ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的图片问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集:ChiQA。
ChiQA 包含有超过 4 万个真实用户 query 和超过 20 万个问题 - 图像对。数据和一些 baseline 模型已经公布在GitHub。相关研究已经被 CIKM2022 长文录用。
论文地址:https://arxiv.org/abs/2208.03030
Github地址:https://github.com/benywon/ChiQA
问答系统(Question Answering) 是人工智能和智能语言处理中非常重要的任务之一。近年来,随着大规模数据集(如 SQuAD、NaturalQuestions)的发布以及大规模预训练语言模型(如 BERT、GPT)的提出,问答任务得到了飞速的发展。然而,当前大部分问答任务都是单模态的,即问题、资源以及答案都是基于文本的。然而,从认知智能以及实际应用的角度来说,多模态资源如图像在很多时候往往能提供更为丰富的信息和答案。例如,对于一个问题:iPhone13 的尺寸是多少?一个针对 iPhone13 不同型号的尺寸对比图会更加清楚和直观。还有一些例子如下图所示:
图一:一些适合用ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的图片问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集回答用户问题的例子
最近几年,针对多模态理解的问答数据和任务被相继提出。如 VQA1.0 和 2.0、CLEVR、GQA 等等。在大部分图像问答数据集中,系统提供一些人工生成或者真实的图像给标注者,标注者需要人工写出一些针对特定属性或者实体的问题。然而,这种数据收集过程不可避免的有很多缺陷:
1)所有的问题都是图像相关的(image-dependent),即标注者看到ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的图片问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集之后提出问题。在大规模数据构建过程中,人工生成的问题往往会缺乏多样性,而且往往由于标注者的主观因素会产生偏置。在这种先看资源,再提问的数据上训练的模型往往可以不用看背景资源只看问题而轻易达到非常好的效果;
2)其次,在传统的 VQA 数据中,答案往往是一个简单的实体、关系或者简单对特定区域的描述。然而对于实际的图像问答任务中,很多文本性答案是不必要的,例如对于问题:“羊驼长什么样”,提供一个冗长的答案描述羊驼的外表显得非常冗余。其次,这种简短的实体描述往往会让标注者只关注到局部关系,而很少注意真正整体结构上的一些信息;
3)最后,大部分之前的资源往往是专注于英文,在中文领域的图像问答数据很少。
在这个工作中,针对以上几个问题,我们提出了一个大规模的中文图像问答数据集 - ChiQA(Chinese Image Question Answering)。我们通过手机QQ 浏览器中用户真实的搜索词出发,通过特定API 检索到相关的若干张ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的图片问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集,然后将ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的图片问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集交由经过专业培训的标注人员进行三级标注,以表示该ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的图片问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集是否能完美回答( 2 分)、部分回答(1 分)以及不能回答(0 分)用户的问题。对于 ChiQA 来说,有三个显着的特点:
图二:ChiQA 和业界其他一些图像问答数据的对比
最终我们收集了超过40000 个问题,每个问题都有大约5 个相关的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的图片问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集,即总量超过20 万的问题- ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的图片问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集对。每个问题都有若干张ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的图片问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集,我们对每个ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的图片问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集以2-1-0进行三挡打分。
一些ChiQA 中的例子如下图所示:
图三:ChiQA 中一些样本的示例。
整个数据的收集过程可以分为四步,整体流程图如下:
图四:数据收集过程
对于ChiQA 来说,其一大特色是所有的问题都来源于用户真实的查询。然而,如果我们随机从搜索引擎用户的搜索日志中采样用户的查询,那么大部分查询都是没有问答意图的。
因此我们首先需要过滤出有问答意图的 query。在这个工作中,我们采用了一种内部构造的弱监督方法训练了一个二分类器,来判定一个 query 是不是有问答意图。人工评测这个意图模型能够达到 90% 的精度以及 80% 的召回。我们通过这个模型对用户的 query 进行采样,得到了大约 7.5 万个经过模型判定具有问答意图的用户 query 进入下一轮。
得到了问题之后,我们将这些问题发送给谷歌提供的开放 API(Google Images API - SerpApi)进行相关图像检索。谷歌 API 对每个 query 会返回最相关的 100 个图像。为了保证最后数据的质量,我们去掉了那些长度或者宽度小于 200 像素的 query以及那些过长或者过宽的图像。
得到了原始图像之后,我们取经过过滤后的前 5 个ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的图片问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集,并让标注人员标注这个 query 和对应的 5 个ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的图片问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集。我们内部专门为本任务设计了一个标注界面,如下图所示。
图五:ChiQA 的标注界面
在标注过程中,我们让标注人员标注三个方面:
1) 问题标注
由于本工作主要着眼于ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的图片问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答,而事实上在普通的用户问题中很多都和ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的图片问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答无关(或者很难用ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的图片问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集来回答)。因此我们首先让标注人员标注这个问题是不是可以算作一个ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的图片问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答的问题。例如:
如果一个问题是“xxx 和 xxx 的差别”,那么这个问题就会被认为是一个具有图像问答意图的问题;
如果一个问题是模糊的、具有歧义的或者包含有没有事实根据推论的观点,那么这个问题就会被归类于无图像问答意图,并且不会参与到后续ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的图片问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集标注的过程中。
一些 query 标注的例子如图 6 所示:
图 6:query 标注的示例
2) ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的图片问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集标注
对于上一步中有效的 query,我们对其 5 个候选 query 进行标注。标注的标准是三级 0-1-2 标注,其中:
0 分表示这个ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的图片问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集完全不能用来回答这个问题,2 分表示这个ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的图片问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集质量过关并且可以完全独立的回答这个问题。而 1 分的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的图片问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集则介于这两者之间,表示这个ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的图片问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集和这个 query 相关,但是却无法直接回答,用户可能需要更多的查询或者推理才能得到最终的答案。一些 0 分、1 分、2 分的例子如下图所示:
图七:对于问题“如何使用不同介词”,ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的图片问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集标注打分的示例
3) 质量控制
我们在整个标注过程中采用了严格的质量控制方案。具体来说,我们首先会邀请 3 个质量团队进行试标注,选择标注质量最好的那个团队来标注余下所有的数据。其次,在标注过程中,我们会将标注数据分批,每一批次的数据我们会采样其中五分之一的数据进行人工校验,如果数据的合格率小于 90%,那么这一批次的数据将会被打回重新进行标注,直到数据精度达到 90%。
经过数据收集的工作,我们发现如果随机对数据进行采样和标注,那么数据中往往会存在一些简单的模式,这种简单的模式大量存在于数据中可能会对最终的模型造成偏置影响。因此,我们设计了一个主动学习的标注过程。具体来说,我们首先将让标注人员标注一批数据,这一批数据标注完成之后,我们就用这一批数据训练一个跨膜态的文本图像匹配模型。模型训练完毕之后,我们开始用这个模型来 “选择” 新的样本:如果模型对这个新的样本预测非常不确定(即最后分类预测的熵特别大),那么我们认为这个样本相对模型较难,因此有较大概率保留到下一轮中间,反之说明模型对这个数据已经很置信了,那么这个模型以较小的概率保留到下一轮中。
我们发现主动学习数据选择过程确实使数据集更无偏。我们发现第一阶段的标记数据包含一些难以察觉的偏置。例如,包含 “的技巧” 字的问题标记为有效问题,但几乎所有相应的图像被标记为无法回答(即 0 分),因此模型很可能不看ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的图片问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集直接根据 query 中的问题就预测出最终的结果。而这种主动学习的过程降低了这种可能性,这种高置信度且有偏的窍门(shortcut)在下一轮中很难被选择上,从而降低了这种模式的影响面。
我们随机从标注数据中筛选出来 2500 条数据,并且让不同的标注者重新标注。如果标注的结果和之前的结果一样,则这个数据被保留为测试集,要是不一样,我们让一个对任务非常了解的“专家”重新标注这个数据,最终得到了 2362 条测试数据以及超过 4 万条训练数据。训练集和测试集的统计信息如下图所示:
图八:ChiQA 中训练集和测试集的统计信息
在标注完数据之后,我们对 ChiQA 中的数据进行统计和分析。
1)query 常用词分析:
我们用结巴分词对 query 进行切分,并且将 query 中的词按照频率展示在下面的云图上:
可以看到 ChiQA 中最常见的 query 是区别、图解、位置等。这和我们的直觉一样,因为这些词确实是很适合ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的图片问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集来回答的问题。
2)领域分析
我们使用内部的一个领域分类的分类器来对所有的 query 进行分类,最终的结果如下图所示:
可以看到我们的数据包含有很多种领域的数据,并且没有某一种领域的数据是占绝对多数的。这保证了我们的数据分布是均匀的。其次,我们对问题里面的疑问词也进行统计,结果如下图所示:
可以看到 ChiQA 中 what 类和 how to 类问题占了大多数,而其他的一些问题也有相当大的比例。
3)图像分析
除了问题之外,我们也对 ChiQA 中的图像进行了分析。由于图像大部分是语言无关的,因此我们采用了一个在业界公认性能比较优良的目标检测模型 DETR 来挖掘出图像中的实体。DETR 可以将图像中的实体映射到标准 MS-COCO 定义的实体中,如 “人物”、“狗” 等。我们对 ChiQA 中的每个图像挖掘出实体,并将最高频次的实体分布展示在下图中:
可以看到在 ChiQA 中有超过 30 个实体出现了至少 1000 次,这显示出 ChiQA 是一个分布非常均匀并且覆盖了大部分领域的图像数据,其中出现次数最多的实体是 “人物”、“手机”、“汽车” 等。这个和问题的分布类似。
4)推理技能
为了更好地分析数据,我们还对 ChiQA 数据中所需要的推理技能进行了分析。着重分析了 5 中需要推理的技能:
我们随机采样了 200 条数 ChiQA 据并且根据上述 5 个标准进行标注,其中某些数据可能需要不止一种推理技能。其结果如下图所示。
可以看到除了 Grouding 之外,超过 80% 的 ChiQA 数据需要深度理解ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的图片问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集中的文字和对比关系。这和之前大部分的 VQA 数据很不一样。其次,有相当多的问题需要逻辑和对比,说明 ChiQA 中的数据具有相当的难度。我们认为对 ChiQA 中推理技能的分析可以帮助我们更好地理解这个数据,并且为后续的模型设计提供一些先验的指导。
在 ChiQA 数据集中,标注打分有三挡:0,1,2,所以在实验中我们测试模型排序的指标和普通分类的指标。分为三类:
基线模型
我们在 ChiQA 数据集上实验了多个常用的模型。仿照之前ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的图片问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集 - 文本匹配的工作,我们先把ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的图片问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集和文本分别用编码器进行编码,然后将它们的表示进行跨模态融合,最后用一个预测层来获取匹配得分。在下面所列模型中,加♣代表模型经过了预训练,加♦则表示没有。
以下是结果显示:
上述模型在测试集上的指标如图所示。我们可以看到,直接应用之前最先进的跨模态方法的效果很差,指标仅比随机打分模型好一点。这意味着 ChiQA 数据较难,仅使用大规模的弱监督对比学习的模型,如 ALBEF*、Wenlan,可能无法区分视觉问答所需的细粒度信息。此外,这些模型的糟糕表现说明,ChiQA 数据集不同于之前弱监督的图像 - 文本匹配数据,因为弱监督的图像 - 文本匹配侧重于相关性,而 ChiQA 数据同时要求ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的图片问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集的可回答性。
最后,在 ChiQA 上微调的模型在基线上取得了很大的进步,但与人类的表现仍然相差较远,所以模型在 ChiQA 数据集还有很大的提升空间。
随着互联网的发展,用户对问答的需求更高,需要系统提供更为直观、便捷的答案。特别是最近几年,多媒体内容愈加的丰富,以ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的图片问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集、视频为载体的问答内容越来越多的出现在公众面前。QQ 浏览器实验室立知团队在今年 4 月份率先在业界推出ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的图片问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答项目,如用户搜猕猴桃和奇异果的区别,结果会以ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的图片问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集的形式直观的展现在用户面前。如下图所示:
当前这种可以直接由ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的图片问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集满足的问题上线后取得了良好的效果。我们观察到其用户行为(如 CTR、换词率等)相较于传统的结果有着明显的改善,说明当前以ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的ChiQA-一个基于20万个真实用户问题的图片问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集问答数据集等为载体的 “新问答” 是一个更能满足用户需求的产品业务。
作者团队介绍
QQ 浏览器搜索技术中心团队是腾讯 PCG 信息平台与服务线负责搜索技术研发的团队,依托腾讯内容生态,通过用户研究驱动产品创新,为用户提供图文、资讯、小说、长短视频、服务等多方位的信息需求满足。在算法方面,以自然语言处理、深度学习、多模态理解与生成、知识计算与应用等技术为基础,建设内容理解、相关性和排序、多模态搜索、智能问答、多语言翻译、搜索推荐等技术方向,探索和应用业界先进技术、打造更优秀的用户搜索体验;在工程方面,建设搜索技术中台工业化系统,打磨高性能、高可用、低成本的百亿级检索系统,为腾讯 PCG 各个内容业务的搜索场景提供基础的搜索引擎服务,当前已支持 QQ 浏览器、腾讯视频、腾讯新闻、腾讯微视等 PCG 多条产品线。
以上是ChiQA-一个基于20万个真实用户问题的图片问答数据集的详细内容。更多信息请关注PHP中文网其他相关文章!