2.4自动化评测答疑机器人的表现-大模型ACP模拟题-真题
- 创业
- 2025-09-21 07:12:01

真题 真题1:哪些是生成阶段的评估指标?哪些是召回阶段的评估指标? 整体回答质量的评估: Answer Correctness,用于评估 RAG 应用生成答案的准确度。 生成环节的评估: Answer Relevancy,用于评估 RAG 应用生成的答案是否与问题相关。Faithfulness,用于评估 RAG 应用生成的答案和检索到的参考资料的事实一致性。 召回阶段的评估: Context Precision,用于评估 contexts 中与准确答案相关的条目是否排名靠前、占比高(信噪比)。Context Recall,用于评估有多少相关参考资料被检索到,越高的得分意味着更少的相关参考资料被遗漏。 单选题 Answer Correctness 指标综合了以下哪两个维度的评估? A. 语义相似度和生成速度 B. 事实准确度和上下文相关性 C. 语义相似度和事实准确度 D. 上下文召回率和生成流畅度 答案:CFaithfulness 指标主要评估生成答案的哪一特性? A. 与问题的相关性 B. 与检索资料的事实一致性 C. 生成文本的语法正确性 D. 答案的简洁性 答案:BContext Recall 的核心目标是? A. 提高检索文本的排名 B. 确保所有相关参考资料被检索到 C. 优化生成答案的语义相似度 D. 减少生成答案的冗余信息 答案:B以下哪项措施最可能提升 Context Recall? A. 调整生成模型的温度参数 B. 补充知识库中缺失的相关内容 C. 对生成答案进行人工校验 D. 使用更短的查询语句 答案:B若 Context Precision 得分低,以下哪种方法最有效? A. 增加检索的文本段数量 B. 引入重排序(Rerank)机制 C. 降低生成模型的温度参数 D. 扩充知识库的无关内容 答案:BAnswer Relevancy 指标关注的是生成答案的哪方面? A. 与问题的相关性 B. 与检索资料的一致性 C. 生成文本的长度 D. 答案的多样性 答案:A在 Ragas 中,事实准确度的计算依赖于什么方法? A. 直接比较文本字符串 B. 通过大模型生成观点列表并对比 C. 计算文本的词频相似度 D. 使用预定义的规则模板 答案:B若 Answer Correctness 低但 Context Recall 高,可能的问题出现在? A. 检索阶段 B. 生成阶段 C. 知识库内容不足 D. 查询改写失败 答案:B语义相似度的计算通常使用以下哪种方法? A. 欧氏距离 B. 余弦相似度 C. 曼哈顿距离 D. Jaccard 相似度 答案:B以下哪项是召回阶段的评估指标? A. Answer Relevancy B. Context Precision C. Faithfulness D. Answer Correctness 答案:B
多选题 生成阶段的评估指标包括哪些?(多选) A. Answer Relevancy B. Faithfulness C. Context Precision D. Context Recall 答案:A, B召回阶段的评估指标包括哪些?(多选) A. Context Precision B. Context Recall C. Answer Correctness D. Faithfulness 答案:A, B以下哪些方法可能提升 Context Recall?(多选) A. 补充知识库内容 B. 更换更优的 Embedding 模型 C. 对查询进行改写 D. 增加重排序机制 答案:A, B, C影响 Answer Correctness 的因素包括哪些?(多选) A. 语义相似度 B. 事实准确度 C. 检索文本的排名 D. 知识库的完备性 答案:A, B若 Context Precision 低,可能采取的措施有哪些?(多选) A. 引入重排序模型 B. 优化查询语句 C. 增加生成答案的长度 D. 更换 Embedding 模型 答案:A, B, DFaithfulness 指标的评估需要对比哪些内容?(多选) A. 生成答案与问题 B. 生成答案与检索资料 C. 生成答案与知识库 D. 生成答案与人工标注答案 答案:B, C以下哪些是 Ragas 的评估指标?(多选) A. Answer Relevancy B. Context Precision C. Generation Speed D. Context Recall 答案:A, B, D在优化 RAG 系统时,若 Answer Correctness 低但 Context Recall 高,可能需要?(多选) A. 调整生成模型的 Prompt B. 降低生成模型的温度参数 C. 补充知识库内容 D. 更换更强大的生成模型 答案:A, B, D以下哪些技术可能用于提升 Context Precision?(多选) A. 查询改写 B. 重排序(Rerank) C. 增加检索文本数量 D. 优化 Embedding 模型 答案:A, B, DRagas 中的语义相似度计算可能涉及哪些步骤?(多选) A. 文本向量化 B. 余弦相似度计算 C. 观点列表生成 D. 事实准确度对比 答案:A, B 原文链接
aliyun_acp_learning/大模型ACP认证教程/p2_构造大模型问答系统/2_4_自动化评测答疑机器人的表现.ipynb at main · AlibabaCloudDocs/aliyun_acp_learning · GitHub
2.4自动化评测答疑机器人的表现-大模型ACP模拟题-真题由讯客互联创业栏目发布,感谢您对讯客互联的认可,以及对我们原创作品以及文章的青睐,非常欢迎各位朋友分享到个人网站或者朋友圈,但转载请说明文章出处“2.4自动化评测答疑机器人的表现-大模型ACP模拟题-真题”