自定义RAG评估数据流

创业
2025-09-05 18:48:02

这是前置工作

向量数据构建完成

开始进行处理

因为我们要对上面构建的数据集添加一些内容，比如检索出来的数据，评分指标等，所以我们把他封装在一个自定义item类中进行操作，然后把item放进自己构建的dataset类中

ef get_dataset(config): """从配置加载数据集。""" # 从配置中获取数据集的路径，这个是我们数据集的路径 dataset_path = config['dataset_path'] # 获取要加载的数据集的分割名称，如'train'、'test'等 all_split = config['split'] # 创建一个字典，用于存储每个分割的数据集对象 split_dict = {split: None for split in all_split} # 遍历每个分割 for split in all_split: # 构建该分割对应的文件路径，这个步骤就是组成完整的文件路径 split_path = os.path.join(dataset_path, f'{split}.jsonl') # 检查文件是否存在 if not os.path.exists(split_path): print(f"{split} file not exists!") # 如果文件不存在，打印提示信息 continue # 如果分割是'test', 'val', 'dev'之一，初始化Dataset类的实例 if split in ['test', 'val', 'dev']: split_dict[split] = Dataset(config, split_path, sample_num=config['test_sample_num'], random_sample=config['random_sample']) else: # 对于其它分割，直接初始化Dataset类的实例 split_dict[split] = Dataset(config, split_path) # 返回包含所有分割数据集的字典 return split_dict

加载数据

如果没有传递data,那么根据路径进行加载，一行一样的进行读取，最后data列表中是一个个的item对象

此时我们已经拿到所有的数据

all_split是个字典，通过key可以拿到dataset对象，并且在方法上加了@property注解，可以通过书想的方式调用方法

然后构建提示模版，根据传递的模型类型判断是生成chat类还是instruct类的提示模版

然后运行pipeline

pipeline里面获取检索器，生成器

获取生成器实例

获取检索器

检索器分为两种，这里我们使用的是密集的

encoder 是用来将query转换为向量的

然后执行run方法