主页 > 创业  > 

自定义RAG评估数据流

自定义RAG评估数据流

 这是前置工作

向量数据构建完成 

开始进行处理

因为我们要对上面构建的数据集添加一些内容,比如检索出来的数据,评分指标等,所以我们把他封装在一个自定义item类中进行操作,然后把item放进自己构建的dataset类中

ef get_dataset(config): """从配置加载数据集。""" # 从配置中获取数据集的路径,这个是我们数据集的路径 dataset_path = config['dataset_path'] # 获取要加载的数据集的分割名称,如'train'、'test'等 all_split = config['split'] # 创建一个字典,用于存储每个分割的数据集对象 split_dict = {split: None for split in all_split} # 遍历每个分割 for split in all_split: # 构建该分割对应的文件路径,这个步骤就是组成完整的文件路径 split_path = os.path.join(dataset_path, f'{split}.jsonl') # 检查文件是否存在 if not os.path.exists(split_path): print(f"{split} file not exists!") # 如果文件不存在,打印提示信息 continue # 如果分割是'test', 'val', 'dev'之一,初始化Dataset类的实例 if split in ['test', 'val', 'dev']: split_dict[split] = Dataset(config, split_path, sample_num=config['test_sample_num'], random_sample=config['random_sample']) else: # 对于其它分割,直接初始化Dataset类的实例 split_dict[split] = Dataset(config, split_path) # 返回包含所有分割数据集的字典 return split_dict

 加载数据

如果没有传递data,那么根据路径进行加载,一行一样的进行读取 ,最后data列表中是一个个的item对象

 此时我们已经拿到所有的数据

all_split是个字典,通过key可以拿到dataset对象,并且在方法上加了@property注解,可以通过书想的方式调用方法 

 然后构建提示模版,根据传递的模型类型判断是生成chat类还是instruct类的提示模版

 然后运行pipeline

 pipeline里面获取检索器,生成器

 获取生成器实例

 

获取检索器

检索器分为两种,这里我们使用的是密集的

 encoder 是用来将query转换为向量的

 

 然后执行run方法

预测完之后,把预测完之后的值放入dataset中 

评估

评估就是拿到预测的值和金标准进行比较

评估的基类

这是子类方法写的一个评估的实例,首先肯定是拿到 生成的答案和金标准答案,然后通过自己写的计算方式进行评估

 f1计算得分的细节,把单词切分为token然后计算交集,或者进行正则

 最终生成的数据

 

re-ranking 

标签:

自定义RAG评估数据流由讯客互联创业栏目发布,感谢您对讯客互联的认可,以及对我们原创作品以及文章的青睐,非常欢迎各位朋友分享到个人网站或者朋友圈,但转载请说明文章出处“自定义RAG评估数据流