【原创】尽量使用标准 json 格式替换 jsonl 以避免 datasets 包引入数据时处理报错

文章目录

  • 问题发现
  • 问题解决
  • 问题回看

问题发现

使用 LLaMA-Factory 以 ORPO 方式训练模型,数据集习惯性按照 jsonl 的格式组织。
突然在读取数据阶段报错,且是很少见的 TypeError。对照官方模板没发现问题出在哪,又从内容层面做了初步排除,数据处理代码应该是正确的。一时陷入苦战,不得不深入到内部代码 debug。报错信息精简如下:

File "/home/xxx/miniforge3/envs/lf/lib/python3.11/site-packages/datasets/builder.py", line 2011, in _prepare_split_single
    writer.write_table(table)
    ...
  File "/home/xxx/miniforge3/envs/lf/lib/python3.11/site-packages/datasets/table.py", line 1957, in array_cast
    raise TypeError(f"Couldn't cast array of type\n{array.type}\nto\n{pa_type}")
TypeError: Couldn't cast array of type
list<item: string>
to
null

The above exception was the direct cause of the following exception:
...
    for job_id, done, content in self._prepare_split_single(
  File "/home/xxx/miniforge3/envs/lf/lib/python3.11/site-packages/datasets/builder.py", line 2038, in _prepare_split_single
    raise DatasetGenerationError("An error occurred while generating the dataset") from e
datasets.exceptions.DatasetGenerationError: An error occurred while generating the dataset

经排查核心报错代码的位置是

...arrow_writer.py", line 585, in write_table
pa_table = table_cast(pa_table, self._schema)

继续单步调试和检查关键变量,发现数据 chunk 的 schema 不正常:

self.schema
prompt: string
query: string
answer: list<item: string>
  child 0, item: string
history: list<item: null>
  child 0, item: null

我使用的是一组多轮对话数据,history 列根据对话轮数,应为空 list 或嵌套的 list of list of str,
对比正常处理的 chunk,schema 应为

self.schema
prompt: string
query: string
answer: list<item: string>
  child 0, item: string
history: list<item: string>
  child 0, item: string

又查看了上下文代码,schema 是由 chunk 内的数据推断而来,于是猜测可能是 arrow 库按照表格格式处理数据时没有覆盖某些特殊情况导致 schema 前后不一致报错。去搜 datasets 的仓库,果然发现有人遇到过同样问题:
https://github.com/huggingface/datasets/issues/6845

问题解决

本想看看能否做个 contributor 修复这个错误,但 debug 至此发现错误层数太深且精力能力有限,可能只有等官方自行修复了。
既然知道了错误原因,猜测是否是直接按表格形式读取产生的,一拍脑袋把数据改写成标准 json 内 list 的形式,即 lines of json -> json list,验证可以正常运行了。

问题回看

如果以上猜想正确,即在不指定 schema 而任由 writer 根据 chunk 数据自行推断时,有一定概率会因为 chunk 内数据类型一致但 chunk 外格式/类型不一致导致推断错误,进而归一化/cast 过程中报错。仅依靠 chunk 内推断大概是假定数据量巨大时仅采样足以处理格式正确的数据集,但显然如果数据量较大+分布有偏可能触发此类错误。
在相关函数入口指定 features 参数是一种解决办法,但简单看了下代码并不是那么直观,可能要写成一组配置并且在读入后进行标准类型映射。
作者没想到什么精妙的办法能快速解决这个问题,有没有神通广大的读者可以给些建议呢?

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/631979.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

超声波清洗机哪家好一点?四款超一流超声波清洗机大盘点

在追求极致清洁和维护精密工具、设备及珍贵物品的时代&#xff0c;超声波清洗机显得尤为重要。不仅因其高效、快速的清洁效果&#xff0c;更因其能够触及传统手工清洁所不能及的微小缝隙。无论你是珠宝设计师、机械工程师、还是热爱生活的普通家庭用户&#xff0c;超声波清洗机…

ValueError: Colors must be aRGB hex values

使用 openpyxla填充颜色时出现此错误

Python 机器学习 基础 之 监督学习 【分类器的不确定度估计】 的简单说明

Python 机器学习 基础 之 监督学习 【分类器的不确定度估计】 的简单说明 目录 Python 机器学习 基础 之 监督学习 【分类器的不确定度估计】 的简单说明 一、简单介绍 二、监督学习 算法 说明前的 数据集 说明 三、监督学习 之 分类器的不确定度估计 1、决策函数 2、预测…

怎么转换视频格式到mp4?格式转换,4种简单方法

转换视频格式到MP4可以使视频在各种设备上播放更加方便&#xff0c;而MP4格式的优势在于其高质量的视频和相对较小的文件大小。怎么转换视频格式到mp4&#xff1f;在本文中&#xff0c;我们将介绍四种简单有效的方法&#xff0c;帮助您快速将视频格式转换为MP4。 无论您是初学…

Linux内核的非确定行为消除

Linux内核作为一种广泛使用的开源操作系统内核&#xff0c;在多种硬件和设备上运行&#xff0c;提供了强大的功能和灵活的配置选项。然而&#xff0c;随着技术的发展和应用需求的增加&#xff0c;内核中出现的不确定行为也日益成为开发者和系统管理员关注的焦点。这些不确定行为…

Encryption Everywhere DV TLS CA - G1

Encryption Everywhere DV TLS CA - G1属于DigiCertCA机构发布&#xff0c;分为单域名SSL证书和通配符SSL证书两种为主&#xff0c;常见的是单域名SSL证书&#xff0c;到期后就需要重新申请。 单域名类型可以保护一个全域名&#xff0c;比如&#xff1a;一个子域名或者一个主域…

卖家必备:OZON、WB自养号测评详解从搭建到权重提升的全方位指导

俄罗斯跨境电商平台OZON、WB国内卖家入驻也日益渐多&#xff0c;很多卖家也都着手通过自养号测评方式打造产品权重&#xff0c;OZON、WB自养号测评具有多个优势&#xff0c;这些优势主要体现在以下几个方面&#xff1a; 权重提升快&#xff1a;通过自养号进行测评&#xff0c…

yolov8 模型架构轻量化 | 极致降参数量

模型轻量化加速是深度学习领域的重要研究方向&#xff0c;旨在减小模型的体积和计算复杂度&#xff0c;从而提高在资源受限设备上的运行效率&#xff0c;模型参数量在轻量化加速中扮演着至关重要的角色。 首先&#xff0c;模型参数量直接决定了模型的复杂度和存储空间需求。随…

Python数据分析与数据可视化 概念

考试题型&#xff1a; 一、填空题&#xff08;1分*10&#xff09; 二、程序代码填空&#xff08;1分*20&#xff09; 三、读程序写结果&#xff08;10分*4&#xff09; 四、程序设计&#xff08;10分*1&#xff09; 五、问答题&#xff08;20分*1&#xff09; 考试范围&#x…

【前段】开发五子棋小游戏全流程

使用前端技术开发五子棋小游戏 在这篇博文中&#xff0c;我们将详细介绍如何使用HTML、CSS和JavaScript开发一个简单的五子棋小游戏。我们将展示如何初始化棋盘、处理用户交互以及实现胜负判定。特别是&#xff0c;我们将着重介绍胜负判定的逻辑实现。 完整代码我放在了这里&a…

springBoot 如何让数据库读写分离

springBoot 数据库读写分离 数据库的读写分离,首先要把spring 中的自动加载的类排除掉,因为我们配置文件配置了多数据源,并且希望自己主导sql语句执行的数据库。 启动类排除自动配置 @SpringBootApplication(exclude = {DataSourceAutoConfiguration.class}) 循环引用问题…

【喜马拉雅】副业分享、喜马拉雅如何赚钱、喜马拉雅写作赚钱、喜马拉雅会员免费吗?喜马拉雅极速版赚钱

上班族一枚&#xff0c;已经实现副业赚钱。结合自己的经历&#xff0c;给大家分享几点找副业的经验&#xff0c;专治「闲成废柴病」。 纯干货分享&#xff0c;不拉群、不私聊&#xff0c;请放心食用。建议先点赞收藏一下。 一、任何说马上能赚钱的副业&#xff0c;一般都不太靠…

React 状态管理库深度对比:在做技术选型的时候如何选择合适的状态库,nolan出品

掘金链接&#xff1a;https://juejin.cn/post/7368288987642232872 1,简介 在状态共享这方面&#xff0c;不像 Vuex&#xff0c;React 的官方并没有强力推荐某种封装方案&#xff0c;所以 React 的状态管理工具五花八门&#xff0c;百花齐放&#xff0c; react-redux、dva、C…

详解 JuiceFS sync 新功能,选择性同步增强与多场景性能优化

JuiceFS sync 是一个强大的数据同步工具&#xff0c;支持在多种存储系统之间进行并发同步或迁移数据&#xff0c;包括对象存储、JuiceFS、NFS、HDFS、本地文件系统等。此外&#xff0c;该工具还提供了增量同步、模式匹配&#xff08;类似 Rsync&#xff09;、分布式同步等高级功…

web安全学习笔记(16)

记一下第27-28课的内容。Token 验证 URL跳转漏洞的类型与三种跳转形式&#xff1b;URL跳转漏洞修复 短信轰炸漏洞绕过挖掘 一、token有关知识 什么是token&#xff1f;token是用来干嘛的&#xff1f;_token是什么意思-CSDN博客 二、URL跳转漏洞 我们在靶场中&#xff0c;…

【python量化交易】—— 双均线择时策略 - Qteasy自定义交易策略【附源码】

使用qteasy自定义并回测双均线交易策略 使用qteasy自定义并回测一个双均线择时策略策略思想导入qteasy模块创建一个新的策略回测交易策略&#xff0c;查看结果 使用qteasy自定义并回测一个双均线择时策略 我们今天使用qteasy来回测一个双均线择时交易策略&#xff0c;qteasy是…

计算机发展史故事【17】

任天堂崛起 七十年代美国雅达利公司开创一个高科技的电脑游戏业。无独有偶&#xff0c;一家专营电脑游戏机的日本任天堂公司&#xff0c;自八十年代初期把它的家庭电脑游戏机&#xff08;FC&#xff09;投放市场后&#xff0c;不平静的世界被再一次激起轩然大波。这个小小的日本…

x86 CPU的保护模式——概述(一)

文章目录 前言一、寄存器变化二、寻址变化三、为什么段寄存器依然是16位&#xff1f; 查看系列文章点这里&#xff1a; 操作系统真象还原 前言 我们在前面已经介绍过实模式了&#xff0c;它是32位 CPU 的一种工作模式&#xff0c;模拟了16位 CPU 的工作环境&#xff0c;但是大多…

java医院信息系统HIS源码SaaS模式Java版云HIS系统 接口技术RESTful API + WebSocket + WebService

java医院信息系统HIS源码SaaS模式Java版云HIS系统 接口技术RESTful API WebSocket WebService 云HIS是基于云计算的医疗卫生信息系统&#xff08;Cloud-Based Healthcare Information System&#xff09;&#xff0c;它运用云计算、大数据、物联网等新兴信息技术&#xff0c;…

centos7.9安装es7.12.0

下载es 国内镜像&#xff1a;https://mirrors.huaweicloud.com/elasticsearch/7.12.0/ 下载并上传内容到/usr/local目录下 解压&#xff1a; tar -zxvf /uar/local/elasticsearch-7.12.0-linux-x86_64.tar.gz安装 es一般不能用root启动&#xff0c;因此需要创建es:es用户和…