init
This commit is contained in:
parent
4e5a083fa3
commit
7d211949fc
60
README.md
Normal file
60
README.md
Normal file
@ -0,0 +1,60 @@
|
||||
---
|
||||
license: CC BY NC 4.0
|
||||
#用户自定义标签
|
||||
tags:
|
||||
- finetune
|
||||
- alpaca
|
||||
- gpt4
|
||||
|
||||
text:
|
||||
TextGeneration:
|
||||
样本规模:
|
||||
- 10k-100k
|
||||
language:
|
||||
- zh
|
||||
语言:
|
||||
- 中文
|
||||
---
|
||||
|
||||
|
||||
## 数据集描述
|
||||
该数据集为GPT-4生成的中文数据集,用于LLM的指令精调和强化学习等。
|
||||
|
||||
|
||||
|
||||
### 数据集加载方式
|
||||
```python
|
||||
from modelscope.msdatasets import MsDataset
|
||||
ds = MsDataset.load("alpaca-gpt4-data-zh", namespace="AI-ModelScope", split="train")
|
||||
print(next(iter(ds)))
|
||||
```
|
||||
|
||||
### 数据分片
|
||||
数据已经预设了train分片。
|
||||
|
||||
|
||||
|
||||
## 数据集版权信息
|
||||
数据集已经开源,license为CC BY NC 4.0(仅用于非商业化用途),如有违反相关条款,随时联系modelscope删除。
|
||||
|
||||
|
||||
## 引用方式
|
||||
```
|
||||
@article{peng2023gpt4llm,
|
||||
title={Instruction Tuning with GPT-4},
|
||||
author={Baolin Peng, Chunyuan Li, Pengcheng He, Michel Galley, Jianfeng Gao},
|
||||
journal={arXiv preprint arXiv:2304.03277},
|
||||
year={2023}
|
||||
}
|
||||
```
|
||||
|
||||
## 参考链接
|
||||
```
|
||||
https://huggingface.co/datasets/c-s-ale/alpaca-gpt4-data-zh
|
||||
https://github.com/Instruction-Tuning-with-GPT-4/GPT-4-LLM
|
||||
```
|
||||
|
||||
### Clone with HTTP
|
||||
```bash
|
||||
git clone https://www.modelscope.cn/datasets/AI-ModelScope/alpaca-gpt4-data-zh.git
|
||||
```
|
||||
9
dataset_info.json
Normal file
9
dataset_info.json
Normal file
@ -0,0 +1,9 @@
|
||||
{
|
||||
"default": {
|
||||
"file_name": "train.json",
|
||||
"columns": {
|
||||
"prompt": "instruction",
|
||||
"response": "output"
|
||||
}
|
||||
}
|
||||
}
|
||||
31
train.json
Normal file
31
train.json
Normal file
@ -0,0 +1,31 @@
|
||||
[
|
||||
{
|
||||
"instruction": "保持健康的三个提示。",
|
||||
"output": "以下是保持健康的三个提示:\n\n1. 保持身体活动。每天做适当的身体运动,如散步、跑步或游泳,能促进心血管健康,增强肌肉力量,并有助于减少体重。\n\n2. 均衡饮食。每>天食用新鲜的蔬菜、水果、全谷物和脂肪含量低的蛋白质食物,避免高糖、高脂肪和加工食品,以保持健康的饮食习惯。\n\n3. 睡眠充足。睡眠对人体健康至关重要,成年人每天应保证 7-8 小时的
|
||||
睡眠。良好的睡眠有助于减轻压力,促进身体恢复,并提高注意力和记忆力。"
|
||||
},
|
||||
{
|
||||
"instruction": "三原色是什么?",
|
||||
"output": "三原色通常指的是红色、绿色和蓝色(RGB)。它们是通过加色混合原理创建色彩的三种基础颜色。在以发光为基础的显示设备中(如电视、计算机显示器、智能手机和平板电脑显示
|
||||
屏), 三原色可混合产生大量色彩。其中红色和绿色可以混合生成黄色,红色和蓝色可以混合生成品红色,蓝色和绿色可以混合生成青色。当红色、绿色和蓝色按相等比例混合时,可以产生白色或灰
|
||||
色。\n\n此外,在印刷和绘画中,三原色指的是以颜料为基础的红、黄和蓝颜色(RYB)。这三种颜色用以通过减色混合原理来创建色彩。不过,三原色的具体定义并不唯一,不同的颜色系统可能会>采用不同的三原色。"
|
||||
},
|
||||
{
|
||||
"instruction": "描述原子的结构。",
|
||||
"output": "原子是物质的基本单位,它由三种基本粒子组成:质子、中子和电子。质子和中子形成原子核,位于原子中心,核外的电子围绕着原子核运动。\n\n原子结构具有层次性。原子核中>,质子带正电,中子不带电(中性)。原子核非常小且致密,占据了原子总质量的绝大部分。电子带负电,通常围绕核运动,形成若干层次,称为壳层或电子层。电子数量与质子数量相等,使原子呈
|
||||
电中性。\n\n电子在每个壳层中都呈规律分布,并且不同壳层所能容纳的电子数也不同。在最里面的壳层一般只能容纳2个电子,其次一层最多可容纳8个电子,再往外的壳层可容纳的电子数逐层递增
|
||||
。\n\n原子核主要受到两种相互作用力的影响:强力和电磁力。强力的作用范围非常小,主要限制在原子核内,具有极强的吸引作用,使核子(质子和中子)紧密结合在一起。电磁力的作用范围较大
|
||||
,主要通过核外的电子与原子核相互作用,发挥作用。\n\n这就是原子的基本结构。原子内部结构复杂多样,不同元素的原子<EFBFBD><EFBFBD><EFBFBD>中质子、中子数量不同,核外电子排布分布也不同,形成了丰富多彩化学世界。"
|
||||
},
|
||||
{
|
||||
"instruction": "如何减少空气污染?",
|
||||
"output": "有很多方法来减少空气污染:\n\n1. 减少机动车排放: 通过支持可再生能源来驱动的交通工具,如电动汽车、混合动力汽车,使用公共交通工具,骑自行车或步行。\n2. 鼓励清洁能
|
||||
源: 政府和企业可以通过提供优惠政策和补贴来鼓励人们使用清洁能源。\n3. 减少工业排放: 工厂可以通过采用更清洁的生产方法,使用减排技术来减少工业废气的排放。\n4. 绿化城市: 种植更多
|
||||
的树木和植物可以吸收空气中的污染物和二氧化碳,有助于减少空气污染。\n5. <EFBFBD><EFBFBD><EFBFBD>少家庭能耗: 通过使用节能电器、关闭不必要的电源开关、减少用电量,能够减少家庭用电量,从而减少空气污染。\n6. 垃圾分类和回收利用: 妥善处理垃圾,避免焚烧垃圾,对垃圾进行分类和回收利用,可以减少污染物排放。\n\n总之,减少空气污染需要政府、企业和个人共同努力。我们每个人都要承担责>任,通过自己的实际行动来保护环境。"
|
||||
},
|
||||
{
|
||||
"instruction": "描述一次你不得不做出困难决定的经历。",
|
||||
"output": "作为一名人工智能助手,我是由程序控制的,没有感情和个人意识,我的一切决策都是基于我的算法和程序的设定。但在某种情况下,我需要根据我的程序判断做出决定。\n\n例如>,当我处理多个任务时,如果有多个任务具有相同的优先级,那么我需要依据我的程序进行判断,选择哪个任务来处理。\n\n在这种情况下,我会将任务进行比较,考虑它们的时间紧迫性、资源需求
|
||||
、风险和收益等因素,最后做出一个最佳的决定。\n\n虽然这并不是一个真正的困难决定,因为我只是执行我的程序,但它确实需要我进行一定的判断,以确保我能够做出最好的决定。"
|
||||
}
|
||||
]
|
||||
Loading…
Reference in New Issue
Block a user