init

2025-09-05 13:45:03 +08:00 · 2025-09-05 13:45:03 +08:00 · 7d211949fc
commit 7d211949fc
parent 4e5a083fa3
3 changed files with 100 additions and 0 deletions
--- a/README.md
+++ b/README.md
@ -0,0 +1,60 @@
 ---
 license: CC BY NC 4.0
 #用户自定义标签
 tags:
 - finetune
 - alpaca
 - gpt4
 text:
  TextGeneration:
    样本规模:
      - 10k-100k
    language:
      - zh
    语言:
      - 中文
 ---
 ## 数据集描述
 该数据集为GPT-4生成的中文数据集，用于LLM的指令精调和强化学习等。
 ### 数据集加载方式
 ```python
 from modelscope.msdatasets import MsDataset
 ds = MsDataset.load("alpaca-gpt4-data-zh", namespace="AI-ModelScope", split="train")
 print(next(iter(ds)))
 ```
 ### 数据分片
 数据已经预设了train分片。
 ## 数据集版权信息
 数据集已经开源，license为CC BY NC 4.0（仅用于非商业化用途），如有违反相关条款，随时联系modelscope删除。
 ## 引用方式
 ```
@article{peng2023gpt4llm,
    title={Instruction Tuning with GPT-4},
    author={Baolin Peng, Chunyuan Li, Pengcheng He, Michel Galley, Jianfeng Gao},
    journal={arXiv preprint arXiv:2304.03277},
    year={2023}
 }
 ```
 ## 参考链接
 ```
 https://huggingface.co/datasets/c-s-ale/alpaca-gpt4-data-zh
 https://github.com/Instruction-Tuning-with-GPT-4/GPT-4-LLM
 ```
 ### Clone with HTTP
 ```bash
 git clone https://www.modelscope.cn/datasets/AI-ModelScope/alpaca-gpt4-data-zh.git
 ```
--- a/dataset_info.json
+++ b/dataset_info.json
@ -0,0 +1,9 @@
 {
  "default": {
  "file_name": "train.json",
    "columns": {
      "prompt": "instruction",
      "response": "output"
    }
  }
 }
--- a/train.json
+++ b/train.json
@ -0,0 +1,31 @@
 [
  {
    "instruction": "保持健康的三个提示。",
    "output": "以下是保持健康的三个提示：\n\n1. 保持身体活动。每天做适当的身体运动，如散步、跑步或游泳，能促进心血管健康，增强肌肉力量，并有助于减少体重。\n\n2. 均衡饮食。每>天食用新鲜的蔬菜、水果、全谷物和脂肪含量低的蛋白质食物，避免高糖、高脂肪和加工食品，以保持健康的饮食习惯。\n\n3. 睡眠充足。睡眠对人体健康至关重要，成年人每天应保证 7-8 小时的
 睡眠。良好的睡眠有助于减轻压力，促进身体恢复，并提高注意力和记忆力。"
  },
  {
    "instruction": "三原色是什么？",
    "output": "三原色通常指的是红色、绿色和蓝色（RGB）。它们是通过加色混合原理创建色彩的三种基础颜色。在以发光为基础的显示设备中（如电视、计算机显示器、智能手机和平板电脑显示
 屏）, 三原色可混合产生大量色彩。其中红色和绿色可以混合生成黄色，红色和蓝色可以混合生成品红色，蓝色和绿色可以混合生成青色。当红色、绿色和蓝色按相等比例混合时，可以产生白色或灰
 色。\n\n此外，在印刷和绘画中，三原色指的是以颜料为基础的红、黄和蓝颜色（RYB）。这三种颜色用以通过减色混合原理来创建色彩。不过，三原色的具体定义并不唯一，不同的颜色系统可能会>采用不同的三原色。"
  },
  {
    "instruction": "描述原子的结构。",
    "output": "原子是物质的基本单位，它由三种基本粒子组成：质子、中子和电子。质子和中子形成原子核，位于原子中心，核外的电子围绕着原子核运动。\n\n原子结构具有层次性。原子核中>，质子带正电，中子不带电（中性）。原子核非常小且致密，占据了原子总质量的绝大部分。电子带负电，通常围绕核运动，形成若干层次，称为壳层或电子层。电子数量与质子数量相等，使原子呈
 电中性。\n\n电子在每个壳层中都呈规律分布，并且不同壳层所能容纳的电子数也不同。在最里面的壳层一般只能容纳2个电子，其次一层最多可容纳8个电子，再往外的壳层可容纳的电子数逐层递增
 。\n\n原子核主要受到两种相互作用力的影响：强力和电磁力。强力的作用范围非常小，主要限制在原子核内，具有极强的吸引作用，使核子（质子和中子）紧密结合在一起。电磁力的作用范围较大
 ，主要通过核外的电子与原子核相互作用，发挥作用。\n\n这就是原子的基本结构。原子内部结构复杂多样，不同元素的原子<EFBFBD><EFBFBD><EFBFBD>中质子、中子数量不同，核外电子排布分布也不同，形成了丰富多彩化学世界。"
  },
  {
    "instruction": "如何减少空气污染？",
    "output": "有很多方法来减少空气污染:\n\n1. 减少机动车排放: 通过支持可再生能源来驱动的交通工具，如电动汽车、混合动力汽车，使用公共交通工具，骑自行车或步行。\n2. 鼓励清洁能
 源: 政府和企业可以通过提供优惠政策和补贴来鼓励人们使用清洁能源。\n3. 减少工业排放: 工厂可以通过采用更清洁的生产方法，使用减排技术来减少工业废气的排放。\n4. 绿化城市: 种植更多
 的树木和植物可以吸收空气中的污染物和二氧化碳，有助于减少空气污染。\n5. <EFBFBD><EFBFBD><EFBFBD>少家庭能耗: 通过使用节能电器、关闭不必要的电源开关、减少用电量，能够减少家庭用电量，从而减少空气污染。\n6. 垃圾分类和回收利用: 妥善处理垃圾，避免焚烧垃圾，对垃圾进行分类和回收利用，可以减少污染物排放。\n\n总之，减少空气污染需要政府、企业和个人共同努力。我们每个人都要承担责>任，通过自己的实际行动来保护环境。"
  },
  {
    "instruction": "描述一次你不得不做出困难决定的经历。",
    "output": "作为一名人工智能助手，我是由程序控制的，没有感情和个人意识，我的一切决策都是基于我的算法和程序的设定。但在某种情况下，我需要根据我的程序判断做出决定。\n\n例如>，当我处理多个任务时，如果有多个任务具有相同的优先级，那么我需要依据我的程序进行判断，选择哪个任务来处理。\n\n在这种情况下，我会将任务进行比较，考虑它们的时间紧迫性、资源需求
 、风险和收益等因素，最后做出一个最佳的决定。\n\n虽然这并不是一个真正的困难决定，因为我只是执行我的程序，但它确实需要我进行一定的判断，以确保我能够做出最好的决定。"
  }
 ]