README for dataset-5

Go to file

zhufq 11aaeb6912 solve conflict		2025-08-06 16:56:01 +08:00
dataset-samsum-corpus@770dc84e80	solve conflict	2025-08-06 16:56:01 +08:00
raw	init dataset	2024-07-01 23:40:30 +08:00
sample/other	init dataset	2024-07-01 23:40:30 +08:00
.gitattributes	solve conflict	2025-08-06 16:56:01 +08:00
dataset_info.json	fix	2025-08-05 17:07:38 +08:00
dataset_infos.json	solve conflict	2025-08-06 16:56:01 +08:00
metafile.yaml	init dataset	2024-07-01 23:40:30 +08:00
quickstart.md	init dataset	2024-07-01 23:40:30 +08:00
README.md	init dataset	2024-07-01 23:40:30 +08:00

README.md

displayName: SAMSum Corpus labelTypes:

Classification license:
CC BY-NC-ND 4.0 mediaTypes:
Text paperUrl: https://arxiv.org/pdf/1911.12237v2.pdf publishDate: "2019" publishUrl: https://github.com/huggingface/datasets/tree/master/datasets/samsum publisher:
Samsung R&D Institute Poland tags:
Text taskTypes:
Text Summarization/Simplication
Federated Learning
Abstractive Text Summarization

数据集介绍

简介

SAMSum 数据集包含大约 16k 个带有摘要的类似信使的对话。对话由精通英语的语言学家创建和记录。语言学家被要求创建类似于他们每天所写的对话，以反映他们现实生活中的信使对话的主题比例。风格和语域是多样化的——对话可以是非正式的、半正式的或正式的，它们可能包含俚语、表情符号和错别字。然后，用摘要对对话进行注释。假设摘要应该是人们在第三人称对话中所谈论内容的简明扼要。 SAMSum 数据集由波兰三星研发研究所准备并分发用于研究目的（非商业许可：CC BY-NC-ND 4.0）。

引文

"@article{gliwa2019samsum,
title={SAMSum corpus: A human-annotated dialogue dataset for abstractive summarization},
author={Gliwa, Bogdan and Mochol, Iwona and Biesek, Maciej and Wawer, Aleksander},
journal={arXiv preprint arXiv:1911.12237},
year={2019}
}"

Download dataset

:modelscope-code[]{type="git"}

README.md Unescape Escape

数据集介绍

简介

引文

Download dataset

README.md