Skip to content

Train Data Release: v2022.3Q

Latest
Compare
Choose a tag to compare
@Beomi Beomi released this 07 Nov 06:55
· 2 commits to master since this release
0da95b2

분기별 신규 데이터셋 릴리즈: v2022.3Q

데이터셋 정보

  • v2022.3Q = 2022년도 3분기 릴리즈
  • 데이터셋 포함: v2019.1Q - v2022.3Q
  • 전체 데이터 수(공백열 제외): 345,452,030
  • 일자: 2019.01월 ~ 2022.09월

TrainData_v1와의 차이점

  • 동일 타래의 댓글과 대댓글은 단일 linebreak (\n)
  • 다른 타래의 댓글간에는 두개의 linebreak (\n\n)
  • 일자별로 중복 텍스트 제거
  • 그 외의 clean 처리 최대한 하지 않음

Quarterly Aggregated Korean News Comments Dataset: v2022.3Q

Dataset Spec

  • v2022.3Q = 2022 3Q Release
  • Add Dataset from v2019.1Q ~ v2022.3Q
  • Total Lines(w/o Blank lines): 345,452,030
  • Date Range: 2019.01 ~ 2022.09

Difference from TrainData_v1

  • Reply comments(in same thread) are grouped by 1 linebreak(\n)
  • Different threads are splitted by whiteline(\n\n)
  • Duplicated comments within a day are removed (only the first comment left)
  • texts are raw as much as possible