Набор данных

Материал из Википедии — свободной энциклопедии
Перейти к навигации Перейти к поиску
Различные графики многомерного набора данных Ирисы Фишера представленного Рональдом Фишером (1936 год).[1]

Набор данных (data set или dataset) — коллекция данных. В случае с табличными данными, набор данных соответствует одной или нескольким таблицам баз данных, где каждый столбец таблицы соответствует отдельной переменной, и каждая строка соответствует записи в наборе данных. Наборы данных хранят значения для каждой переменной, например, высота и вес объекта для каждого члена набора данных. Наборы данных могут также состоять из коллекции документов или файлов.[2]

В концепции открытых данных, набор данных — это единица измерения информации размещенных в публичном репозитории открытых данных. Европейский портал данных (data.europa.eu) агрегирует более миллиона наборов данных.[3] Некоторые другие концепции (источники данных реального времени,[4] нереляционные наборы данных и т.д.) увеличивают сложность достижения соглашения об определении термина набора данных.[4]

Несколько характеристик определяют структуру и свойства набора данных. Они включают количество и типы атрибутов или переменных, и различные статистические измерения, применяемые к ним, такие как стандартное отклонение и эксцесс.[5]

Значения могут быть числами, такими как вещественные числа или целые числа, например представляющими рост человека в сантиметрах, но могут также быть и номинальными данными (т.е. не содержащими числовых значений), например, отображающими этническую принадлежность человека. В более общем смысле, значения могут быть одним из видов, описываемых шкалой. Для каждой переменной все значения обычно одного и того же типа. Несмотря на это могут также существовать недостающие значения, которые должны быть обозначены некоторым способом.

В статистике наборы данных обычно поступают из фактических наблюдений, полученных путем выборки из генеральной совокупности, и каждая строка соответствует наблюдениям за одним элементом этой совокупности. Наборы данных могут также быть сгенерированы алгоритмами для целей тестирования определенного вида программного обеспечения. Некоторое современное программное обеспечение для статистического анализа, такое, например, как SPSS до сих пор представляет свои данные в классической манере набора данных. Если представлены недостающие или подозрительные данные, то может быть использован метод вменения для дополнения набора данных.[6]

Классические наборы данных

[править | править код]

Несколько классических наборов данных широко используются в статистической литературе:

Примечания

[править | править код]
  1. 1 2 Fisher, R.A. (1963). "The Use of Multiple Measurements in Taxonomic Problems" (PDF). Annals of Eugenics. 7 (2): 179—188. doi:10.1111/j.1469-1809.1936.tb02137.x. hdl:2440/15227. Архивировано из оригинала (PDF) 28 сентября 2011. Дата обращения: 22 мая 2007.
  2. Snijders, C.; Matzat, U.; Reips, U.-D. (2012). "'Big Data': Big gaps of knowledge in the field of Internet". International Journal of Internet Science. 7: 1—5. Архивировано 23 ноября 2019. Дата обращения: 13 февраля 2023.
  3. European open data portal. European open data portal. European Commission. Дата обращения: 23 сентября 2016. Архивировано 2 октября 2017 года.
  4. 1 2 Atz, U (2014). "The tau of data: A new metric to assess the timeliness of data in catalogues" (PDF). CEDEM 2014 Proceedings. Архивировано (PDF) 20 августа 2016. Дата обращения: 1 августа 2016.
  5. Jan M. Żytkow, Jan Rauch. Principles of data mining and knowledge discovery. — 2000. — ISBN 978-3-540-66490-1.
  6. United Nations Statistical Commission. Statistical Data Editing: Impact on Data Quality: Volume 3 of Statistical Data Editing, Conference of European Statisticians Statistical standards and studies / United Nations Statistical Commission, United Nations Economic Commission for Europe. — United Nations Publications, 2007. — P. 20. — ISBN 978-9211169522.