Перейти до вмісту

Google Ngram Viewer

Матеріал з Вікіпедії — вільної енциклопедії.
Приклад запиту Ngram

Google Ngram Viewer або Google Books Ngram Viewer — це онлайн-пошукова система, яка складає графіки частот будь-якого набору пошукових рядків, використовуючи річну кількість n-грамів, знайдених у друкованих джерелах, опублікованих між 1500 і 2019 роками[1][2][3][4] у текстових корпусах Google англійською, китайською (спрощеною), французькою, німецькою, івритом, італійською, російською або іспанською мовами[2][5]. Ще існують деякі спеціалізовані англійські корпуси американської англійської, британської англійської та англійської художньої літератури.[6]

Програма може шукати слово чи фразу, включаючи орфографічні помилки чи тарабарщину[5]. N-грами зіставляються з текстом у межах вибраного корпуса, вибірково використовуючи правопис із урахуванням регістру (який порівнює точне використання великих букв)[7] і, якщо вони знайдені в 40 або більше книгах — відображаються як графік[8]. Google Ngram Viewer підтримує пошук за частинами мови та символами підстановки .[6] Він регулярно використовується в дослідженнях.[9][10]

Історія

[ред. | ред. код]

Програма була розроблена Джоном Орвантом і Віллом Брокманом та випущена в середині грудня 2010 року[2][3]. Джерелом натхнення для неї послугував прототип під назвою Bookworm, створений Жаном-Батистом Мішелем та Ерезом Ейденом з Гарвардської Культурної Обсерваторії, Юанем Шенем з MIT і Стівеном Пінкером[11].

Ngram Viewer спочатку базувався на Google Books Ngram Corpus 2009 року видання. Станом на липень 2020, програма підтримувала корпуси 2009, 2012 і 2019 років.

Експлуатація та обмеження

[ред. | ред. код]

Комами розділяються введені користувачем пошукові терміни, вказуючи на кожне окреме слово або фразу, які треба знайти[8]. Ngram Viewer повертає побудовану лінійну діаграму.

Як пристосування для більшої кількості книг, виданих протягом кількох років, дані нормалізуються як відносний рівень за кількістю книг опублікованих у кожному році[8].

Через обмеження розміру бази даних Ngram, лише збіги, знайдені в мінімум 40 книжках, індексуються в ній[8].

Обмеження

[ред. | ред. код]

Набір даних піддавався критиці через його покладання на неточне OCR (Оптичне розпізнавання символів), надлишок наукової літератури та включення великої кількості неправильно датованих і категоризованих текстів.[12] Через ці помилки, а також через неконтрольованість на предмет упередженості[13] (наприклад, збільшення кількості наукової літератури, що спричиняє зниження популярності появи інших термінів), використовувати цей корпус для вивчення мови або перевірки теорій є ризикованим.[14] Оскільки датасет не містить метаданих, він може не відображати загальні лінгвістичні чи культурні зміни[15] і може лише натякати на такий ефект.

Було запропоновано інструкції, які стосуються багатьох проблем, розглянутих вище, для проведення досліджень із використанням даних із Google Ngram.[16]

Проблеми OCR

[ред. | ред. код]

Оптичне розпізнавання символів, або OCR, не завжди є надійним, і деякі символи можуть бути проскановані неправильно. Зокрема, системні помилки як плутання s і f у текстах до 19-го століття (через використання довгого s, що був схожий на вигляд до f), можуть спричинити системне зміщення. Хоча Google Ngram Viewer стверджує, що результати є надійними, починаючи з 1800 року, погане оптичне розпізнавання символів і нестача даних означають, що частоти наведені для таких мов як китайська, можуть бути точними лише починаючи з 1970 року, а попередні частини корпусу взагалі не показують жодних результатів для всіх загальних термінів та даних за кілька років, що містять більше ніж 50 % шуму.[17][18]

Див. також

[ред. | ред. код]

Список літератури

[ред. | ред. код]
  1. Michel, Jean-Baptiste; Shen, Yuan Kui; Aiden, Aviva Presser; Veres, Adrian; Gray, Matthew K.; The Google Books Team; Pickett, Joseph P.; Hoiberg, Dale; Clancy, Dan (14 січня 2011). Quantitative Analysis of Culture Using Millions of Digitized Books. Science (англ.). Т. 331, № 6014. с. 176—182. doi:10.1126/science.1199644. ISSN 0036-8075. PMC 3279742. PMID 21163965. Процитовано 5 січня 2025. {{cite news}}: Обслуговування CS1: Сторінки з PMC з іншим форматом (посилання)
  2. а б в "Google Ngram Database Tracks Popularity Of 500 Billion Words" Huffington Post, 17 December 2010, webpage: HP8150.
  3. а б "Google's Ngram Viewer: A time machine for wordplay", Cnet.com, 17 December 2010, webpage: CN93 [Архівовано 2014-01-23 у Wayback Machine.].
  4. @searchliaison (13 липня 2020). The Google Books Ngram Viewer has now been updated with fresh data through 2019 (Твіт) (англ.). Процитовано 11 серпня 2020 — через Твіттер. 
  5. а б «Google Books Ngram Viewer — University at Buffalo Libraries», Lib.Buffalo.edu, 22 August 2011, webpage: Buf497 [Архівовано 2013-07-02 у Wayback Machine.]
  6. а б Google Books Ngram Viewer info page. 
  7. "Google Ngram Viewer - Google Books", Books.Google.com, May 2012, webpage: G-Ngrams.
  8. а б в г "Google Ngram Viewer - Google Books" (Information), Books.Google.com, December 16, 2010, webpage: G-Ngrams-info: notes bigrams and use of quotes for words with apostrophes.
  9. Greenfield, Patricia M. (September 2013). The Changing Psychology of Culture From 1800 Through 2000. Psychological Science (англ.). 24 (9): 1722—1731. doi:10.1177/0956797613479387. ISSN 0956-7976. PMID 23925305. 
  10. Younes, Nadja; Reips, Ulf-Dietrich (October 2018). The changing psychology of culture in German-speaking countries: A Google Ngram study: THE CHANGING PSYCHOLOGY OF CULTURE. International Journal of Psychology (англ.). 53: 53—62. doi:10.1002/ijop.12428. PMID 28474338. 
  11. The RSA (4 лютого 2010). Steven Pinker – The Stuff of Thought: Language as a window into human nature. 
  12. Nunberg, Geoff (16 грудня 2010). Humanities research with the Google Books corpus. Архів оригіналу за 10 March 2016. 
  13. Pechenick, Eitan Adam; Danforth, Christopher M.; Dodds, Peter Sheridan; Barrat, Alain (7 жовтня 2015). Characterizing the Google Books Corpus: Strong Limits to Inferences of Socio-Cultural and Linguistic Evolution. PLOS ONE. 10 (10): e0137041. arXiv:1501.00960. Bibcode:2015PLoSO..1037041P. doi:10.1371/journal.pone.0137041. PMC 4596490. PMID 26445406. 
  14. Zhang, Sarah. The Pitfalls of Using Google Ngram to Study Language. WIRED (амер.). Процитовано 24 травня 2017. 
  15. Koplenig, Alexander (2 вересня 2015). The impact of lacking metadata for the measurement of cultural and linguistic change using the Google Ngram data sets—Reconstructing the composition of the German corpus in times of WWII. Digital Scholarship in the Humanities (опубліковано опубліковано 2017-04-01). 32 (1): 169—188. doi:10.1093/llc/fqv037. ISSN 2055-7671. 
  16. Younes, Nadja; Reips, Ulf-Dietrich (22 березня 2019). Guideline for improving the reliability of Google Ngram studies: Evidence from religious terms. PLOS ONE (англ.). 14 (3): e0213554. Bibcode:2019PLoSO..1413554Y. doi:10.1371/journal.pone.0213554. ISSN 1932-6203. PMC 6430395. PMID 30901329. 
  17. Google n-grams and pre-modern Chinese. digitalsinology.org.
  18. When n-grams go bad. digitalsinology.org.

Бібліографія

[ред. | ред. код]

Посилання

[ред. | ред. код]