Ako používať nástroj "Ngram Viewer" v službe Knihy Google

Ngram, nazývaný tiež N-gram, je štatistická analýza obsahu textu alebo reči, ktorá nájde n (číslo) nejakej položky v texte. Mohlo by to byť všetko, ako fonémy, predpony, frázy alebo písmená. Hoci N-gram je trochu nejasný mimo výskumníka, je skutočne používaný v rôznych oblastiach a má veľa dôsledkov pre ľudí, ktorí robia počítačové programy, ktoré rozumejú a reagujú prirodzeným hovoreným jazykom. To v skratke by bol záujem spoločnosti Google o túto myšlienku.

V prípade aplikácie Google Books Ngram Viewer sa text, ktorý sa má analyzovať, pochádza z obrovského množstva kníh, ktoré spoločnosť Google naskenovala z verejných knižníc na vyplnenie vyhľadávacieho nástroja služby Knihy Google . V službe Knihy Google Ngram Viewer odkazujú na text, ktorý hľadáte ako "korpus". Príslušník v programe Ngram Viewer je rozdelený podľa jazyka, aj keď môžete samostatne analyzovať britskú a americkú angličtinu alebo ich dať dohromady. Nakoniec je veľmi zaujímavé, aby ste sa zmenili z britského na americký spôsob používania termínov a aby sa zobrazili zmeny v grafoch.

Ako funguje program Ngram

  1. Prejdite do programu Google Books Ngram Viewer na stránke books.google.com/ngrams.
  2. Položky rozlišujú veľké a malé písmená, na rozdiel od webových vyhľadávaní v službe Google, preto nezabudnite zarábať na správne mená.
  3. Zadajte ľubovoľnú frázu alebo frázy, ktoré chcete analyzovať. Nezabudnite oddeliť každú frázu čiarkou. Google navrhuje, "Albert Einstein, Sherlock Holmes, Frankenstein", aby ste začali.
  4. Ďalej zadajte rozsah dátumov. Predvolené nastavenie je 1800 až 2000, ale existujú najnovšie knihy (v roku 2011 bol najnovší uvedený v dokumentácii Google, ale to sa mohlo zmeniť.)
  5. Vyberte korpus. Môžete vyhľadávať texty v cudzom jazyku alebo angličtinu a okrem štandardných možností si môžete všimnúť napríklad "Angličtina (2009) alebo Americká angličtina (2009)" v dolnej časti. Jedná sa o staršie korpusy, ktoré spoločnosť Google odvtedy aktualizovala, ale môžete mať nejaký dôvod na porovnanie s starými dátovými súbormi. Väčšina používateľov ich môže ignorovať a zamerať sa na najnovšie korpusy.
  6. Nastavte úroveň vyhladzovania. Vyhlazovanie znamená, ako hladký je graf na konci. Najpresnejšia reprezentácia by bola hladina hladenia 0, ale to môže byť ťažké čítať. Predvolené nastavenie je 3. Vo väčšine prípadov to nemusíte upravovať.
  1. Stlačte tlačidlo Vyhľadávanie veľa kníh . (Môžete tiež jednoducho stlačiť kláves Enter vo vyhľadávacom riadku.)

Čo je zobrazenie Ngramu?

Nástroj Google Books Ngram Viewer bude zobrazovať graf, ktorý reprezentuje použitie konkrétnej frázy v knihách v čase. Ak ste zadali viac ako jedno slovo alebo frázu, uvidíte farebne označené riadky na kontrast rôznych hľadaných výrazov. To je docela podobné službe Google Trends , iba vyhľadávanie pokrýva dlhšie časové obdobie.

Tu je príklad skutočného života. V poslednej dobe sme boli zvedaví. Sú spomínané v Laury Ingalls Wilderovej Malý dom v seriáli Prairie , ale o takejto veci sme nikdy nepočuli. Najprv sme použili Google vyhľadávanie na webe, aby sme sa dozvedeli viac o octových koláčkach. Zdá sa, že sú považované za súčasť americkej južnej kuchyne a skutočne sú vyrobené z octu. Očakávajú sa späť do čias, kedy nie všetci mali prístup k čerstvým produktom po celý čas roka. Je to celý príbeh?

Vyhľadali sme službu Google Ngram Viewer a tam sú niektoré zmienky o koláčiku v skorých aj neskorých 1800s, veľa zmien sa spomína v 40. rokoch minulého storočia a čoraz viac sa spomína v nedávnej dobe (možno nejaká nostalgia). problém s údajmi na vyrovnávacej úrovni 3. Existuje náhorná plošina nad menami v 1800s. Určite nebol rovnaký počet spomienok na jeden konkrétny koláč každý rok na päť rokov? Čo sa deje, je to, že v tej dobe nie sú vydané žiadne knihy a preto, že naše dáta sú nastavené na hladké, narúša obraz. Pravdepodobne tu bola jedna kniha, ktorá spomenula octový koláč, a to sa dostalo priemerne, aby sa zabránilo hrotom. Nastavením vyhladzovania na hodnotu 0 vidíme, že to je presne ten prípad. Špicové stredisko sa datuje do roku 1869 a v roku 1897 a 1900 sa objavil ďalší hrot.

Nikto o zvyškoch času nehovoril o octách? Pravdepodobne hovorili o tých koláčikoch. Pravdepodobne sa na celom mieste plavali recepty . Nepísali o nich v knihách, a to je obmedzenie týchto vyhľadávaní Ngram.

Rozšírené vyhľadávania Ngramu

Pamätajte si, ako sme povedali, že Ngrams môže pozostávať z rôznych druhov vyhľadávaní textu? Spoločnosť Google vám dovolí pomerne trochu prehĺbiť aj aplikáciu Ngram Viewer. Ak by ste chceli vyhľadať ryby, potom sloveso namiesto ryby podstatné meno, môžete to urobiť pomocou značiek. V takom prípade by ste hľadali "fish_VERB"

Spoločnosť Google poskytuje na svojich webových stránkach úplný zoznam príkazov, ktoré môžete použiť, a inú pokročilú dokumentáciu.