Akiri la plej uzitajn vortojn de teksto kaj kiom da fojoj ili ripetiĝas: per Python kaj Coreutils

En ĉi tiu artikolo mi montras kiel simple akiri la plej uzitajn vortojn de teksto. Ĉi-okaze mi uzos kiel montron la tekston de la oka libro de la novelo Τῶν περὶ Χαιρέαν καὶ Καλλιρρόην, eltirita el https://www.perseus.tufts.edu/hopper/text?doc=Perseus%3Atext%3A2008.01.0668%3Abook%3D8. Mi forigis la notojn, kiun ĝi havis inter kvadrataj krampoj, per sed:

sed -i 's/\[[^]]*\]//g' oka_libro.txt

La programo, kiu montras al ni ĉiujn vortojn estas jen, mi nomis ĝin listo-de-vortoj.py (mi klarigas sekve kiel ĝi funkcias):

archivo_texto = open('oka_libro.txt', 'r')
texto = archivo_texto.read()
archivo_texto.close()

palabras = texto.split()

for palabra in palabras:
    print(palabra.strip('‘’:;,.').lower())

En la teksta dosiero, kiun mi nomis oka_libro.txt (elŝuti), mi supozas, ke vorto estas apartigita per blanka spaceto, do mi uzas la split-funkcion por akiri la liston de vortoj. Tamen kelkfoje estas komoj, punktoj, citiloj, dupunktoj, punktokomoj antaŭ aŭ post la vortoj, kaj kelkfoje ili komenciĝas per majuskloj. Por tiuj okazoj sufiĉas uzi la strip()-funkcion per la signoj, kiujn ni volas forĵeti inter citiloj, kaj lower() por minuskligi la vorton.

Nun mi volas, ke la vortoj, kiuj pleje aperas en la teksto, estu montritaj en la ekrano, kun la nombro de fojoj, kiam ili aperas dekstre; sed mi ne programos ĝin; mi uzos ilojn, kiuj ebligas fari tion en GNU/Linukso: uniq kaj sort.

Legu plu el Akiri la plej uzitajn vortojn de teksto kaj kiom da fojoj ili ripetiĝas: per Python kaj Coreutils

Forigi la kuketojn en retumiloj

La kuketoj estas precipe uzitaj kiel spurilo fare de firmaoj rilataj al reklamoj en Interretoj aŭ al la amasa kolektado kaj analizado de datenoj.

Por protekti la privatecon rekomendindas forigi la kuketojn post forlasi retejojn. Kvankam ĉi tio signifas problemetojn, ĉar oni devas denove enigi ensalutilojn, se estas retejo, en kiu vi ensalutas, tio estas bona maniero protekti vin kontraŭ la sekvado. Ĉi tio estas kio Tor Browser implicite faras.

Tamen, se ni konas konfidindajn retejojn, sensencas forigi tiujn kuketojn. Plej bone estus implicite forigi ilin, krom en konfidindaj retejoj. Aŭ eble por iuj homoj forigi ĉiujn kuketojn troas, ĉar por tiuj homoj estus pli bona kompromiso forigi nur kuketojn de eksteraj liverantoj.

Ĉiuokaze, ni povas estigi regulojn por forigi kuketojn laŭ nia bezono per la kromaĵo por retumiloj Cookie AutoDelete.

Legu plu el Forigi la kuketojn en retumiloj

Vidi la kodajn modifojn en Vim per vim-gitgutter

Kelkfoje, kiam ni redaktas tekston aŭ fontkodon, utilas vidi la ŝanĝojn, kiujn ni faris rilate al la antaŭa versio. Per vim-gitgutter eblas aŭtomate fari tion sen eliri el la redaktilo. vim-gitgutter estas kromaĵo por Vim, kiu montras la lastajn ŝanĝojn faritajn en dosiero de Git-deponejo.

Legu plu el Vidi la kodajn modifojn en Vim per vim-gitgutter

Ĉifrovalutoj, anonimeco, sencentra ekonomio

Multaj homoj pensas, ke la ĉifrovalutoj estas anonimaj, sed ne estas. La plejparto de ili estas pseŭdoanonimaj, ĉar oni povas spuri la transakciojn kaj tiel malkovri kiu posedas la Legu plu el Ĉifrovalutoj, anonimeco, sencentra ekonomio