Akiri la plej uzitajn vortojn de teksto kaj kiom da fojoj ili ripetiĝas: per Python kaj Coreutils

En ĉi tiu artikolo mi montras kiel simple akiri la plej uzitajn vortojn de teksto. Ĉi-okaze mi uzos kiel montron la tekston de la oka libro de la novelo Τῶν περὶ Χαιρέαν καὶ Καλλιρρόην, eltirita el https://www.perseus.tufts.edu/hopper/text?doc=Perseus%3Atext%3A2008.01.0668%3Abook%3D8. Mi forigis la notojn, kiun ĝi havis inter kvadrataj krampoj, per sed:

sed -i 's/\[[^]]*\]//g' oka_libro.txt

La programo, kiu montras al ni ĉiujn vortojn estas jen, mi nomis ĝin listo-de-vortoj.py (mi klarigas sekve kiel ĝi funkcias):

archivo_texto = open('oka_libro.txt', 'r')
texto = archivo_texto.read()
archivo_texto.close()

palabras = texto.split()

for palabra in palabras:
    print(palabra.strip('‘’:;,.').lower())

En la teksta dosiero, kiun mi nomis oka_libro.txt (elŝuti), mi supozas, ke vorto estas apartigita per blanka spaceto, do mi uzas la split-funkcion por akiri la liston de vortoj. Tamen kelkfoje estas komoj, punktoj, citiloj, dupunktoj, punktokomoj antaŭ aŭ post la vortoj, kaj kelkfoje ili komenciĝas per majuskloj. Por tiuj okazoj sufiĉas uzi la strip()-funkcion per la signoj, kiujn ni volas forĵeti inter citiloj, kaj lower() por minuskligi la vorton.

Nun mi volas, ke la vortoj, kiuj pleje aperas en la teksto, estu montritaj en la ekrano, kun la nombro de fojoj, kiam ili aperas dekstre; sed mi ne programos ĝin; mi uzos ilojn, kiuj ebligas fari tion en GNU/Linukso: uniq kaj sort.

Legu plu el Akiri la plej uzitajn vortojn de teksto kaj kiom da fojoj ili ripetiĝas: per Python kaj Coreutils

Bloki retejojn: hosts-dosiero

Por bloki retejojn vi povas uzi retumilan kromprogramon (kiel Block Site), prokurilan servilon (kiel Squid), sed ankaŭ estas la opcio redakti la hosts-dosieron, metodo kiu konsumas malmultege da ĉefmemoro kaj, malkiel la retumila kromprogramo, funkcios por ĉiu retumilo aŭ programo, Legu plu el Bloki retejojn: hosts-dosiero

Malpliigi la ekranan bluan lumon per Redshift

Blua lumo estas emisiita de naturaj fontoj, kiel la suno kaj ekranoj de elektraj aparatoj. Oni konsideras, ke ĉirkaŭ triono de ĉiu la lumo videbla de homoj estas blua. Tro da ricevado de tia lumo kaŭzas gravajn sanajn problemojn.

Legu plu el Malpliigi la ekranan bluan lumon per Redshift

Krei libron kun multaj dosierformoj per Pandoc

Hodiaŭ libro povas esti disponebla en kelkaj dosierformoj: HTML, PDF, EPUB, kiel presita libro, ktp. Plej bone, ke ĝi estu disponebla en kiel eble plej multe da formoj por atingi kiel eble la plej grandan nombron da homoj. Tamen ne komfortas redakti kelkajn dosierojn, kiam vi nur volas fari unu ŝanĝon. Por eviti tiun tedan laboron vi povas uzi bazan dosierformon kaj aliformigi ĉi tiun al aliaj formoj per Pandoc.

Vi povas skribi la libron per LibreOffice Writer aŭ per platteksta tekstredaktilo en formoj kiel HTML, LaTeX, Markdown, ktp. Por aliformigi tiun dosieron al alia formo sufiĉus plenumi komandon.

Por ilustri kiel ĉion fari mi montros al vi kiel mi kreas ĉi tiun libron. Kiel versikontrola sistemo mi decidis uzi Giton kaj krei publikan deponejon. Ĝin vi povas kloni plenumante la jenajn komandojn:

sudo apt install git
git clone https://notabug.org/jorgesumle/la-kulturo-estas-libera-historio-de-kontrauproprieta-rezisto

Post vi klonu ĝin vi vidos dosierujon nomitan markdown, tie estas kie la libra teksto troviĝas en Markdown-formo. Instalu Pandoc-on kaj Make-on plenumante sudo apt install make pandoc. Sufiĉas plenumi make html en la radika deponeja dosierujo por krei la HTML-n; por la EPUB-dosierformo oni devas plenumi make epub.

Estas malmultaj kodaj lineoj por krei la HTML- kaj EPUB-formojn. Tamen por krei la PDF-n mi bezonas instali pli da dependoj kaj uzi pli da kodo por krei la redakti LaTeX-dosieron, kiu bone aspektu, kiam ĝi estu aliformigita al PDF. Por fari tion mi aldonis tajloritan LaTeX-kodon (kiu troviĝas en la latex_personalizado-dosierujo) al la LaTeX-dosiero, per kiu mi kreas la PDF-n. Ankaŭ eblas krei belan PDF-dosieron per CSS, ĉar eblas elekti PDF-kreilon bazita sur HTML per la --pdf-engine-opcio.

La dokumentaro de Pandoc estas bona komenca loko por vidi kiel aldoni metadatumojn kaj krei elirdosierojn kiel vi bezonu. Se, kiel mi, vi elektas uzi LaTeX-on por krei la PDF-n, en la Interreto vi trovos dokumentarojn kaj homojn, kiuj proponas solvojn al kutimaj problemoj.

Eltondi el plurmedia dosiero per FFmpeg

Se vi nur volas redakti plurmedian dosieron por eltondi ĝian komencon, finon aŭ ambaŭ, la plej rapida maniero estas uzi FFmpeg. Oni povas instali FFmpeg-n en distribuoj bazitaj sur Debiano per sudo apt install ffmpeg.

Se ni volas forigi la 10 unuajn sekundojn de plurmedia dosiero, sufiĉas plenumi FFmpeg tiel:

ffmpeg -i muzikaĵo.mp3 -ss 10 muzikaĵo2.mp3

Post -i oni specifas la dosieron, kiun ni volas redakti (muzikaĵo.mp3); 10 post -ss indikas la sekundojn, kiujn ni volas forigi; fine, oni specifas la nomon de la nova dosiero muzikaĵo2.mp3.

Se ni volas forigi kaj la komencon kaj la finon, ni povas aldoni la -to argumenton:

ffmpeg -i muzikaĵo.mp3 -ss 15 -to 04:10 muzikaĵo2.mp3

Post -to devas esti pozicio, en ĉi tiu ekzemplo la 4-a minuto kaj la 10-a sekundo (04:10). Ankaŭ eblas uzi -t, kiun oni uzus tiel por akiri la saman rezulton:

ffmpeg -i muzikaĵo.mp3 -ss 15 -t 235 muzikaĵo2.mp3

-t indikas, ke estos registrita ĝis post 235 sekundoj sur novan dosieron. Tiuokaze tiuj 235 novaj sekundoj estos registritaj post preterpasi la 15 unuajn sekundojn.