Perché il mio bisnonno ha voluto fare l'agronomo? E se trovava dei cocomeri andati a male, ne faceva l'anamnesi? Che razza di domande direte, e in ogni caso: chi se ne importa? Ok, allora permettetemene un'ultima allora, più interessante: cos'hanno in comune un paramecio ed un sarcofago? Se non l'avete già capito ve lo dico io: sono parole che si possono scrivere su un telefonino, magari col T9, utilizzando gli stessi tasti. Ah! Non male adesso, eh? Ma questo è solo l'inizio, perché ora si aprono molti problemi interessanti: la parola più lunga, la coppia di parole che si "assomiglia" di meno, la più lunga sequenza di parole equivalenti e così via. Si tratta di questioni futili? A te la decisione caro lettore, e se pensi che stiamo solo perdendo tempo spero non sdegnerai redimerci.
Per trovare risposta a questi problemi ho pensato che non sarebbe stato male farsi aiutare da un computer, così ho scritto un semplice programma che è in grado di elaborare liste di parole e di fornire le informazioni richieste.
Prima di iniziare però, bisogna procurarsi una buona lista di parole. Io ne ho trovata una che mi sembra ottima, è stata compilata da Luigi M. Bianchi e contiene 245.000 parole. Si trova su The List of Italian Words. Per utilizzarla con il mio programma bisogna scaricare la lista completa ed estrarla in una directory qualsiasi. Poi, al momento di scegliere il file contenente la lista, basta specificare "ITALIANO.A" ed il programma caricherà automaticamente anche tutti gli altri file. (I file contenenti le parole sono semplici file di testo con una parola per riga. Le parole contenenti accenti o caratteri non alfabetici vengono ignorate.)
Ora si può iniziare a giocare. Dato l'enorme numero di parole utilizzate, è bene darsi da fare e cercare di limitare il numero di parole prodotto dalla ricerca. Per fare ciò si utilizzano due parametri fondamentali, descritti qui sotto.
Word Length Range. Serve a specificare l'intervallo in cui deve cadere la lunghezza delle parole da cercare. Per esempio specificando 6 e 11 non verranno cercate parole più corte di 6 caratteri o più lunghe di 11 caratteri.
Minimum Word Distance. Serve a specificare quanti dei caratteri corrispondenti devono essere diversi affinché una coppia di parole venga inclusa nel risultato. Per esempio le caduche abetaie hanno ben 6 caratteri diversi mentre l'acquoso castoro ne ha solo 5. Quindi se la distanza minima fosse stata 6 la seconda coppia sarebbe stata esclusa dal risultato (dando per scontato che le altre condizioni producano entrambe le coppie). L'uso di questo parametro è importante per evitare coppie "poco interessanti" come per esempio pensavo/pensano.
Quando si arriva ad una sequenza che contiene più di due parole la distanza non viene utilizzata, e la sequenza è sempre inclusa nel risultato.
Una volta effettuata la ricerca il programma mostrerà le parole trovate nella lista del risultato:
Per trovare più facilmente le parole che soddisfano ad una delle proprietà elencate basta cliccare sull'intestazione della corrispondente colonna e l'intera lista verrà ordinata secondo il criterio selezionato.
Credo che ci sia parecchio da divertirsi e non voglio trattenervi oltre, solo per i più pigri (o coloro che non hanno Windows) ecco le risposte alle domande iniziali: la coppia più lunga è imbacchettoniranno/imbacchettoniscono (18 caratteri ma non sono riuscito a trovarla sul dizionario, quindi si scende a 17 caratteri con tranquillizzavamo/tranquillizzavano e sprovincializzata/sprovincializzava), la sequenza più lunga contiene 8 parole (ce ne sono diverse, una è teppa/terra/tersa/tessa/verrà/versa/vespa/vessa) e le parole che si assomigliano di meno le avete già viste all'inizio di questo articolo. Ci sono però tante altre curiosità che si possono ottenere solo giocando un po' con la lista delle parole...
Il programma (per Windows 2000 o un sistema compatibile) può essere scaricato cliccando su: download PWEF.
Nota: non si tratta di un programma "robusto" scritto per uso industriale, ma di un programmino semplice e scritto abbastanza in fretta. Andrebbe quindi usato con attenzione e controllando che i parametri specificati siano validi (per es. evitare di inserire "xyz" al posto dei numeri, non cancellare la lista delle parole mentre il programma gira e così via). E' anche disponibile una traduzione (non ufficiale) della licenza GPL in Italiano.
Copyright (c) 2003,2004 Alessandro Scotti. All rights reserved.
Home :: Fun and Games |