appunti sparsi, trovati in rete, e uniti a caso senza alcun pretesto di impaginazione o validita' HTML, relativamente al perche' non vanno usare le lettere accentate nelle email, nei newsgroups, su IRC, sulle chat, e in generale su internet.




> Io sogno un mondo dove esista una sola tastiera layout US :-)

Io l'ho visto, quel mondo, e benche' le possibilita' fossero pochine in
un'internet text-only (ma esisteva perfino un antenato del web, che si
chiamava gopher) tutto filava alla perfezione, senza caratteri
non-ascii e senza punti interrogativi, e nessuno si sbatteva tra mille
codifiche e nessuno si lamentava. In quel tempo felice, perfino
scrittori e giornalisti scrivevano con le macchine da scrivere, e - non
dico la Remington, ma persino l'italianissima Olivetti Lettera 22 -
UDITE UDITE ! non avevano le accentate, ma le sostituivano con
l'apostrofo. Era assodato che le accentate fossero riservate alla
stampa, e la sostituzione delle "apostrofate" nei dattiloscritti di
Indro Montanelli veniva fatta in redazione, dal compositore che
preparava i cliche' di stampa.

G.

Lo standard per l'e-mail e' l'RFC 821, che descrive l'e-mail come applicazione a 7 bit. Quindi i caratteri non-ascii sono fuori standard. Punto.


Estratti da RFC821:

         DATA (DATA)

            The receiver treats the lines following the command as mail
            data from the sender.  This command causes the mail data
            from this command to be appended to the mail data buffer.
            The mail data may contain any of the 128 ASCII character
            codes.


         The mail data may contain any of the 128 ASCII characters.  All
         characters are to be delivered to the recipient's mailbox
         including format effectors and other control characters.  If
         the transmission channel provides an 8-bit byte (octets) data
         stream, the 7-bit ASCII codes are transmitted right justified
         in the octets with the high order bits cleared to zero.




p.s. lo standard RFC821 e' stato aggiornato da altre RFC che ora comprendono anche le lettere accentate.

filtro procmail per trasformare le lettere accentate di merda in caratteri ASCII:

SED=`which sed`
:0 fBw
| $SED -e "s/\=E0/a'/g" -e "s/\=E8/e'/g" \
       -e "s/\=E9/e'/g" -e "s/\=EC/i'/g" \
       -e "s/\=F2/o'/g" -e "s/\=F9/u'/g" \
       -e "s/\=C0/A'/g" -e "s/\=C8/E'/g" \
       -e "s/\=C9/E'/g" -e "s/\=C1/A'/g" \
       -e "s/\=CC/I'/g" -e "s/\=CD/I'/g" \
       -e "s/\=E1/a'/g" -e "s/\=ED/i'/g" \
       -e "s/à/a'/g" -e "s/è/e'/g" \
       -e "s/é/e'/g" -e "s/ì/i'/g" \
       -e "s/ò/o'/g" -e "s/ù/u'/g" \
       -e "s/\ø/o/g" -e "s/«/<>/g" -e "s/È/E'/g" \
       -e "s/É/E'/g" -e "s/·/./g"

On Fri, Oct 26, 2001 at 01:22:06PM +0200, Ottavio Campana wrote:
> On Fri, Oct 26, 2001 at 12:30:23PM +0200, pinna@paranoia.investici.org wrote:
> > per carattere speciale non intendo personalita' particolare :)
> > 
> > chiedo solo: please, usiamo l'apostrofino o l'accentino
> > al posto delle lettere accentate
> 
> scusa, ma  perche' non  fai export  LANG="it_IT.ISO-8859-1" ?  In questo
> modo dovresti  assicurarti la possibilita'  di leggere anche  i messaggi
> scritti con  le lettere  accentate. E  se poi non  ti piacciono  tu puoi
> sempre scrivere con l'accentto.
> 

i soli caratteri standard sono quelli ASCII compresi fra 0 e 127.
gli altri non sono standard e non c'e' garanzia che vengano letti da altri
computer.
il problema non e' di (supposta) malconfigurazione del client, ma del fatto
che tali caratteri non funzionano fra tutti i client.
se tutti ragionassero cosi' i giapponesi manderebbero segni nei loro
geroglifici (tanto basta impostare la variabile LANG, giusto?) i cinesi nel
loro e gli afghani nel loro ancora.
Analogamente tutti scriverebbero in 120 colonne perche' tanto basta usare
less come pager e configurare automaticamente il mailer perche' spezzi le
righe.

> Io di mio lo trovo particolarmente scomodo e se ho una testiera italiana
> uso le lettere accentate.

io ad esempio trovo scomodo dover scrivere -r in less per abilitare la
visione delle accentate (se lo faccio di default less mi mangia delle righe
qualche volta).
di abilitare la variabile LANG non se ne parla proprio perche' mi trovo molto
piu' a mio agio con i messaggi in inglese. potrei creare uno script che
setta la variabile LANG e chiama mutt, o modificare il file di
configurazione in modo appropriato ma mi sembra che non sia ragionevole
pretenderlo quando sei tu che stai violando gli standard (oltre al fatto che
settare LANG crea varie altre differenze che potrebbero procurarmi rogne: ad
esempio un mio programma si rognava perche' cambiava il modo in cui venivano
interpretati i numeri (non usava + il punto ma la virgola)).

una soluzione potrebbe essere rimappare le lettere accentate alle analoghe
con l'apostrofo.

> Anche perch? penso che se non ti sistemi la lingua locale dovresti avere
> anche altri  problemi. Un  esempio puo'  essere il  simbolino dell'euro.
> Cavolo, volenti o  nolenti tra un po' entrera' nelle  nostre abitudini e
> in qualche modo servira' anche scriverlo al pc, no? :-)
> 
> Ciao

ciao

> -- 
> Non c'? pi? forza nella normalit?, c'? solo monotonia.
> _______________________________________________
> Mailing List LUG Vicenza
> Lugvi-fans@vicenza.linux.it
> http://vicenza.linux.it/mailman/listinfo/lugvi-fans

-- 
Francesco Tapparo				 |	cesco@debian.org
fight for your software freedoms: www.fsf.org    |      tapparo@mat.unimi.it

Le FAQ di LICHIT!
(by Stefano Martellos, revidit Mauro Tretiach, 2002) C) POSTARE IN ML

C1) Perche' tutti se la prendono se uso le lettere accentate?
Questa domanda viene di solito fatta da coloro che usano sistemi Messy-Dos e succedanei (specie quelli usciti alle soglie del 96) o Macintosh. Tutto deriva dal fatto che le suddette piattaforme non seguono lo standard (e ti pareva?). Usenet e` storicamente dominato da computers che usano il sistema operativo UNIX, che seguendo lo standard ASCII non ha le lettere accentate. Per le lettere "normali" invece, compreso l'accento e l'apostrofo, non ci sono problemi. Per esempio io una lettera o` (o accentata) la leggo come "=20". Non e` bello, ve lo assicuro. E` anche questione di "educazione" usare il minimo comun denominatore fra cio` che tutti possono sare, cioe` solo i caratteri ASCII "in senso stretto". Piu` tecnicamente sono "validi" i caratteri ASCII fino al codice 127 compreso, il resto sono estensioni non standard.

Vocali accentate: perché no?

(Christian Deligant)

Quesito

Tra i punti del regolamento, uno desta parecchie perplessità tra i neofiti. Si tratta del passo in cui si dice di non usare le vocali accentate (àèéìòù) ma le vocali apostrofate (a' e' i' o' u').

Risposta

Qualunque dato registrato da un computer viene immagazzinato come una sequenza di byte. Anche quello che a video viene visto come testo. Il byte che deve essere visualizzato come carattere deve quindi essere "tradotto": tutti i byte 32 diventano degli spazi, tutti i byte 13 diventano inizio riga, tutti i byte 48 diventano 0, eccetera. È stata quindi creata una tabella, contenente 256 elementi (i codici da 0 a 255), ognuno dei quali "descrive" il carattere da visualizzare. L'esempio a fianco mostra il carattere A con una matrice 8x8.

Nota: non si devono confondere tabella ASCII, carattere e font. La tabella ASCII dipende dai settaggi del sistema operativo in uso, il carattere è invece il byte con relativa traduzione, mentre il font è la rappresentazione grafica della traduzione. Un esempio pratico: nella tabella ASCII-437 (tabella predefinita nei computer IBM-compatibili americani) il carattere 133 è la à, Questa à può essere "disegnata" diversamente in base al font (non tutti potranno vedere le differenze, solo chi ha il font installato sul proprio computer): Comic Sans MS: à, Arial black: à, Times: à, Cooper Black: à, Helvetica (Arial): à, serif (font generico con "grazie"): à, sans-serif (font generico senza "grazie"): à. In altre parole, il codice 133 della tabella ASCII-437 indica una à, qualunque sia il font utilizzato.

La richiesta di caratteri era bassa e questi erano poco più di quelli reperibili su una macchina da scrivere (statunitense) dell'epoca. Un byte era quindi più che sufficiente per contenerli tutti, anzi offrire spazio a volontà per inserire disegnini, simboli matematici e via via altri caratteri. Ogni produttore faceva un po' a modo suo, finché si decise di creare uno standard per uniformare le diverse tabelle generate fino all'ora. Questo standard si chiama ASCII. Tuttavia, per permettere a ogni produttore di computer di poter avere a disposizione un certo numero di caratteri "personalizzabili", lo standard uniforma solo i primi 128 caratteri (dallo 0 al 127 inclusi). Chi ha "smanettato" con il mitico Commodore 64 si ricorderà che i caratteri successivi al 127 erano gli stessi di quello da 0 a 127, ma in negativo!

Nel corso degli anni il costo del byte è sceso drasticamente e ha permesso la creazione e la gestione di diverse tabelle ASCII in base alle necessità (basti pensare all'alfabeto greco, cirillico, giapponese, coreano, singalese, eccetera) e quindi tutti i simboli non standard (tra cui le vocali accentate!) sono stati assegnati ai codici compresi tra 128 e 255. In altre parole, per fare un esempio pratico, sugli IBM-compatibili viene usata principalmente in Europa la tabella ASCII-850, mentre negli Stati Uniti quella ASCII-437.

L'avvento di Windows e della sua interfaccia grafica ha generato un'ulteriore confusione: le potenzialità offerte da questo "nuovo" ambiente operativo a finestre con concezione "WYSIWYG" (What You See Is What You Get - quello che vedi è quello che hai) hanno finito per imporre una nuova tabella di traduzione, la tabella ANSI. Questa tabella è diversa dalla tabella ASCII soprattutto per un punto: non è più una tabella a un solo byte, ma a due (soprattutto per permettere al mondo orientale la visualizzazione del proprio complessissimo "alfabeto"): il numero totale di codici visualizzabili sale quindi da 256 a 65.536. Anche la tabella ANSI include solo i primi 128 caratteri delle tabelle ASCII. Le vocali accentate sono quindi anche in questo caso nel segmento di tabella superiore al codice 127.

Ma in pratica?

Se da un programma di posta elettronica residente in Windows (per esempio Eudora o Outlook) viene spedito un messaggio che contiene vocali accentate, queste saranno tradotte in byte tramite la tabella ANSII. Il messaggio arriva al server di Egroups, con sistema operativo UNIX, che avrà invece una tabella ASCII di decodifica per presentare al moderatore il testo da approvare. Già a questo punto il moderatore può avere problemi: se ha un Macintosh vedrà una cosa, se ha un Windows ne vedrà un'altra, se ha uno Unix ne vedrà un'altra ancora! Dopo l'approvazione, il messagio viene inviato a tutti. Si ripete (per il miriano) lo stesso problema appena visto con i moderatori!

La faccenda si complica ulteriormente se il messaggio viene generato "on line" tramite uno dei numerosi servizi che lo consentono (Kataweb, lo stesso egroups, eccetera): tutto quello che viene scritto viene poi spedito dal proprio browser al server di posta in formato "URL-encoded", cioè con un sistema di codifica apposito sviluppato per Internet. Sono quelle coppie di numeri precedute dal segno di percentuale che frammezzano le parole che a volte compaiono sulla riga degli indirizzi del browser come risultato di una query o di un form. Tutto quello che non fa parte dell'alfabeto anglosassone (incluse le cifre da 0 a 9), e con l'eccezione di alcuni caratteri (parentesi, virgole, punti, e commerciale, trattino basso, trattino normale, eccetera) viene trasformato in questo segno percentuale seguito dal codice esadecimale (vuol dire in base 16) del carattere (per esempio %20, che corrisponde a 32 in base 10, è lo spazio). Il testo viene quindi riformattato all'arrivo, ma vengono eliminati o sostituiti tutti i codici che possono rappresentare un pericolo per la sicurezza del server (e sono parecchi!). Poi il messaggio riformattato viene inoltrato al destinatario. Si capisce che in questo caso le povere vocali accentate vengono bistrattate, trasformate, frastornate e poi addirittura perse!

Tanto vale scrivere direttamente la vocale apostrofata. D'altronde, le vecchie macchine da scrivere importate dall'America o dalla Gran Bretagna mica ce le avevano, le vocali accentate. Se poi si vuole andare a cercare il pelo nell'uovo, si legge molto più spesso del dovuto la forma E' invece di È a inizio periodo.

Christian Deligant :-)
deligant@zadig.it

Subject: E allora vuoi usare le accentate nei tuoi articoli?
From: Marvin <marvin_gpp@despammed.com>
Date: Sun, 06 Jan 2002 22:46:52 +0100
Newsgroups: it.comp.software.newsreader
Message-ID: <a1ak4s.3vue6h7.1@marvin.gpp.despammed.com>

         E allora vuoi usare le accentate nei tuoi articoli?


... una delle regole d'oro di Usenet in generale, e di it.* in 
particolare, è stata quella di non usare caratteri accentati, e di 
sostituirli con apostrofi e apici: tali raccomandazioni compaiono ancora 
in molte FAQ e manifesti di gruppi. Le ragioni di tale divieto sono legate 
alle difficoltà con le quali si è arrivati a definire gli standard per la 
trasmissione dei messaggi (sia di posta elettronica che dei newsgroup), e 
alla lentezza con cui i produttori di newsreader hanno implementato tali 
standard.

(...)

Il problema particolare dell'header "Subject" (Oggetto) Con le adeguate precauzioni, quindi, il messaggio verrà letto e scritto correttamente. C'è però un problema: tutto questo riguarda il corpo (body) del messaggio; che succede quando il carattere accentato è negli header? Un certo numero di newsreader inserisce in essi informazioni supplementari su charset e codifica. Così l'oggetto di un messaggio:  Subject: Perché non mi funziona il threading? può diventare, ad esempio:  Subject: =?iso-8859-1?Q?Perch=E9?= non mi funziona il threading? L'effetto negativo è duplice: chi usa un newsreader non attrezzato a decodificare il MIME vedrà un subject incomprensibile; inoltre il thread sarà, di fatto, composto da articoli con subject differenti, che dipendono dal newsreader e dal tipo di codifica (con tutte le conseguenze che ciò può avere per la corretta gestione del thread). Questo è il motivo per cui, fino a che non verranno adottate regole comuni sulla codifica degli header, sarebbe bene scrivere questi ultimi (e quindi anche il subject) usando solo caratteri dell'ASCII standard a 7bit.

FAQ uso pratico dei newsgroup

Ultimo aggiornamento: 20 gennaio 2003 4- Scrivere un messaggio

Abbiamo individuato il gruppo e addirittura letto il relativo charter !
Perfetto, a questo punto scegliamo un subjetc/titolo/soggetto che determini immediatamente il contenuto del nostro messaggio : sembra banale dirlo ma un bel Aiutatemi e' molto meno efficace di Problemi con il controller E-IDE.

Nello scrivere il body/testo l'unica cosa da fare e cercare di esporre il nostro problema cercando di mediare fra due esigenze :
++ usare meno parole possibile : i messaggi troppo lunghi stancano e probabilmente nessuno li leggera' sino in fondo
++ non dare nulla per scontato : chi vuole aiutarci nell'installazione di un software deve perlomeno sapere che sistema operativo usiamo

Usare caratteri maiuscoli equivale ad URLARE (e se ci fate caso il testo -dal punto di vista grafico- e' meno leggibile) e controlliamo che le righe dei nostri messaggi non siano piu' lunghe di 72 caratteri , eviteremo che escano dal monitor di chi le riceve (opzione 'line lenght' o 'ritorno a capo' del mailer)

Un appunto riguardo ai files binari (ed attachment vari , uudecode , formati proprietari etc etc) : sono considerati indice di maleducazione e se li postate sulla gerarchia italiana gli stessi vengono automaticamente individuati e cancellati (gruppi *binari* o *bin* ovviamente esclusi).

Fra l' altro, complici i mailer integrati nei browser di nuova generazione, qualcuno spedisce messaggi in formato .html che non solo sprecano banda ma risultano poco -ma proprio poco- leggibili a chi non usa i sopracitati mailer :-(



5- Rispondere ad un messaggio

Abbiamo letto un messaggio -sino in fondo e magari due volte- e vogliamo aggiungere/obiettare qualcosa ?

Per prima cosa stabiliamo se questa risposta deve essere pubblica, o meglio di interesse generale per il gruppo (follow-up), oppure se personale e quindi postata via e-mail privata (reply). . Frasi modello sono d'accordo! o grazie! aggiungono poco alla discussione e costano molto tempo e soldi al sistema : in questi casi usiamo il reply. Se la risposta o il commento risultano OT vanno postati -non ci sarebbe nemmeno bisogno di dirlo- privatamente.

Quando rispondiamo ad un messaggio e' sempre meglio quotare (= riportare evidenziando - i mailer lo fanno automaticamente ) una parte dello stesso: chi riceve/spedisce molte e-mail spesso non si ricorda cosa ha scritto , aiutatelo a capire il perche' della vostra risposta !

Altra regoletta fondamentale. Quotiamo il meno possibile, ovvero tagliamo tutte quelle parti del messaggio originario che hanno poca attinenza con la nostra risposta, in modo da rendere il nostro e-mail il piu' snello possibile (ma senza esagerare rendendo il discorso incapibile , insomma mediamo fra chiarezza e spazio). Al posto di un blocco tagliato possiamo mettere i classici [...] o [cut] o [snip] (le parentesi quadre sono 'obbligatorie').

Importante: se la parte quotata e' maggiore della parte scritta da noi parecchi server non accetteranno il messaggio restituendo un errore come too much quoted/included text.



6- Charset

Focalizziamo poi un altro particolare : ogni lingua scritta ha dei caratteri specifici, ad esempio quella italiana usa le vocali accentate. In termini informatici ci sono svariati set di caratteri grafici (charset) individuati da una sigla (ISO xxx).

Ecco sorgere un problema: se usiamo un'accentata italiana e chi riceve il messaggio non ha settato il mailer con il nostro stesso charset avremo una spiacevole conseguenza ... l'ignaro lettore vedra' il carattere corrispondente al suo charset (ovvero di tutto tranne la vocale accentata). Ripeto: non importa se chi riceve il messaggio e' italiano o meno: l'interpretazione grafica dipende da come e' settato il mailer !!! Controlliamo che il nostro charset sia ISO-8859-1

I primi 128 caratteri di qualsiasi charset sono sempre uguali, quindi se vogliamo avere la certezza assoluta che chiunque riesca a leggere senza problemi i nostri messaggi usiamo solo questi 128 caratteri (per la precisione quelli con valore decimale ascii da 0 a 127). Nel caso delle accentate italiane vocale + apostrofo = a' e'

LA POSTA
Per quanto riguarda il testo del messaggio è opportuno seguire poche ma essenziali regole:
- non scrivere tutto il testo maiuscolo, dato che in questo modo la leggibilità ne risente e, a maggior ragione, scrivere in maiuscolo in Internet significa urlare;
- evitare l'uso di lettere accentate, in quanto chi riceve il messaggio potrebbe non essere in grado di visualizzare correttamente tali lettere e si vedrebbe apparire strani caratteri: al posto delle lettere accentate utilizzare la lettera normale seguita dall'apostrofo (esempi: a', e'...).
Ricordiamo che questo fatto dipende dalle impostazioni del programma di posta di chi riceve i messaggi, non da quelle del programma di chi li invia;
- evitare di mandare i messaggi in formato HTML in quanto non tutti i programmi di posta sono in grado di visualizzarlo correttamente e il ricevente potrebbe avere dei problemi nella lettura del messaggio.
Preferire quindi il formato testo.

Netiquette - Le regole per un uso corretto delle mailing-list


  • Non utilizzare i caratteri accentati, comunque non strettamente ASCII.
    In Rete bisogna farsi capire chiaramente e per fare ciò può essere consigliabile rinunciare a certi caratteri speciali.
    Talvolta capita di ricevere messaggi parzialmente incomprensibili e non certo per questioni di lingua.
    In particolare, si possono ricevere messaggi le cui finali sono rappresentate da uno o più caratteri senza senso.
    Si scoprirà che tale sostituzione avviene proprio dove dovrebbero esserci lettere accentate. Il fatto si spiega agevolmente.
    Ad ogni zona geografica linguisticamente omogenea viene assegnato un dato "set di caratteri" che comprende un nucleo comune (ASCII) ed un estensione tipica di quelle lingue. Quello destinato all'Italia comprende sicuramente le lettere accentate, ma ciò non avviene per i tutti i paesi.
    Il set di caratteri non può essere dalle dimensioni infinite. Ecco perché lo stesso comprende, strettamente, determinati caratteri in uso in quella zona. Tale particolarità si può comprendere meglio osservando che esistono tastiere per le diverse lingue (addirittura per i diversi paesi). A parte i caratteri fondamentali e i numeri, ogni tastiera presenta le sue varianti.
    Va detto che il problema si può incontrare anche su certe mailing list che, pur riguardando iscritti sicuramente in possesso del medesimo set di caratteri, sono gestite da server situati all'estero che, per tale motivo, non sempre sono in grado di gestire caratteri non previsti per l'area geografica cui è in uso la lista.
    Per ovviare a questa limitazione (che, per noi, sembra limitata ai soli accenti e non ad altri caratteri particolari) si potrà ricorrere all'apostrofo, come si usava un tempo su certe macchine per scrivere.

  •          11. Il problema delle lettere "accentate"

    La rete è stata concepita per comunicare in inglese: una lingua in cui non si usano gli accenti. Il risultato è che i testi su internet si possono trasmettere solo con la gamma "ristretta" dei caratteri ASCII (American Standard Code for Information Interchange) che comprende tutte le lettere dell’alfabeto, tutti i numeri e i normali segni di punteggiatura, più alcuni simboli come @ $ % & * eccetera; ma non le lettere con l’accento.

    Questo significa che parole come perché o però o così possono arrivare deformate non solo se si scrive a un indirizzo fuori dall’Italia, ma anche nella corrispondenza fra italiani. Anche se il singolo sistema accetta le lettere accentate, queste cambiano se passano sulla rete e arrivano a un altro sistema; così come cambiano se si converte un testo da un editor a un altro, o da un word processor a semplice testo (questo problema non si nota nel caso delle pagine Web, perché il linguaggio HTML permette l’uso di tutti i caratteri ASCII "estesi", comprese le lettere accentate; ma quando un testo si trasferisce da HTML a un altro codice di scrittura il problema si ripropone).

    Ci sono programmi, di sviluppo recente, che permettono di trasmettere le accentate nei messaggi in rete: come MIME Quoted-Printable e Base64. Molti OLR li usano automaticamente.

    Ma la soluzione migliore è una – e molto semplice. Per nostra fortuna l’italiano (a differenza altre lingue, come il francese o lo spagnolo) pone gli accenti sempre alla fine della parola. Per evitare problemi nella comunicazione in rete basta prendere l’abitudine di usare l’apostrofo al posto delle lettere accentate: cioè scrivere perche’ o percio’ o cosi’. Giancarlo Livraghi