Pro UTF-8, eli syyt käyttää UTF-8:aa

Sivulla http://stnz.fi/anti-utf8/ esitettiin monta väitettä sen tueksi, että ei saa tai ei kannata käyttää vielä UTF-8-koodausta IRC-kanavilla. Sen lisäksi leimataan koko ajatus siirtymisestä yksittäisten henkilöiden mielipiteeksi ilman laajaa kannatusta. (Sivu on sittemmin kadonnut.)

Yksittäiset ihmiset, joita myös usein mielipidejohtajiksi tai vain johtajiksi, yleensä ovat juuri niitä, joilla on näkemys siitä, mikä on hyväksi, ja uskaltavat ajaa asiaansa tämän näkemyksen mukaan. Eri aloilla on omat näkijänsä, ja eri näkijöillä on erilainen kannatus. Varsinkin jonkun uuden asian puolustaminen vaatii rohkeutta ja määrätietoisuutta, jota monella ei ole. Vastustaminen ja muutosvastarinta on aina helpompaa, valittajia kaikesta uudesta on kuin sieniä sateella, ja näkemys yritetään jyrätä.

Tällä hetkellä monilla kanavilla riehuu häirikköjä, jotka jokaisen UTF-8-merkin jälkeen spammaavat valituksiaan ja häiritsevät keskustelua ruututolkulla haukkumalla ihmisiä. Tämän takia keskustelun laatu heikkenee, ei sen takia, että jossain lauseessa yksi merkki siellä täällä ei näy vanhoja ohjelmia käyttävillä ihmisillä oikein. Tätä voisi verrata siihen, että huomauttaa aina, kun joku aloittaa virkkeen pienellä kirjaimella, tai jättää pisteen pois lopusta.

1) UTF-8-tuki on saatavissa useimpiin IRC-clientteihin

mIRC on yleinen ohjelma, ja se on useimmiten asennettuna käyttäjälle, joka ei itse osaa tai juuri ohjeiden mukaan on laittanut sen koneelle ennen kuin mIRC alkoi tukea UTF-8:aa. Joku kaveri on neuvonut sanotaan, ja sitten väitetään, että uuden version asentaminen on mahdotonta tällaisessa tapauksessa. No jossain se kaveri tai kaverin kaveri edelleenkin on, joka alunperin sen mIRC:in laittoi koneelle tai neuvoi miten se laitetaan. Tai muuta porukkaa. Pitäähän windowskin ja muut käyttikset paikata kuntoon tasaisin väliajoin, mikään ei tässä päivittämisessä ole uutta käyttäjille enää. Joskus jopa on hyvä hetki, jälkeenjääneen ohjelmiston vikojen paikkailun sijasta, ottaa aikalisä ja miettiä muita parempia ohjelmia, maksaa vaivan takaisin usein.

Sitten valitetaan, että juuri sitä irssi-versiota, joka tukee UTF-8:aa kunnolla, ei ole helposti saatavilla eri jakeluissa. Tässä on muna-kana-ongelma, eli että asiat vaan tuppaa kestämään kauemmin tulla käyttöön laajasti, jollei jollain näkemyksellä niitä ajeta. Uudet version kappas vaan ilmaantuu jakeluihin paremmin kun niille on mitään painetta käyttäjäkunnasta ja kehittäjiltä. Tämäkin valitus vanhenee hetkessä, ja tuntuu todella turhalta, että sitä on joutunut kuuntelemaan.

Aikaa ja vaivaa vaatii kaikki ajan mukana pysyminen. Aikaa ja vaivaa vaatii uuden tietokoneen käyttöönotto, ja silti ne 1980-luvun vehkeet on sinne jääneet.

On paljon asioita, jotka eivät ole UTF-8:kaan kanssa ratkaistuja, tai joiden tuki ei ole vielä näköpiirissä. Esimerkiksi oikealta vasemmalle kirjoitettavia kieliä ei voi esittää monilla clienteillä oikein vielä pitkään aikaan, sen verran hankala se on toteuttaa.

2) UTF-8-merkistön hyödyt

UTF-8:sta ei ole mitään hyötyä 99,99% ajasta. Ei tietenkään. Ö-kirjaimestakaan ei tässä artikkelissa ole hyötyä 98% ajasta, mutta todella harmittaisi, jos olisin joutunut sen tilalla silloin harvoin kun sitä tarvitsen käyttämään jotain muuta merkkiä. Se harmittaa tavallisen paljon, kun pitää ruveta koodaamaan jotain asiaa, jota ei voi ISO-8859-1:llä esittää, muille ymmärrettävään muotoon, ja selittää sitten joka kerta pitkästi, mitä tarkoittaa. Tällöin yhden sanan tai lauseen tai merkkijonon kirjoittamisen sijasta pitää tehdä asiaa varten esimerkiksi www-sivu, jolla lause on oikein kirjoitettuna, ja viitata siihen IRC:issä.

Suomella on kaksi naapurimaata neljästä, joiden kieltä ei voi kirjoittaa ISO-8859-1:llä. Suomessa on vähemmistökieliä, joita ei voi sillä kirjoittaa. Itse suomen kielessä käytettäviä merkintöjäkään ei voi kirjoittaa ISO-8859-1:llä. Jokaisella kanavalla ei kuukausiinkaan viitata mihinkään, mikä tarvitsisi mitään muuta merkistöä, mutta se ei olekaan jutun vitsi. Se, että joskus viitataan, tai että osalla kanavia se on hyvin tarpeellista, on tarpeeksi.

Keskustelua ei tarvitse käydä monella kielellä, tai keskustelijoiden ei tarvitse osata kieliä, joiden merkeillä kirjoitettuja sanoja tai merkkijonoja käytetään. Esimerkkejä satunnaisesta keskustelusta, jossa tarvitaan UTF-8:aa:

(Onko sinulla muita esimerkkejä? Lähetä ne minulle.)

Suurin osa asioista, jotka aina kukin järkevä uudistus tai teknologia mahdollistavat, ei ole tuntunut ollenkaan järkevältä ja tarpeelliselta, tai sitä ei ole edes tullut mieleen kenellekään tehdä ennen. Esimerkkinä GSM-puhelinten tekstiviesti. Koko konseptin tarkoitus oli vain ilmoittaa puhelinvastaajan viesteistä alunperin.. Koko ajattelumme siitä, miten IRC-kanavalla voi kommunikoida, on rajoittunut. Vain hyppäämällä eteenpäin voi nähdä mitä sieltä löytyy.

3) UTF-8-tuki fonteissa

UTF-8:n idea ei ole siinä, että jokaisessa ohjelmassa, joka sitä käyttää, on tuki kymmenille tuhansille merkeille. Idea on siinä, että sen jälkeen, kun kaikki puhuvat samalla koodauksella, on helppo tietää missä jotain erikoisempaa merkkiä on, ja esittää ne merkit - jos tarpeen. Ei tarvitse vaihtaa merkistöä, eikä kaikkien keskustelijoiden kanavalla tarvitse edes nähdä juuri sitä merkkiä, josta jotkut puhuvat. Pääasia on, että ne, jotka siitä keskustelevat, saavat tiedon erikoisessa tilanteessa välittymään ilman sen isompaa säätämistä.

4) Vanhempien ohjelmistojen ja laitteiden tuki UTF-8:lle

En tiedä, miten vanhat ohjelmistot liittyvät tähän keskusteluun. Vanhoja käytössä olevia ohjelmistoja on niinkin vanhoja, että ne eivät ymmärrä 8-bittisiä merkistöjä. Joitain vanhoja ohjelmistoja on niinkin vanhoja, että eivät ymmärrä ASCII:ta.. heh.

Vanha 7-bittisiä skandeja, eli ISO-646-FI:tä, puhuva terminaali sai aikanaan lisäaikaa merkistömuunnosohjelmista. Niin nytkin, screen osaa hyvin kätevästi ISO-8859-1:n ja UTF-8:n välisen muunnoksen.

Yhteenvetoa

Hetki UTF-8:n käyttöönotolle on juuri nyt. Ylimääräinen virittely ei vähene, siirtää käyttöönottoa kuinka pitkälle vain. Aina tulee vastaan se, että ennen laajaa käyttöä ei jotain ole ihan loppuun asti viilattu, ja vasta sitten motivaatio riittää siihen kehittäjiltä, ylläpitäjiltä, ja käyttäjien massalta. Ei UTF-8 myöskään ole oletusarvona ohjelmissa, jos sitä ei oletusarvona käytetä suurella osalla kanavista!

UTF-8:n käyttäminen on monella kanavalla operien silmätikkuna, puhutaan kieltämisestä, ja jokainen kerta, kun kanavalla näkyy UTF-8-koodattu merkki, tulee rivitolkulla 'keskustelua'. Luulevatko nämä henkilöt, että siirtyminen tosiaan voi tapahtua kaikilla käyttäjillä samaan aikaan, vaikka jokainen ohjelmisto sitä tukisi oletuksena? Aina on käyttäjiä, jotka jostain syystä käyttävät 10 vuotta vanhaa clienttiä, ja näkevät mitä sattuu ruudullaan. Välittävätkö he? Välittääkö suurin osa kanavilla olevista ihmisistä siitä, että tässä vaiheessa, kun ei vielä itse ole päivittänyt ohjelmiaan, joskus näkyy ä-kirjaimen tilalla jotain muuta? Ei. Vain pari kovaäänistä ihmistä spammaa ruudut täyteen tekstiä jokaisen UTF-8-merkin jälkeen. Tämä on epäkohteliasta käytöstä jos mikä.

Kiitokset lisäyksistä sivulle: Jοhan Kiviniemi.

Jaakko Hyvätti