Etiquetes

, , , , , , , , , , ,

Seguint l’apunt anterior sobre enquestes a Internet, on ja vaig parlar de les limitacions tècniques que es poden posar al moment de votar si volem establir alguna mena de criteri a l’hora d’admetre o no admetre vots, també és cert que cal fer una reflexió sobre els resultats immediats: no sempre són l’opció definitiva, tot i que puguin marcar la tendència. Vegem-ne un exemple.

En el mateix cas que comentava en el darrer apunt, l’enquesta de Nació Digital sobre què votaríeu al referèndum del 9 de novembre de 2014, darrerament hi ha hagut força moviment per part d’usuaris de fòrums castellanoparlants per forçar un augment dels vots pel “No”. I, en aquests casos, per moltes limitacions que es posin, quan hi ha un gran número d’usuaris votant (s’ha arribat, en algun moment, a més de 2.000 vots pràcticament simultanis d’adreces IP diferents i reals), la veritat és que no hi ha cap criteri assequible per escollir qui pot fer-ho o no.

Però, ep! Que això no significa en cap cas que ens haguem de preocupar excessivament. Perquè quan algú emet un vot sempre en guardem alguna dada: en el cas que ens interessa, tenim què s’ha votat i una adreça IP per verificar que no es torni a repetir. Així que aquí podríem entrar en un procés de “mineria de dades”: crear algun tipus d’automatització que, més enllà dels resultats totals, ens oferís més informació addicional que, a més, pot ser interessant i útil.

Definint quina informació ens interessa

La veritat és que el número total de vots per cada opció és la informació que es pot mostrar més ràpidament perquè no requereix un processament important: si a cada vot s’haguessin de fer molts passos, tindríem un problema de rendiment al servidor, segur. Per tant, saber quanta gent ha votat i com van els vots ens val per tenir una idea global, però en un cas com un referèndum o unes eleccions, el millor seria poder tenir dades més concretes.

Obtenint la informació necessària

Tenint una adreça IP, per exemple, hi ha moltes possibilitats de poder establir el país i la regió des d’on s’ha emès el vot. Malauradament, les opcions per establir aquesta informació que són més fiables són de pagament, però hi haurà casos on obtenir aquesta informació justificarà completament la despesa. Per altra banda, si enlloc de més de 100.000 adreces IP diferents en volem consultar només unes quantes, hi ha força serveis gratuïts que ens hi ajudaran. Des dels que s’utilitzen des d’un web (cercant free ip geolocation a Google en trobareu a grapats) fins als que ofereixen APIs per automatitzar-ho, o, si més no, per obtenir resposta més ràpida. Alguns exemples: ip-api, o ip-json. Si heu programat mai en PHP, sabreu que amb curl i json_decode en podeu tenir prou per fer un automatisme ràpid. Això si: respecteu les llicències, i fixeu-vos en quins serveis són per a ús comercial i quins no.

A hores d’ara, per exemple, ja podríem tenir una relació entre adreces IP, països i regions. Fins i tot ciutats, tot i que aquesta dada no és massa fiable i, per tant, de moment no li farem cas.

A partir d’aquí el procés és ja d’estudi de les dades obtingudes. Així que, amb una miqueta més d’informació, i havent analitzat la situació, hauríem salvat un problema: la contaminació de les dades. Ja que ara, podent-les separar, podem establir, per exemple, tot i que de manera aproximada, els vots que provenien de Catalunya, i comparar-los amb els de la resta de l’Estat espanyol o del món.

És en aquest moment quan ens adonarem del valor de la informació més enllà dels trolls que, en el fons, també ens ajuden a veure tendències. Però separades. Perquè per aïllar subconjunts de dades no fan falta referèndums.

Per altra banda, però, això no vol dir que aquests processos siguin necessaris: en realitat, també hi ha alternatives, com una gestió intel·ligent de Google Analytics per tal d’obtenir resultats en temps real amb menys despesa d’infraestructura. En tot cas, s’acabi com s’acabi, una enquesta per Internet no és com una votació real pel simple fet que molt poca gent donaria el seu DNI electrònic a qualsevol mitjà per fer recomptes. I menys quan els censos previstos no semblen tant clars. Perquè només durant el procés, veient l’estadística d’evolució dels vots, queda clar qui vota què. I aquestes tendències són importants.

Com a conclusió de tot això: a Internet hi ha moltes dades, i moltes formes d’obtenir-les i creuar-les. I malgrat que això no signifiqui un alt índex de fiabilitat, si que ens pot ajudar a determinar tendències d’assoliment d’objectius, per exemple, o per conèixer millor el tipus d’usuaris en cas que rebem algun tipus de feedback.

Anuncis