Clasificación de edad de Tweets españoles – La variable edad analizada mediante el uso de clasificadores lineales

La clasificación o categorización de textos en las redes sociales como Twitter ha cobrado gran importancia con el crecimiento de las aplicaciones de este proceso en diversos ámbitos de la sociedad. La literatura sobre clasificadores de texto es significativamente amplia, especialmente en idiomas como el inglés; sin embargo, este no es el caso de la clasificación por edades, cuyos estudios se han centrado principalmente en el reconocimiento y el análisis de imágenes. En este documento se presentan los resultados de las pruebas de rendimiento de los clasificadores lineales en la tarea de identificar la edad de los usuarios de Twitter a partir de las descripciones de sus perfiles y de los tweets. Para ello, se creó un léxico español de 45 palabras en torno al concepto de «cumpleaños» y se obtuvo el patrón oro de 1541 usuarios con edad correctamente identificados. 
Los experimentos se presentan con la descripción de los algoritmos utilizados para obtener finalmente los siete mejores modelos que permiten identificar la edad del usuario con resultados de precisión entre el 66% y el 69%. Considerando la capa de recuperación de información.

Ver mas…