Recursos y Herramientas disponibles

Se facilita a los participantes a modo orientativo una relación de otros recursos y herramientas de acceso libre, sin que esta relación sea cerrada ni se considere obligatorio su uso:

ENLACES A HERRAMIENTAS ABIERTAS:

GATE (General Architecture for Text Engineering):   Una arquitectura general abierta para el procesamiento de textos.

UIMA (Unstructured Information Management Applications): Un conjunto de aplicaciones para la gestión de la información no-estructurada
Apache OpenNLP: Una librería de procesamiento del lenguaje natural basado en aprendizaje automático.

Stanford CoreNLP: Un conjunto de herramientas de tecnologías del lenguaje.

NLTK (Natural Language Toolkit): Una plataforma que permite el desarrollo de herramientas para el procesamiento del lenguaje natural en Python.

FREELING: Un conjunto de herramientas para el procesamiento del lenguaje natural que incluye el castellano, el catalán y el gallego entre otras lenguas.

IXAPipes: Un conjunto de herramientas modulares para el procesamiento del lenguaje natural que incluye el castellano y el vasco  entre otras lenguas.

MALLET: Un conjunto de herramientas para el procesamiento estadístico del lenguaje natural en Java.

Por otro lado, la Universidad de Pompeu Fabra ofrece una lista de herramientas como servicios web. Esta lista está disponible en la página: http://lod.iula.upf.edu/types/Service

 

CORPUS:

Los participantes podrán desarrollar sus prototipos sobre los corpus facilitados en los siguientes enlaces (i.e. corpues de noticias de EFE, SCIELO), o bien sobre otros distintos.

ftp://u7BQbfQ3:%3F3JrLTVS@bts.bsc.es (Corpues SCIELO y Agencia EFE)

NOTA IMPORTANTE: El uso del corpus de la Agencia EFE se limitará al derivado de la participación en el hackathon, quedando excluido cualquier uso ajeno quedando expresamente prohibida la redistribución y la redifusión de todo o parte de los contenidos de los servicios de EFE, sin previo y expreso consentimiento de la Agencia EFE.

https://bts.bsc.es/u7BQbfQ3 (Username: u7BQbfQ3; Password: ?3JrLTVS)

 

PARA EL PROCESAMIENTO DE TEXTOS BIOMÉDICOS:

En el apartado “CORPUS” se facilitará el acceso al corpus de la biblioteca científica SCIELO para aquellos participantes que deseen presentar una propuesta basada en su procesamiento.

Apache cTAKES: es un sistema que ofrece una serie de componentes para el procesamiento de lenguaje natural y extracción de la información en textos médicos.

 

INFORMACIÓN ADICIONAL:

A título informativo se incluyen a continuación algunos portales de datos abiertos:

datos.gob.es 

data.europa.eu 

opendata.euskadi.eus

Scielo-dublincore.tar.gz

Scielo_clean_raw_text.tar.gz

Scielo_clean_xml_text.tar.gz  

 

INFRAESTRUCTURA DE HPC DEL BSC

El BSC (Barcelona Supercomputing Center) pondrá a disposición de los participantes que lleguen a la FASE 2, siempre que cumplan con las normas de uso y seguridad del centro, acceso a la infraestructura de HPC del BSC y otros recursos.

En concreto, dará acceso a las máquinas MareNostrum4 y una máquina con GPUs como podría ser "MinoTauro" o una máquina similar con como mínimo tarjetas Nvidia K80 o superior.
Además, se darán entre todos los participantes hasta un máximo de 50.000 horas/core de la máquina MareNostrum4 y hasta 5.000 horas de GPU en una máquina como MinoTauro o similar, y hasta 100 TB de espacio en disco para guardar los corpus y sus resultados.

Solo los finalistas que lleguen a la FASE 2 podrán hacer uso de estas horas y siempre y cuando las ejecuciones que hagan en la infraestructura se deriven de su participación en el Hackathon, quedando excluida cualquier ejecución ajena y siempre y cuando cumplan la política de uso y seguridad del BSC, que se hará llegar a cualquier finalista que esté interesado en el uso de la infraestructura HPC. Para más información sobre las máquinas y su uso pueden consultar el manual de usuario disponible aquí:

BSC - MINOTAURO
BSC - MARENOSTRUM

En las máquinas mencionadas anteriormente, se pondrá a disposición de los participantes la siguiente relación de librerías en Python para aprendizaje automático y Deep Learning:

sklearno
edward
pandas
tensorflow
theano
igraph
xgboost
keras
caffe

El uso de la infraestructura proporcionada por el BSC no será obligatorio.