Il quantitativo di dati che Internet mette a disposizione di ciascuno di noi attraverso siti istituzionali e governativi (nella forma di open data, government open, e sorgenti dati liberamente accessibili) e piattaforme di social networking (Facebook, Twitter, …), è enorme. In questo momento, si parla di “data science” per indicare un campo di ricerca emergente nel quale sono studiate e applicate tecniche per estrarre informazioni, analizzare i contenuti e scoprire nuova conoscenza da sorgenti dati di grandi dimensioni (big data) al fine di ottenere un vantaggio competitivo. La “data science” ha quindi una importanza cruciale sia per il mondo del lavoro sia per quello della ricerca.
Il corso intende avere un orientamento prettamente pratico e prevede una serie di attività laboratoriali e progettuali attraverso le quali verranno introdotte e analizzate le tecniche fondamentali di analisi di big data che includono algoritmi per la gestione di dati (e.g., MapReduce), algoritmi di data mining e di modellazione statistica. Il corso prevede l’uso dell’ambiente di machine learning WEKA, e lo sviluppo di semplici programmi con il linguaggio Python (in particolare e librerie pandas e scikit-learn).
Attraverso questo corso gli studenti saranno in grado di:
- Conoscere i maggiori trend tecnologici, scientifici e applicativi connessi con i big data e la data science.
- Conoscere gli aspetti significativi di alcune piattaforme per l’analisi di dati.
- Modellare un problema relativo all’analisi di dati e proporre approcci per la sua risoluzione.
- Utilizzare alcune importanti tecniche di analisi di dati, text analysis e data mining
Il corso intende avere un orientamento prettamente pratico e prevede una serie di attività laboratoriali e progettuali attraverso le quali verranno introdotte e analizzate le tecniche fondamentali di analisi di big data che includono algoritmi per la gestione di dati (e.g., MapReduce), algoritmi di data mining e di modellazione statistica. Il corso prevede l’uso dell’ambiente di machine learning WEKA, e lo sviluppo di semplici programmi con il linguaggio Python (in particolare e librerie pandas e scikit-learn).
Attraverso questo corso gli studenti saranno in grado di:
- Conoscere i maggiori trend tecnologici, scientifici e applicativi connessi con i big data e la data science.
- Conoscere gli aspetti significativi di alcune piattaforme per l’analisi di dati.
- Modellare un problema relativo all’analisi di dati e proporre approcci per la sua risoluzione.
- Utilizzare alcune importanti tecniche di analisi di dati, text analysis e data mining
- Docente: Francesco GUERRA