Frequent Itemsets Mining for Big Data: A Comparative Analysis

Tipo di pubblicazione: Articolo su rivista
Tipologia MIUR: Contributo su Rivista > Articolo in rivista
Titolo: Frequent Itemsets Mining for Big Data: A Comparative Analysis
Autori: Apiletti, Daniele; Baralis, Elena; Cerquitelli, Tania; Garza, Paolo; Pulvirenti, Fabio; Venturini, Luca
Autori di ateneo:
Titolo del periodico: BIG DATA RESEARCH
Tipo di referee: Esperti anonimi
Editore: Elsevier Inc.
Volume: 9
Numero: C
Intervallo pagine: pp. 67-83
Numero di pagine: 17
ISSN: 2214-5796
Abstract: Itemset mining is a well-known exploratory data mining technique used to discover interesting correlations hidden in a data collection. Since it supports different targeted analyses, it is profitably exploited in a wide range of different domains, ranging from network traffic data to medical records. With the increasing amount of generated data, different scalable algorithms have been developed, exploiting the advantages of distributed computing frameworks, such as Apache Hadoop and Spark. This paper reviews Hadoop- and Spark-based scalable algorithms addressing the frequent itemset mining problem in the Big Data domain through both theoretical and experimental comparative analyses. Since the itemset mining task is computationally expensive, its distribution and parallelization strategies heavily affect memory usage, load balancing, and communication costs. A detailed discussion of the algorithmic choices of the distributed methods for frequent itemset mining is followed by an experimental analysis comparing the performance of state-of-the-art distributed implementations on both synthetic and real datasets. The strengths and weaknesses of the algorithms are thoroughly discussed with respect to the dataset features (e.g., data distribution, average transaction length, number of records), and specific parameter settings. Finally, based on theoretical and experimental analyses, open research directions for the parallelization of the itemset mining problem are presented.
Data: 2017
Status: Pubblicato
Lingua della pubblicazione: Inglese
Parole chiave: big data, frequent itemset mining, hadoop and spark platforms, frequent itemset mining, hadoop and spark platforms, big data
Dipartimenti (originale): DAUIN - Dipartimento di Automatica Informatica
Dipartimenti: DAUIN - Dipartimento di Automatica e Informatica
URL correlate:
Area disciplinare: Area 09 - Ingegneria industriale e dell'informazione > SISTEMI DI ELABORAZIONE DELLE INFORMAZIONI
Data di deposito: 15 Set 2017 10:34
Progetti europei: ?? FP7_619633 ??
Data ultima modifica (IRIS): 27 Set 2017 11:33:45
Data inserimento (PORTO): 02 Ott 2017 13:00
Numero Identificativo (DOI): 10.1016/j.bdr.2017.06.006
Permalink: http://porto.polito.it/id/eprint/2680344
Link resolver URL: Link resolver link
Citazioni:

Il campo presenta il numero di citazioni presenti sulle banche dati Scopus e Web of Science e permette di accedere ai relativi record. Visualizza inoltre il link al record presente su Google Scholar.

Possono verificarsi discrepanze rispetto ai dati presenti sulle banche dati per i seguenti motivi:

  • Differenze tra i dati riportati su IRIS e quelli presenti nelle banche dati.
  • Il numero di citazioni riportate su PORTO viene estratto mensilmente. Il dato citazionale presente sulle singole banche dati è aggiornato in tempo reale
  • Il numero di citazioni per WoS viene calcolato sulla base delle collezioni in abbonamento (Science citation index Expanded e Conference Proceedings Citation Index)

Per informazioni o segnalazioni contattare scrivia/porto

+
-

Allegati

[img] PDF (survey_itemset_1_.pdf) - Postprint
Accesso al documento: Visibile (Ad accesso aperto) non prima del 24 Agosto 2019 (data di embargo).
Licenza: Creative Commons Attribution Non-commercial No Derivatives.

Download (4Mb (5000134 bytes)) | Spedisci una richiesta all'autore per una copia del documento

Azioni (richiesto il login)

Visualizza il documento (riservato amministratori) Visualizza il documento (riservato amministratori)