Cum să realizezi prognoze de vanzari mai precise folosind tehnici de inteligență artificială - Part 3 -  Preprocesarea datelor

November 29, 2023 Horatiu Mateescu

Introducere in procesarea datelor

Odată colectate datele, acestea intră apoi în etapa de pregătire a datelor. Pregătirea datelor, denumită adesea „preprocesare” este etapa în care datele brute sunt curățate și organizate pentru următoarea etapă de prelucrare a datelor.

În timpul pregătirii, datele brute sunt verificate cu atenție pentru eventuale erori. Scopul acestui pas este de a elimina datele proaste (date redundante, incomplete sau incorecte) și de a începe să creați date de înaltă calitate pentru cea mai bună inteligență de afaceri [1].

Procesul de preprocesare a datelor, inclusiv curatarea, transformarea și normalizarea lor consta în:

Identificarea Duplicatelor: Identificarea și eliminarea înregistrărilor duplicate este crucială pentru a asigura integritatea datelor și pentru a preveni biasul în analiză sau modelare.

Inspecție: Profilarea datelor și vizualizarea sunt pași inițiali excelente. Acestea oferă o înțelegere clară a calității datelor și a relațiilor dintre variabile.

Curățare: Procesul tău de curățare a datelor este cuprinzător, acoperind aspecte cum ar fi gestionarea valorilor lipsă, a duplicatelor, a outlier-ilor și standardizarea datelor. Acest pas este crucial pentru pregătirea datelor pentru analiză sau modelare.

Verificare: Verificarea corectitudinii datelor după curățare este esențială pentru a vă asigura că datele se conformează regulilor și constrângerilor așteptate.

Îmbogățire: Îmbogățirea setului de date cu informații suplimentare relevante poate furniza mai mult context și valoare analizei sau modelelor.

Standardizare: Standardizarea introducerii datelor ajută la menținerea consistenței și face mai ușor de analizat sau modelat setul de date.

Automatizare: Automatizarea proceselor de curățare a datelor poate economisi timp și reduce riscul de eroare umană.

Caracteristici ale datelor de calitate

În lumea gestionării datelor, calitatea datelor este un aspect fundamental. Datele de calitate sunt esențiale pentru a lua decizii informate și pentru a realiza analize eficiente. Iată câteva caracteristici cheie ale datelor de calitate:

Valabilitate: Valabilitatea se referă la măsura în care datele se conformează regulilor sau constrângerilor de afaceri definite. Datele valide sunt cele care respectă criteriile prestabilite, asigurând coerența cu obiectivele și cerințele organizației.

Precizie: Precizia datelor se referă la cât de aproape se află datele de valorile reale sau adevărul. Datele precise furnizează informații fiabile, reducând riscul de erori în procesul decizional.

Completitudine: Completitudinea se referă la măsura în care toate datele necesare sunt cunoscute și disponibile. Datele incomplete pot duce la informații incomplete și decizii incorecte. Asigurarea că toate datele esențiale sunt prezente este crucială pentru calitatea datelor.

Consistență: Consistența se asigură atunci când datele sunt uniforme în cadrul aceluiași set de date și/sau între mai multe seturi de date. Datele consistente nu conțin contradicții sau discrepanțe interne, facilitând analiza și interpretarea lor.

Uniformitate: Uniformitatea se referă la măsura în care datele sunt exprimate în aceeași unitate de măsură sau standard. Acest aspect este esențial pentru a evita confuzia și pentru a permite comparații relevante între datele diferite.

Asigurarea că datele respectă aceste caracteristici cheie este esențială pentru a obține date de încredere care pot fi utilizate în analize, rapoarte și decizii critice pentru afacere. Datele de calitate contribuie la eficiența operațiunilor și la obținerea unor rezultate mai precise în mediul de afaceri.

Procesarea datelor cu ajutorul biblioteci Pandas & Polars

Pandas & Polars sunt doua unelte puternice pentru prelucrarea datelor în Python, dar poate necesita ceva timp pentru a învăța toate aspectele sale și pentru a le utiliza eficient. Cu toate acestea, beneficiile oferite, precum gestionarea datelor lipsă și manipularea ușoară a datelor, le fac o alegere populară în comunitatea analizei de date.

Import biblioteci pandas si polars, plotly, etc.

# Import biblioteci

import plotly.offline as pyoff

import plotly.graph_objs as go

import pandas as pd

import polars as pl

Citire date raw din fisier csv

# Read demand data - google colab env

sales_data_df = pd.read_csv('/content/sales_data.csv', parse_dates=True)

sales_data_df.head()

Afisare date raw folosind plotly - serie de timp

# Afisare date raw folosind plotly - serie de timp

fig = go.Figure()

fig.add_trace(go.Scatter(

x=sales_data_df['date'],

y=sales_data_df['quantity'],

name='quantity')

)

fig.show()

Verificarea valori lipsa:

sales_data_df.isnull().sum()

După cum se poate observa, exista 59 de valori lipsa.

Tratare valori lipsa:

Tehnici de tratare valori lipsa:

fillna(0) - inlocuire valori lipsa NaN cu 0
backfill - inlocuire valorile NA/NaN utilizând următoarea observație validă pentru a umple golul.
ffill - inlocuire valorile NA/NaN prin propagarea ultimei observații valide la următoarea validă.

sales_prep_data = (

    sales_raw_data

    .copy(deep=True)

    .fillna(0)

    .round(2)

    .resample('1D', on='date')

    .mean()

    .reset_index()

    .assign(quantity = lambda x : x.quantity.astype(int))

)

sales_prep_data.head()

Reverificare valori lipsa