This project aims to provide a comprehensive analysis of salary trends in two rapidly evolving fields: Cyber Security and Data Science. Utilizing datasets containing salary information from various countries, the analysis explores multiple aspects such as geographical salary distribution, the impact of experience levels and company sizes on salaries, and the correlation between remote work and compensation.
The analysis is based on two primary datasets:
Cyber Security Salaries: Contains information about salaries in the field of Cyber Security across various countries, company sizes, and experience levels.
Data Science Salaries: Consists of data regarding salaries in the Data Science domain, detailing similar attributes for comparison. Features
Data Cleaning and Preprocessing: Standardizing country names using the pycountry library and filtering the datasets to include only common geographical locations for a fair comparison.
Descriptive Analysis: Summarizing the key statistics of both datasets.
Salary Comparison: Investigating how salaries vary based on factors like experience level and company size.
Geographical Analysis: Comparing the distribution of salaries across different countries and regions, especially focusing on Europe and the United States.
Remote Work Analysis: Examining the relationship between remote working ratios and salary levels in both fields.
Correlation Matrices: To understand the relationships between different numerical variables in the datasets.
Bar Charts and Boxplots: For comparing average salaries across different categories like experience levels and company sizes.
Geographical Maps: Using Geopandas to visualize the global distribution of employees in both Cyber Security and Data Science fields.
Tools and Libraries Used
Pandas and Geopandas: For data manipulation and geographical data handling.
Matplotlib and Seaborn: For creating a wide range of static, animated, and interactive visualizations.
PyCountry: For country code standardization and conversion.
This project sheds light on various factors influencing salary structures in Cyber Security and Data Science, providing valuable insights for professionals and stakeholders in these fields.
Questo progetto mira a fornire un'analisi completa delle tendenze salariali in due campi in rapida evoluzione: Cyber Security e Data Science. Utilizzando set di dati contenenti informazioni sugli stipendi di vari paesi, l’analisi esplora molteplici aspetti come la distribuzione geografica degli stipendi, l’impatto dei livelli di esperienza e delle dimensioni dell’azienda sugli stipendi e la correlazione tra lavoro a distanza e retribuzione.
L’analisi si basa su due set di dati primari:
Stipendi per la sicurezza informatica: contiene informazioni sugli stipendi nel campo della sicurezza informatica in vari paesi, dimensioni aziendali e livelli di esperienza.
Stipendi di Data Science: sono costituiti da dati relativi agli stipendi nel dominio di Data Science, che dettagliano attributi simili per il confronto. Caratteristiche
Pulizia e preelaborazione dei dati: standardizzazione dei nomi dei paesi utilizzando la libreria pycountry e filtraggio dei set di dati per includere solo posizioni geografiche comuni per un confronto equo.
Analisi descrittiva: riepilogo delle statistiche chiave di entrambi i set di dati.
Confronto salariale: indagare su come variano i salari in base a fattori come il livello di esperienza e le dimensioni dell'azienda.
Analisi geografica: confronto della distribuzione degli stipendi tra diversi paesi e regioni, con particolare attenzione all'Europa e agli Stati Uniti.
Analisi del lavoro a distanza: esame della relazione tra i rapporti di lavoro a distanza e i livelli salariali in entrambi i campi.
Matrici di correlazione: comprendere le relazioni tra le diverse variabili numeriche nei set di dati.
Grafici a barre e boxplot: per confrontare gli stipendi medi tra diverse categorie come livelli di esperienza e dimensioni dell'azienda.
Mappe geografiche: utilizzo di Geopanda per visualizzare la distribuzione globale dei dipendenti nei settori della sicurezza informatica e della scienza dei dati.
Strumenti e librerie utilizzate
Panda e Geopanda: per la manipolazione dei dati e la gestione dei dati geografici.
Matplotlib e Seaborn: per creare un'ampia gamma di visualizzazioni statiche, animate e interattive.
PyCountry: per la standardizzazione e la conversione del codice paese.
Questo progetto fa luce su vari fattori che influenzano le strutture salariali nella sicurezza informatica e nella scienza dei dati, fornendo preziosi spunti per professionisti e parti interessate in questi campi.