Challenges

Strubis · web-flow · commit fdd28da4b4ea · 2021-05-06T16:48:53.000-03:00
diff --git a/CrossTab.py b/CrossTab.py
@@ -0,0 +1,51 @@
+import pandas as pd
+import seaborn as sns
+import numpy as np
+
+url_data = 'https://github.com/alura-cursos/imersaodados3/blob/main/dados/dados_experimentos.zip?raw=true'
+
+dados = pd.read_csv(url_data, compression='zip')
+
+# Proporção dos valores pela linha
+pd.crosstab([dados['dose'], dados['tempo']], dados['tratamento'], normalize='index')
+
+#Normalizando pela coluna
+pd.crosstab([dados['dose'], dados['tempo']], dados['tratamento'], normalize='columns')
+
+#Usando o groupby()
+pd.crosstab([dados['dose'], dados['tempo']], dados['tratamento'], normalize='index').groupby('dose').count()
+
+com_droga = dados[dados['tratamento']=='com_droga'].groupby(['dose','tempo']).count()['tratamento']
+com_controle = dados[dados['tratamento']=='com_controle'].groupby(['dose','tempo']).count()['tratamento']
+
+concat = pd.concat([com_controle, com_droga], axis=1) #Juntando as duas tabelas
+concat.columns = ['com_controle', 'com_droga'] #Renomeando as colunas
+concat.div(concat.sum(axis=1), axis=0) #Dados normalizados
+
+pd.crosstab([dados['tratamento'], dados['dose']], dados['tempo'], normalize='index')
+pd.crosstab(dados['tratamento'], dados['tempo'], normalize='index').groupby('tratamento').mean()
+
+#Usando a aggfunc para pegar os valores menores para o g-10
+pd.crosstab(dados['dose'], dados['tempo'], values=dados['g-10'], aggfunc='min')
+
+#Usando melt()
+pd.melt(frame=dados, id_vars='g-0', value_vars=['tempo', 'dose'])
+
+sns.scatterplot(x='g-0', y='g-8', data=dados)
+sns.lmplot(data=dados, x='g-44', y='c-13', line_kws={'color': 'red'})
+
+#Correlação G e C
+corr = dados.loc[:,'g-0':'c-99'].corr()
+corr_cel_gen = corr.loc['g-0':'g-50','c-0':'c-50']
+
+mask = np.triu(np.ones_like(corr_g, dtype=bool))
+
+# Set up the matplotlib figure
+f, ax = plt.subplots(figsize=(11, 9))
+
+# Generate a custom diverging colormap
+cmap = sns.diverging_palette(230, 20, as_cmap=True)
+
+# Draw the heatmap with the mask and correct aspect ratio
+sns.heatmap(corr_cel_gen, cmap=cmap, center=0,
+            square=True, linewidths=.5, cbar_kws={"shrink": .5})
diff --git a/MergeData.py b/MergeData.py
@@ -0,0 +1,53 @@
+import pandas as pd
+import seaborn as sns
+
+#Dados do arquivo resultado
+dados_resultado = pd.read_csv('https://github.com/alura-cursos/imersao-dados-desafio-final/blob/main/Dados/dados_resultados.csv?raw=true')
+dados_resultado
+
+#Exibe a soma total de cada coluna, exceto a primeira coluna -> drop.('id', axis=1)
+#em ordem decrescente -> ascending=False
+dados_resultado.drop('id', axis=1).sum().sort_values(ascending=False)
+
+#Cria mais duas colunas contendo o número de MOA e se é ativo ou não
+dados_resultado['n_moa'] = dados_resultado.drop('id', axis=1).sum(axis=1)
+dados_resultado['ativo_moa'] = (dados_resultado['n_moa'] != 0)
+
+#Merge de dados ('n_moa', 'ativo_moa') considerando como chave o 'id' (on='id')
+merge_dados = pd.merge(dados, dados_resultado[['id', 'n_moa', 'ativo_moa']], on='id')
+merge_dados.head()
+
+#Exibe os valores contidos na combinação de dados, considerando os que tiveram
+#tratamento com controle
+merge_dados.query('tratamento == "com_controle"')['ativo_moa'].unique()
+
+#Seleciona os valores dos 5 primeiros compostos e depois plota o boxplot
+composto_principal = merge_dados['droga'].value_counts().index[:5]
+plt.figure(figsize=(10, 8))
+sns.boxplot(data=merge_dados.query('droga in @composto_principal'), y='g-0', x='droga', hue='ativo_moa')
+
+#Coluna eh_controle indicando se teve um tratamento com controle ou não
+merge_dados['eh_controle'] = (merge_dados['tratamento'] == 'com_controle')
+merge_dados
+
+#Criando mais três colunas para indicar qual foi o tempo exposto
+merge_dados['tempo_24'] = (merge_dados['tempo'] == 24)
+merge_dados['tempo_48'] = (merge_dados['tempo'] == 48)
+merge_dados['tempo_72'] = (merge_dados['tempo'] == 72)
+merge_dados.head()
+
+#Analisando o composto g-3 de acordo com o tempo e dose
+plt.figure(figsize=(10, 8))
+sns.boxplot(data=merge_dados.query('droga in @composto_principal'), y='g-3', x='tempo', hue='dose')
+#Outlier do g-3
+merge_dados['g-3'].max()
+
+#Dependendo da forma do experimento o MOA(s) é ativado ou não para o mesmo g
+merge_dados[['g-3', 'tratamento', 'tempo', 'ativo_moa', 'n_moa']]
+
+#O tipo do top 10 de compostos/drogas existentes
+#Comecei pelo 2 pelo fato de ter adicionado o 'n_moa' e 'ativo_moa'
+top_dados = pd.Series(dados_resultado.drop('id', axis=1).sum().sort_values(ascending=False))
+top_dados = top_dados.index[2:12].str.split('_')
+for i in top_dados:
+  print(i[-1])