Programación con "R"

-Shaydund-

Hola, me gustaría saber si me podéis dar información en relacion a R ya que actualmente estoy haciendo un master de machine learning con este lenguaje de programación.

Mi "problema" es que vengo de de la rama sanitaria (Medicina) y ya he hecho mi especialización, por lo que me muevo en un entorno que actualmente es poco dado a estos aspectos. Por otro lado, mis amigos ingenieros no han tocado mucho este tema. Así que cuando tengo dudas tiro de libros, internet y youtube; pero me gustaría saber si sabéis de fuentes que sean útiles y/o didácticas o incluso si hay aquí algún ser bondadoso que se atreviera a responderme dudas x'D. Sobre todo, porque a veces tengo problemas y estoy convencido de que son problemas fáciles de resolver pero me siguen faltando las bases.

Por otro lado, no sé si conocéis algún foro / canala de youtube /loquesea más dedicado a este tema porque la verdad me gustaría indagar mucho más por estos temas.
Creo, que dada mi formación, no aspiro a la ingenería de datos, pero sí a hacer mis pinitos y a poder servir; quizás, de conexión entre el mundo sanitario y el ingeniero de datos en un futuro.

Un saludo y gracias.

tute07011988

Todo lo que se pueda saber de la gran "R" te lo cuenta @SuperMatute

1
Naith

Para tema de ciencia de datos y relacionados tienes este libro que se centra en esos aspectos: https://r4ds.had.co.nz/ Si tienes dudas pregunta, he estado un año trabajando en R. Mañana me explayo más

2 2 respuestas
Nymphetamine

#3 Este libro es genial, y el entorno de Hadley Wickham (tidyverse) me parece muy útil para hacer análisis de datos y visualizaciones muy rápidas una vez que aprendes a organizar tus datos de manera "tidy".

Enseguida te incita a aprender a usar más paquetes y más R base.

denimH

#1 #3 Lo tienes también en español por si te da por ahí.

En general bookdown es una mina de conocimiento muy valiosa. Igual este libro y este otro también pueden venirte bien.

1
heyjoe

Hilo a favoritos, que en un par de meses me tendré que poner con el data analysis de mis experimentos y aquí hay gente que se ve que controla :full_moon_with_face:

Yo la última y única vez que cogí R fue para el máster y teniendo 0 nociones de programación logré buscarme la vida entre algúnos script copiados de clase, stackoverflow y este libro que aunque es específico de ecología si buscas análisis multivariante viene muy bien

-Shaydund-

Muchas gracias por las ayuditas.

Les iré echando un ojo :)

De momento, me da vergüenza hacer preguntas... creo que son dudas super chorras, pero por llevar poco tiempo se me hacen un poco "bola"

SamaWoodo

Me quedo por aquí para los libros de Data Science.

Quiero hacer un máster relacionado y estoy aprendiendo Python y me gustaría R por mi cuenta.

Un saludo y gracias!

Nymphetamine

Un consejo para todo el mundo:

Microsoft regala dos meses de Datacamp a estudiantes. Con un email de una institución de educación es suficiente.

Es un servicio muy bueno para dar los primeros pasos en R o Python y conocer bastantes packages interesantes.

1 1 respuesta
SamaWoodo

#9 Pues muchísimas gracias porque estaba haciendo los cursos de Python de MichinganX de coursera para ir introduciéndome.

Fyn4r

Yo enseño R a gente de primero de informática, no soy el experto en el lenguaje que debería pero no me voy a asustar por ninguna pregunta xD

23 días después
-Shaydund-

Una duda que tengo...

Estoy en el tema de regresión lineal, y me piden analizar los datos con el siguiente modelo matemático.

log(Wage) = β0+β1Experience+β2Experience2+β3Education+β4Ethnicity+ε

Haciendo los análisis de distribución normal de cada una de las variables (mediante Agostino), me sale que ninguno de los predictores tiene una distribución normal ( ni wage, ni log-wage, ni experience, ni experience2, ni education).

Por lo tanto, no tendría sentido hacer regresión lineal, no?
Es que me extraña, ya que es el ejercicio que hay que mandar para corrección...

2 respuestas
Fyn4r

#12 Probablemente suelte una burrada porque no lo recuerdo muy bien, pero creo que la "necesidad" de normalidad se aplica solo a los residuos

1 1 respuesta
-Shaydund-

#13 Gracias por contestar.

Yo lo que tengo en mis apuntes es que para utilizar la correlación las variables deben tener una distribución normal.
Una vez que has demostrado distribución normal, aplicas la correlación de pearson y ves si hay "algo" para intenatr hacer el modelo matemático.
Finalmente, si hay correlación y te decides a realizar el modelo matemático ha de haber también una distribución de normalidad de los residuos como tu bien dices.

Independienteente de ello, el modelo matemático me dice que no hay distribución normal de los residuos (he seguido adelante porque también pone en mis apuntes que a pesar de que la distribución de las variables huya de la normalidad se puede plantear y hacer la modelización matemática).

Por eso me preguntaba, que si siendo las variables de distribución NO normal, merecía la pena seguir.

Por si lo quieres trastear en este domingo (xD):

library(dplyr)
data("CPS1988")
datos <- as.data.frame(CPS1988)

Unrack

#12 Ese log(Wage) me hace sospechar de que lo que tienes que hacer es un GLM con distribución de Poisson. Te he buscado la primera referencia que parece interesante (no he profundizado) https://rstudio-pubs-static.s3.amazonaws.com/369387_b8a63ee7e039483e896cb91f442bc72f.html

He revisado algo más y ese modelado es el que viene aquí https://es.wikipedia.org/wiki/Funci%C3%B3n_de_ingresos_de_Mincer
En este caso la respuesta que debes dar es si el modelo es consistente con ese dataset?

1 respuesta
-Shaydund-

#15 Muchas gracias, indagaré por ahí.

En este caso la respuesta que debes dar es si el modelo es consistente con ese dataset?

Lo que tengo que hacer es ir siguiendo todos los pasos de verificación de un proceso de regresión lineal e ir comentando el resultado que obtengo.

Usuarios habituales

  • -Shaydund-
  • Unrack
  • Fyn4r
  • SamaWoodo
  • Nymphetamine
  • denimH
  • tute07011988