Comunidad de Machine Learning / Deep learning

Leos #31 Abr '22

#30 Mi idea como first feature, entrenar un modelo para que hablara igual que algun user, segun eligieras y creara comentarios random con lo aprendido.

2

hda #32 Abr '22 Agujeros negros ( ͡° ͜ʖ ͡°)

#30 es que es muy interesante lo que estás haciendo. Y supone un porfolio cojonudo. A mí me encantaría echar un cable, pero ahora mismo estoy súper enchufado con mi proyecto, estoy haciendo SNA sobre webs de fármacos ilegales. Brutal lo que estoy encontrando.

Algunos ejemplos, los nodos son webs ilegales de fármacos online:

spoiler

5 1 respuesta

CaNaRy_r00lz #33 Abr '22 Inocente

#26 Por curiosidad, que es IBM ahora entonces?

1 respuesta

Erterlo #34 Abr '22

#33 IBM es IBM, Kyndryl, la empresa donde trabajo, es una escisión de servicios IT de IBM.

1

A

Akiles_X #35 Abr '22 Manitas de cerdo

#32 Mi tesis es sobre SNA y fake news en salud, ya te bichearé cosas.

1 1 respuesta

NocAB #36 Abr '22

#24 supongo que depende de tu punto de partida, yo estoy terminando un máster universitario (en ciencia de datos) de dos años y me está costando entrar en procesos de selección. Me imagino que es por la falta de experiencia relacionada porque aunque hay muchas ofertas en la gran mayoría piden experiencia y en las que no hay mucha gente.

#30 vaya follón tener que ponerte a etiquetar todos esos datos manualmente. No tengo ni idea de NLP pero no puedes usar algún algoritmo no supervisado?

1 respuesta

B

[Borrado] #37 Abr '22

#36 Soy un ciego dando palos... imagino que habrá 100 enfoques mejores de los que actualmente me estoy planteando... los de "ancora" tenían un sistema híbrido.. automático y manual. Ni idea de como funcionan los "algoritmos no supervesidados" y por lo que estoy viendo es meterme en más mundo desconocido... prefiero un método más rudimentario para ir iniciándome en este mundillo, pero te agradezco la mención... algo más que se puede investigar.

Lo cierto es que lo que trato de medir es en bastante grado algo subjetivo... igual un comentario que en Madrid se ve obsceno, en XXX se ve gracioso porque hace referencia a un personaje querido solo por los de XXX mayormente. Todo tiene un sesgo bastante importante para mi gusto... pero bueno, fuera de esto si consigo algo de lo que pretendo estaré feliz de haber rascado un poquejo algo sobre este mundillo que siempre me ha llamado la atención y lo veía como brujería xD

Resumiendo: Yo solo estoy por aquí de pasada... soy mas noob que el noob mas noob... reciente empezando, familiarizándome con términos, etc... :B No me pidáis más que peto por todos lados.

1

hda #38 Abr '22 Agujeros negros ( ͡° ͜ʖ ͡°)

#35 yo pensaba que te dedicabas a seguridad informática, a red teaming, más concretamente

1 respuesta

A

Akiles_X #39 Abr '22 Manitas de cerdo

#38 Yo me dedico al marketing digital, concrétamente a la analítica digital y el posicionamiento (más on page que off o contenidos). De seguridad informática sé algo, pero si acaso de blue.

Mi tesis (si la termino) es analizar qué se produce, cuando se produce y quien produce contenido no veraz sobre el ámbito de la salud en redes sociales (Twitter por facilidad de estudio) en periodo prepandemia.

Recientemente me he hecho los cursos de este programa especializado de Coursera https://www.coursera.org/specializations/natural-language-processing
Cualquiera con un poco de base en RRNN debería poder sacárselos en mes, mes y medio. Ahora quiero empezar a estudiar más en profundidad teoría de grafos, pero no me da la vida. (nunca hagáis un doctorado y curréis a la ver niños!)

2

gonya707 #40 Abr '22 Moderador

Ya tengo pensado sobre qué hacer una primera competición entre nosotros este fin de semana. Estoy abierto a sugerencias sobre como hacerlo, pero en principio usaré las competiciones privadas que usa kaggle, os doy un train dataset y un test dataset con el que predecir un campo, el propio kaggle checkea tus respuestas y te da una puntuacion

Por daros pistas de de qué va la vaina:

Va a ser un problema de clasificación entre tres categorias
El dataset es un csv con unas 3000 entradas, lo voy a dividir en 20% test 80% train
Lo dejare abiert no se... una semana? dos?
Es información pública asi que técnicamente se puede hacer trampas como la gente que participa en la competición del titanic, no me seais garrulos, que esto lo hacemos por los loles

3 1 respuesta

hda #41 Abr '22 Agujeros negros ( ͡° ͜ʖ ͡°)

#40 por aportar, cambiaría el título del hilo para añadir Kaggle. Creo que sería más claro: un lugar para hacer compelticiones mediavideras de kaggle. Molaría mil, y a muchos nos motivaría. Llevo años en kaggle y no he hecho nada, hulio.

Por supuesto, otra cosa molona es que todo lo que hagamos en kaggle puede ir para portfolio GitHub, genial si alguien quiere dar el salto a DS o analytics, o si quiere engrosar un poquito su perfil.

También estaría ideal que nos comentáramos entre nosotros, hay gente por aquí que controla un montón y cuyas críticas siempre vendrían genial

PD: A mí me llaman proyectitos. Tengo muchas ideas para explorar y poca experiencia trabajando en grupo. Aunque ando liado de tiempo, siempre me gusta embarcarme en cuestiones entretenidas. Vamos, lo de @overflow es crema, crema.

2 1 respuesta

refresco #42 Abr '22

Tengo una pregunta que es muy estúpida pero así soy.
Cuando queréis crear un clasificador para cualquier cosa hacéis algo tipo.

Scikit. Clasificador(datos). (suponiendo qué sea así la función)

Llamáis directamente a una función de una librería que lo hace directamente?
Si esto es así, siempre se va obtener la misma precisión salvo cambios pequeños? Por lo que se estas funciones utilizan optimizacion estocástico entonces las diferencias van a ser pequeñas.
Diseñais vuestras propias funciones desde 0 para mejorar la precisión?

1 respuesta

gonya707 #43 Abr '22 Moderador

#41 Mientras estuviese la competicion abierta podria modificar el titulo con algo como "Primera competicion abierta!" etc Alternativamente se puede dejar este hilo como hub y comentario general y crear hilos para las distintas competiciones. Creo que desde un punto de vista organizativo lo segundo es mas apropiado pero tampoco quiero diluir aun mas la escasa comunidad que hay

1

gonya707 #44 Abr '22 Moderador

#42 Según el problema. Solo en un par de ocasiones he hecho mi propio algoritmo para adaptarlo a un problema especifico, pero con datos corrientes los algoritmos corrientes suelen servir.

La tonica general de algoritmos con scikit (o tensorflow tambien) es más rollo:

modelo = algoritmo_asdf() # Creas una instancia del modelo
modelo.fit(datos) # adaptas los weights del modelo a tus datos
modelo.predict(dato) # predices un dato desconocido

1 respuesta

refresco #45 Abr '22

#44 entonces en esas competiciones la gente desarrolla sus propios modelos para ajustarlo más?
Para redes neuronales se empieza a trastear metiendo capas a ojo de buen cubero?

1 respuesta

gonya707 #46 Abr '22 Moderador

#45 Hay muchas opticas para sacar mejores resultados en un modelo, puedes hacer tus propios algoritmos, pero hacer pequeños cambios a tus datos, los hiperparámetros de los modelos, puedes usar un modelo ya pre entrenado y adaptarlo a tu problema...

El tio de Machine Learning Mastery al apuntarte a su newsletter te manda una chuleta con tecnicas para mejorar el rendimiento de tu modelo e incluye 32 caminos que tomar, ni mas ni menos.

1 1 respuesta

hda #47 Abr '22 Agujeros negros ( ͡° ͜ʖ ͡°)

#46 ¡Más newsletters! Esa no la conocía.

3 sobre lengua castellana
2 sobre ciencia
4 sobre seguridad informática
2 sobre videojuegos
3 sobre otros tantos museos
3 sobre tecnología
1 sobre sociedad/política
WaitButWhy (categoría propia)

Las newsletters son lo mejor justo tras los lectores rss. Llevo sin lectores rss desde la caída de Google Reader.

Maaarc #48 Abr '22 Penitente

Intentaré participar aunque estoy muy verde en el tema.

No se cuantos participaremos, ni el nivel, pero si alguien quiere comentar mi solución post-competicion se agradecerá.

gonya707 #49 Abr '22 Moderador

https://www.mediavida.com/foro/dev/primera-cometicion-machine-learning-mediavida-685978 estamos en el aire

telemaco103 #50 Abr '22 Inocente

Lo primero decir que me quedo por aquí.

Mi experiencia en esto del ML no es muy larga, empecé hace unos 3-4 años con mi TFG donde trabajé sobre un problema de regresión (Predicción del nivel de agua de un embalse en Galicia). Al final de la carrera toqué un poco más en asignaturas como Visión Artificial y en el máster he tenido un par de experiencias también con este tema (pero todo en MATLAB). Desde hace un par de años ando trabajando en Python pero estoy trabajando con técnicas de optimización usando algoritmos Metaheurísticos.

Me gustaría empezar a aprender algo de ML en Python. Sabiendo que no parto de nuevas ni en ML ni en Python, por donde me recomendaríais empezar? Sklearn? TensorFlow?

1 respuesta

gonya707 #51 Abr '22 Moderador

#50telemaco103:
Sklearn? TensorFlow?

Ambos realmente, no se solapan, sklearn es para todos los algoritmos shallow como random forest, decision trees, SVMs, regresion lineal/polinomica.... Y tensorflow para deep learning, perceptrons, CNN, RNN etc

Pero mi recomendacion es que antes de ponerte con ninguno de esos dos aprendas a usar numpy y pandas (y matplotlib ya que estamos) si no lo dominas ya. El salto de numpy a tensorflow es mucho mas sencillo que tensorflow a pelo , y luego con keras contruir modelos es trivial.

una vez te desenvuelvas con numpy y pandas para usar sklearn los codigos de ejemplo de la documentación son bastante buenos, los de tensorflow también pero si quieres algo un poco mas guiado para TF te recomiendo este curso de ZTM que realmente puedes acceder enteramente gratis en su pagina de github, ahi tienes los cuadernos completos y es cuestion de ir leyendo y siguiendo. Y si quieres ver las primeras hroas del curso en video tambien esta en youtube en dos partes:

1 1 respuesta

telemaco103 #52 Abr '22 Inocente

#51 Muchas gracias por la respuesta. Con numpy, matplotlib y pandas si me manejo puesto que estoy trabajando con ello a diario, así que me pondré a mirar TF y Sklearn. A ver si consigo tiempo y me pico un rato con el reto del otro hilo.

1

A

Akiles_X #53 Abr '22 Manitas de cerdo

Si vais a tocar RRNN yo recomiendo PyTorch. TF es cojonudo, pero a poco que quieras tunear algo en TF lo vas a pasar canutas. Además para PyTorch hay mogollón de modelos ya creados en HuggingFace mientras que para TF no hay tantos. Y si hacéis investigación (hda esto va por ti xD) es casi obligado pues es el estandar debido a su capacidad de personalización.

NocAB #54 Abr '22

Quiero cambiar mi forma de acceso a Kaggle pero no veo la forma. Cuando me creé la cuenta la hice entrando directamente con la de google pero quiero tener el acceso con mail y contraseña. ¿Sabéis cómo hacerlo?

Estoy por cerrarla y hacerme otra porque ahí no tengo hechos más que unos cursillos básicos.

1 respuesta

richmonde #55 Abr '22 FF True Fan

#54 Si no tienes nada importante, ni competiciones ni nada, reviéntala y hazte una de 0.

1 1 respuesta

NocAB #56 Abr '22

#55 gracias, así ha sido mucho más fácil y rápido.

gonya707 #57 Abr '22 Moderador

Un cuaderno muy interesante para ver en qué patrones se fijan nuestras CNNs

https://www.kaggle.com/code/debarshichanda/gradcam-visualize-your-cnn

refresco #58 Abr '22

He hecho una regresión lineal y un foredttree para una cosa que es una tontería y al calcular el error cuadrstico medio de cada modelo obtenía errores muy pequeños. Para comprobar que no estaba haciendo overfitting hice cross_vslidation y sigo obteniendo errores cuadrsticos muy pequeños.
Al usar esto último ya uno se asegura que no hay overfitting al estar cruzando los datos o aún puede estar pasando? Alguna otra forma de asegurarme además de usar diferentes estadísticos para medir el error?

1 respuesta

gonya707 #59 Abr '22 Moderador

#58 Asi en terminos generales si el loss, en tu caso cross_validation difiere mucho de de test a train dataset tienes todas las papeletas de estar overfiteando. Si tienes cross_validation muy baja en las mismas magnitudes con datos distintos vas bien.

Alguna otra forma de asegurarme además de usar diferentes estadísticos para medir el error?

Muchas veces el overfit viene porque el modelo usado es más complejo de lo que debería ser, no en vano la técnica más comun para evitar el overfit es simplificar el modelo, quitar features, dropear algunas neuronas en el caso de DNN, etc

Cuanto más simple mejor. asi que puedes sacar graficas como esta de arriba ploteando tus features vs target y ver que dibuja tu modelo frente a los datos. Eso si, tendras que reducir el dataset a las cosas mas relevantes para limitar las dimensiones

1 respuesta

refresco #60 Abr '22

#59 los test_set aún no les he tocado porque leí que es mejor no usarlos hasta que tengas ya un buen modelo con hyperparsnetros ajustados por noseq de lekeage que tampoco entiendo como eso podía pasar.

2 respuestas

Dragon Cluster

Central Cluster

Usuarios habituales

Tags