Comunidad de Machine Learning / Deep learning

ercabesa

gracias por la información esque me había parecido raro que te pidan algo así.

Y ya que estoy aprovecho para preguntar algo, como está de difícil tema teletrabajo para un junior? Una de las cosas que me llaman la atención de este mundo en cuanto a lo laboral es poder trabajar en remoto la verdad, estoy cerca de terminar y la mayoria de trabajos q encuentro son en teletrabajo, pero del sector del q vengo saque la conclusión de que de los juniors "no se fian"

microxarth

#147 Jajaja pues sobre lo que comentas yo creo que puede ser o no ser normal que las entrevistas sean peculiares (me refiero, puede haber dudas de si es normal o no). Pero lo que está claro, y no hay ninguna duda de ello, es que normal no es que el entrevistador te hable así.

Como si es el mercado laboral con una tasa de paro del 95%, ante todo, respeto por que lo que tienes delante es una persona.

12 días después
inkiet

Hola, ¿alguna opinión del libro Machine Learning with PyTorch and Scikit-Learn? Estoy tentado en pillarlo e iniciarme en esto. Soy programador, pero en ML nivel 0.

5 meses después
Dakka

Alguien se ha trasteado con LLMs de hugging face como llama2 o Falcon para tareas específicas? Cómo funciona exactamente el proceso, te descargas el modelo con los pesos con los que fue entrenado y después lo entrenas unos steps más con tu propio dataset?

1 respuesta
Lolerpopler

#154 Yo no lo he hecho directamente pero si he estado hablando con alguien que lo hizo hace un par de semanas. Bajas el modelo (en su caso lo hizo en google collab) Y no hay que hacer mas entrenamiento. En el primer prompt lo "configuras" le puedes decir el formato de la respuesta, si necesitas un json con formato especifico y ya

1 respuesta
Dakka

#155 No lo he dejado muy claro, me refería a usar los modelos con data sets propios para tareas que de otra forma sería imposible con el modelo vanilla

8 meses después
telemaco103

Revivo un poco el hilo con una pregunta, porque está algo muertecillo. Por circunstancias tengo que aprender NLP. La cosa es que de NLP tengo bastante claros los conceptos, a nivel teórico, pero no me he puesto nunca a programar mis propias cosas para NLP. Ante esta disyuntiva, una de las opciones que he pensado es hacer un curso que me permita consolidar aún más los conocimientos teóricos, unido a conseguir esos conocimientos prácticos gracias a los ejercicios que se suelen proponer en los cursos. Los cursos que he meditado son:

En realidad he buscado algunos más, pero ahora no los tengo a mano.

La cosa es que nunca he sido muy fan de realizar cursos, he aprendido más leyendo y replicando papers, pero ahora necesito aprender algo relativamente "rápido" y creo que hacer un curso así allana el camino.

Que me recomendáis? Alguno de los cursos? Algún libro? Como aprendisteis vosotros?

1 respuesta
Kr4n3oK

#157 Supongo que a modo introductorio estos cursos van bien. Yo me acabo de terminar el primero de todos de Deep Learning de Santiago Hernandez, la verdad que me ha encantado aunque lo que yo buscaba puede ser algo mas concreto. En mi caso he aprendiendo a montar una neurona desde 0 (y lo estoy haciendo en C, por probar cositas) hasta utilizar keras, tensorflow, etc.

hda

Bueno, chavales, como muchos ya sabréis, hace 5 días Meta liberó Llama 3 en 8B y 70B de parámetros, y en istruct y normal. Estoy bajando ahora mismo una versión cuantizada 8 (Q8) instruct, con muchas ganas de probarla. Son unos 80 Gb, montaré los 48 en las gráficas y el resto en la ram, a ver qué tal va.

Para quien le interese, el modelo 70B sin cuantizar son unos 130 Gb. Quizás me lance a probarlo, pero meter solo el 35% en VRAM y el resto en RAM igual hace que vaya a pedos.

A saber cuánto ocupará el de 400B cuando lo terminen de entrenar. Muy prometedor.



Tristemente va un poco lento.

7
hda

Update: Es inoperable, va demasiado lento, como a 3 t/s, frente al mucho mejor modelo de 8B que va a unos 60t/s. El 8B lo cargo sin lobotomizar (fp16), son unos 8gb en VRAM. Si os entra os insto a que lo probéis, va muy fino. Estoy a la espera de que la peña aumente la ventana de contexto, que ahora mismo solo es de 8k tokens. También es posible que hagan un mixture of experts con instancias de 8B reentrenadas, específicas, y eso estaría chulo probarlo.

PD: El LM Studio es crema de la buena. Ollama también <3

1 2 respuestas
Dakka

#160 Usas los llms para alguna aplicacion o solo para poder consultar localmente? A mi lo que me gusta de ollama o LM Studio es que viene con bastantes optimizaciones para inferencia y suele ser bastante mas rapido que ejecutar pytorch en eager mode.

Y ya para flipar con velocidad esta groq https://console.groq.com/playground?model=llama2-70b-4096. Sale increiblemente barato si alguien necesita inferencia para alguna aplicacion.

Si quieres meterte a trastear, he visto que cambiando la configuracion del rope the llama3 se puede ampliar la ventana de contexto bastante mas.

1 respuesta
Maaarc

#160 https://huggingface.co/microsoft/Phi-3-mini-4k-instruct Mirate este haber que te parece, aún suelta humo del horno jajaja

1 respuesta
hda

#161 Pues ahora monto el ollama al arrancar para ir contra mi obsidian (antes tiraba de api$ de gpt). Y llm para trastear modelos y colsultar localmente. Pero la idea próxima es instanciar un docker de ollama para mi homelab. Tengo algunos flujos iftt que tirarían de la api de wishper y luego de la de ollama (ahora mismo trasncripción y análisis los tengo contra openAI). El problema es que en el servidor solo tengo una 3080 así que ando corto de VRAM.

Respecto a llama2 70b, las métricas indican que llama3 8b lo iguala o mejora. Es la leche. Y respecto a las ventanas de contexto, he de meterme con ello porque son muy pequeñas. ¿Tienes más información?

#162 coño, qué guapa, recién salida. En las métricas veo que supera en algunos puntos a llama3 8b ¡la probaré! Así voy teniendo los motores preparados.

A ver si salen algunas finetuning para code completion. Tengo unas ganas locas de que por fin integren esto en spyder 5.

1 1 respuesta
Slowbro

https://videogigagan.github.io/

1
Dakka

#163 Lo he visto en Twitter y es posible que venga acompanado de una perdida de rendimiento... Con la locura que es twitter que cada dia ves 3.000 mejoras, si es realmente novedoso lo volvere a ver.

Otro en la misma linea https://twitter.com/UnslothAI/status/1783200234669236532

1 1 respuesta
hda

#165 muy interesante.

Creo que deberíamos crear un hilo específico de la materia: LM Studio, Ollama y modelos que van saliendo.

1
Khesnar

Creo que ya ronda por LM Studio alguna versión de Llama 3 de 48k de contexto (yo de momento solo veo de 32k)

Dakka

https://x.com/winglian/status/1783456379199484367

Ahí va, 64ks de contexto. Esto cada día cambia...

1

Usuarios habituales

  • hda
  • telemaco103
  • ercabesa
  • NocAB
  • refresco
  • Millonet1
  • gonya707