griot on Village

1 yr. ago (E)

Ceci est un thread post: DeepSeek https://www.deepseek.com/ - J'ai passé la journée à apprendre comment DeepSeek a formé son modèle à 1/30 du prix des concurrents comme ChatGPT et Claude AI, au lieu de travailler. Le résumé de tout cela, selon leurs articles de recherche, est le suivant :

griot

1 yr. ago

In response griot to his Publication

1. Q : Comment DeepSeek a-t-il contourné les restrictions à l'exportation ?

R : Ils ne l'ont pas fait. Ils se sont simplement contentés d'ajuster leurs puces pour gérer la mémoire de manière aussi efficace que possible. Ils ont eu de la chance : leur code bas niveau parfaitement optimisé n'a finalement pas été limité par la capacité des puces.

griot

2. Q : Comment DeepSeek a-t-il réussi à entraîner son modèle de manière si efficace ?

R : Ils ont utilisé les formules ci-dessous pour "prédire" quels tokens le modèle activerait, puis ils n'ont entraîné que ces tokens. Cela leur a permis d'utiliser 95 % de GPU en moins que Meta, car pour chaque token, ils n'ont entraîné que 5 % de leurs paramètres.

1 yr. ago

In response griot to his Publication

griot

1 yr. ago

In response griot to his Publication

3. Q : Pourquoi l'inférence de DeepSeek est-elle tellement moins coûteuse ?

R : Ils ont compressé le cache KV. (C'était une avancée majeure qu'ils ont réalisée il y a quelque temps.)

griot

1 yr. ago

In response griot to his Publication

4. Q : Comment ont-ils répliqué o1 ?

R : Par apprentissage renforcé. Ils ont utilisé des questions complexes mais facilement vérifiables (en mathématiques ou en code) et ont mis à jour le modèle lorsque la réponse était correcte.

(1) Show this thread

Sign in