Logo
griot
3 months ago (E)
Ceci est un thread post: DeepSeek https://www.deepseek.com/ - J'ai passé la journée à apprendre comment DeepSeek a formé son modèle à 1/30 du prix des concurrents comme ChatGPT et Claude AI, au lieu de travailler. Le résumé de tout cela, selon leurs articles de recherche, est le suivant :
griot
3 months ago
In response griot to his Publication
1. Q : Comment DeepSeek a-t-il contourné les restrictions à l'exportation ?

R : Ils ne l'ont pas fait. Ils se sont simplement contentés d'ajuster leurs puces pour gérer la mémoire de manière aussi efficace que possible. Ils ont eu de la chance : leur code bas niveau parfaitement optimisé n'a finalement pas été limité par la capacité des puces.
griot
3 months ago
In response griot to his Publication
2. Q : Comment DeepSeek a-t-il réussi à entraîner son modèle de manière si efficace ?

R : Ils ont utilisé les formules ci-dessous pour "prédire" quels tokens le modèle activerait, puis ils n'ont entraîné que ces tokens. Cela leur a permis d'utiliser 95 % de GPU en moins que Meta, car pour chaque token, ils n'ont entraîné que 5 % de leurs paramètres.
griot
3 months ago
In response griot to his Publication
3. Q : Pourquoi l'inférence de DeepSeek est-elle tellement moins coûteuse ?

R : Ils ont compressé le cache KV. (C'était une avancée majeure qu'ils ont réalisée il y a quelque temps.)
griot
4. Q : Comment ont-ils répliqué o1 ?

R : Par apprentissage renforcé. Ils ont utilisé des questions complexes mais facilement vérifiables (en mathématiques ou en code) et ont mis à jour le modèle lorsque la réponse était correcte.
3 months ago
In response griot to his Publication

No replys yet!

It seems that this publication does not yet have any comments. In order to respond to this publication from griot , click on at the bottom under it