3 months ago
(E)
Ceci est un thread post: DeepSeek https://www.deepseek.com/ - J'ai passé la journée à apprendre comment DeepSeek a formé son modèle à 1/30 du prix des concurrents comme ChatGPT et Claude AI, au lieu de travailler. Le résumé de tout cela, selon leurs articles de recherche, est le suivant :
3 months ago
In response griot to his Publication
1. Q : Comment DeepSeek a-t-il contourné les restrictions à l'exportation ?
R : Ils ne l'ont pas fait. Ils se sont simplement contentés d'ajuster leurs puces pour gérer la mémoire de manière aussi efficace que possible. Ils ont eu de la chance : leur code bas niveau parfaitement optimisé n'a finalement pas été limité par la capacité des puces.
R : Ils ne l'ont pas fait. Ils se sont simplement contentés d'ajuster leurs puces pour gérer la mémoire de manière aussi efficace que possible. Ils ont eu de la chance : leur code bas niveau parfaitement optimisé n'a finalement pas été limité par la capacité des puces.
2. Q : Comment DeepSeek a-t-il réussi à entraîner son modèle de manière si efficace ?
R : Ils ont utilisé les formules ci-dessous pour "prédire" quels tokens le modèle activerait, puis ils n'ont entraîné que ces tokens. Cela leur a permis d'utiliser 95 % de GPU en moins que Meta, car pour chaque token, ils n'ont entraîné que 5 % de leurs paramètres.
R : Ils ont utilisé les formules ci-dessous pour "prédire" quels tokens le modèle activerait, puis ils n'ont entraîné que ces tokens. Cela leur a permis d'utiliser 95 % de GPU en moins que Meta, car pour chaque token, ils n'ont entraîné que 5 % de leurs paramètres.
3 months ago
In response griot to his Publication
3 months ago
In response griot to his Publication
3. Q : Pourquoi l'inférence de DeepSeek est-elle tellement moins coûteuse ?
R : Ils ont compressé le cache KV. (C'était une avancée majeure qu'ils ont réalisée il y a quelque temps.)
R : Ils ont compressé le cache KV. (C'était une avancée majeure qu'ils ont réalisée il y a quelque temps.)
3 months ago
In response griot to his Publication
4. Q : Comment ont-ils répliqué o1 ?
R : Par apprentissage renforcé. Ils ont utilisé des questions complexes mais facilement vérifiables (en mathématiques ou en code) et ont mis à jour le modèle lorsque la réponse était correcte.
R : Par apprentissage renforcé. Ils ont utilisé des questions complexes mais facilement vérifiables (en mathématiques ou en code) et ont mis à jour le modèle lorsque la réponse était correcte.