Ceci est un thread post: DeepSeek https://www.deepseek.com/ - J'ai passé la journée à apprendre comment DeepSeek a formé son modèle à 1/30 du prix des concurrents comme ChatGPT et Claude AI, au lieu de travailler. Le résumé de tout cela, selon leurs articles de recherche, est le suivant :
3 months ago
(E)
3 months ago
In response griot to his Publication
1. Q : Comment DeepSeek a-t-il contourné les restrictions à l'exportation ?
R : Ils ne l'ont pas fait. Ils se sont simplement contentés d'ajuster leurs puces pour gérer la mémoire de manière aussi efficace que possible. Ils ont eu de la chance : leur code bas niveau parfaitement optimisé n'a finalement pas été limité par la capacité des puces.
R : Ils ne l'ont pas fait. Ils se sont simplement contentés d'ajuster leurs puces pour gérer la mémoire de manière aussi efficace que possible. Ils ont eu de la chance : leur code bas niveau parfaitement optimisé n'a finalement pas été limité par la capacité des puces.
3 months ago
In response griot to his Publication
2. Q : Comment DeepSeek a-t-il réussi à entraîner son modèle de manière si efficace ?
R : Ils ont utilisé les formules ci-dessous pour "prédire" quels tokens le modèle activerait, puis ils n'ont entraîné que ces tokens. Cela leur a permis d'utiliser 95 % de GPU en moins que Meta, car pour chaque token, ils n'ont entraîné que 5 % de leurs paramètres.
R : Ils ont utilisé les formules ci-dessous pour "prédire" quels tokens le modèle activerait, puis ils n'ont entraîné que ces tokens. Cela leur a permis d'utiliser 95 % de GPU en moins que Meta, car pour chaque token, ils n'ont entraîné que 5 % de leurs paramètres.