Mientras tanto, los desarrolladores de IA de EE. UU. Se apresuran a analizar el modelo V3 de Deepseek. Deepseek en diciembre publicó un trabajo de investigación que acompaña al modelo, la base de su aplicación popular, pero muchas preguntas, como los costos de desarrollo total, no se responden en el documento.
China ahora ha saltado de 18 meses a seis meses detrás de los modelos de IA de última generación desarrollados en los Estados Unidos, dijo una persona. Sin embargo, con la estrategia de liberación gratuita de Deepseek tocando tal emoción, la empresa pronto puede encontrarse sin suficientes fichas para satisfacer la demanda, predijo esta persona.
Los avances de Deepseek no fluyeron únicamente de un presupuesto reducido de US $ 6 millones, una pequeña suma en comparación con los analistas de US $ 250 mil millones estiman que las grandes compañías de nubes de EE. UU. Gastarán este año en la infraestructura de IA. El trabajo de investigación señaló que este costo se refería específicamente al uso de chips en su carrera final de capacitación, no todo el costo de desarrollo.
La carrera de entrenamiento es la punta del iceberg en términos de costo total, dijeron ejecutivos de dos laboratorios Top Reuters. El costo de determinar cómo diseñar esa ejecución de capacitación puede costar magnitudes más dinero, dijeron.
El documento declaró que la ejecución de capacitación para V3 se realizó utilizando 2.048 de los chips H800 de NVIDIA, que fueron diseñados para cumplir con los controles de exportación de EE. UU. Lanzados en 2022, las reglas que los expertos dijeron a Reuters apenas ralentizarían el progreso de la IA de China.
Fuentes de dos laboratorios de IA dijeron que esperaban que las etapas anteriores de desarrollo se hubieran confiado en una cantidad mucho mayor de chips. Una de las personas dijo que tal inversión podría haber costado al norte de US $ 1 mil millones.
Algunos líderes estadounidenses de IA elogiaron la decisión de Deepseek de lanzar sus modelos como código abierto, lo que significa que otras compañías o individuos son libres de usarlos o cambiarlos.
«Deepseek R1 es uno de los avances más sorprendentes e impresionantes que he visto, y como código abierto, un profundo regalo para el mundo», dijo el capitalista de riesgo Marc Andreessen en una publicación sobre X el domingo.
La aclamación obtenida por los modelos de Deepseek subraya la viabilidad de la tecnología de IA de código abierto como una alternativa a la tecnología costosa y estrictamente controlada como el chatgpt de OpenAI, dijeron los observadores de la industria.
Las compañías más valiosas de Wall Street han aumentado en los últimos años por las expectativas de que solo ellos tenían acceso al vasto capital y el poder informático necesarios para desarrollar y escalar la tecnología de IA emergente. Esos supuestos se someterán a un mayor escrutinio esta semana y la siguiente, cuando muchos gigantes tecnológicos estadounidenses informarán ganancias trimestrales.