DeepSeek explicado: Todo lo que necesita saber
En el mundo de la IA, ha prevalecido la idea de que el desarrollo de modelos de lenguaje de gran tamaño de vanguardia requiere importantes recursos técnicos y financieros. Esa es una de las principales razones por las que el gobierno de Estados Unidos se comprometió a apoyar el Proyecto Stargate de 500 mil millones de dólares anunciado por el presidente Donald Trump.
Pero la empresa china de desarrollo de inteligencia artificial DeepSeek ha trastocado esa idea. El 20 de enero de 2025, DeepSeek lanzó su modelo R1 LLM a una fracción del costo que otros proveedores han tenido que asumir para desarrollarlo. DeepSeek también ofrece sus modelos R1 bajo una licencia de código abierto, lo que permite su uso gratuito.
A los pocos días de su lanzamiento, el asistente de inteligencia artificial DeepSeek –una aplicación móvil que proporciona una interfaz de chatbot para DeepSeek-R1– alcanzó la cima de la lista de la App Store de Apple, superando a la aplicación móvil ChatGPT de OpenAI. El meteórico ascenso de DeepSeek en términos de uso y popularidad desencadenó una liquidación en el mercado de valores el 27 de enero de 2025, ya que los inversores pusieron en duda el valor de los grandes proveedores de inteligencia artificial con sede en EE. UU., incluida Nvidia. Microsoft, Meta Platforms, Oracle, Broadcom y otros gigantes tecnológicos también sufrieron caídas significativas a medida que los inversores reevaluaban las valoraciones de la inteligencia artificial.
¿Qué es DeepSeek?
DeepSeek es una empresa de desarrollo de inteligencia artificial con sede en Hangzhou, China. La empresa fue fundada por Liang Wenfeng, un graduado de la Universidad de Zhejiang, en mayo de 2023. Wenfeng también cofundó High-Flyer, un fondo de cobertura cuantitativo con sede en China que posee DeepSeek. Actualmente, DeepSeek opera como un laboratorio de investigación de inteligencia artificial independiente, bajo el paraguas de High-Flyer. El monto total de la financiación y la valoración de DeepSeek no se han revelado públicamente.
DeepSeek se centra en el desarrollo de LLM de código abierto. El primer modelo de la empresa se lanzó en noviembre de 2023. La empresa ha iterado varias veces su LLM principal y ha desarrollado varias variaciones diferentes. Sin embargo, no fue hasta enero de 2025, después del lanzamiento de su modelo de razonamiento R1, que la empresa se hizo famosa a nivel mundial.
La empresa ofrece múltiples servicios para sus modelos, incluida una interfaz web, una aplicación móvil y acceso API.
OpenAI y DeepSeek
DeepSeek representa el último desafío para OpenAI, que se estableció como líder de la industria con el debut de ChatGPT en 2022. OpenAI ha ayudado a impulsar la industria de la IA generativa con su familia de modelos GPT, así como su clase o1 de modelos de razonamiento.
Si bien ambas empresas están desarrollando LLM de IA generativa, tienen enfoques diferentes.
|
OpenAI |
DeepSeek |
Año de fundación |
2015 |
2023 |
Sede |
San Francisco, California. |
Hangzhou, China |
Enfoque de desarrollo |
Amplias capacidades de IA |
Modelos eficientes de código abierto |
Modelos clave |
GPT-4o, o1 |
DeepSeek-V3, DeepSeek-R1 |
Modelos especializados |
Dall-E (generación de imágenes), |
DeepSeek Coder (codificación), Janus Pro (modelo de visión) |
Precios de API |
o1: $15 (entrada), $60 (salida) |
DeepSeek-R1: $0.55 (entrada), $2.19 (salida) |
Política de código abierto |
Limitado |
Mayormente de código abierto |
Enfoque de formación |
Ajuste fino supervisado y basado en instrucciones |
Aprendizaje por refuerzo |
Costo de desarrollo |
Cientos de millones de dólares por o1 (estimado) |
Según la compañía, DeepSeek-R1 costará menos de 6 millones de dólares |
Innovaciones en formación en DeepSeek
DeepSeek utiliza un enfoque diferente para entrenar sus modelos R1 que el que utiliza OpenAI. El entrenamiento requirió menos tiempo, menos aceleradores de IA y un menor costo de desarrollo. El objetivo de DeepSeek es lograr una inteligencia artificial general, y los avances de la empresa en capacidades de razonamiento representan un progreso significativo en el desarrollo de la IA.
En un artículo de investigación, DeepSeek describe las múltiples innovaciones que desarrolló como parte del modelo R1, incluidas las siguientes:
- Aprendizaje por refuerzo. DeepSeek utilizó un enfoque de aprendizaje por refuerzo a gran escala centrado en tareas de razonamiento.
- Ingeniería de recompensas. Los investigadores desarrollaron un sistema de recompensas basado en reglas para el modelo que supera a los modelos de recompensas neuronales que se utilizan con más frecuencia. La ingeniería de recompensas es el proceso de diseño del sistema de incentivos que guía el aprendizaje de un modelo de IA durante el entrenamiento.
- Destilación. Mediante técnicas eficientes de transferencia de conocimientos, los investigadores de DeepSeek lograron comprimir las capacidades en modelos de tan solo 1.500 millones de parámetros.
- Red de comportamiento emergente. La innovación de DeepSeek en materia de comportamiento emergente es el descubrimiento de que los patrones de razonamiento complejos pueden desarrollarse de forma natural a través del aprendizaje por refuerzo sin necesidad de programarlos explícitamente.
Modelos de lenguaje a gran escala de DeepSeek
Desde que se creó la empresa en 2023, DeepSeek ha lanzado una serie de modelos de IA generativa. Con cada nueva generación, la empresa ha trabajado para mejorar tanto las capacidades como el rendimiento de sus modelos:
- DeepSeek Coder. Lanzado en noviembre de 2023, este es el primer modelo de código abierto de la empresa diseñado específicamente para tareas relacionadas con la codificación.
- DeepSeek LLM. Lanzada en diciembre de 2023, esta es la primera versión del modelo de propósito general de la empresa.
- DeepSeek-V2. Lanzada en mayo de 2024, es la segunda versión del LLM de la empresa y se centra en un alto rendimiento y menores costos de capacitación.
- DeepSeek-Coder-V2. Lanzado en julio de 2024, este es un modelo de 236 mil millones de parámetros que ofrece una ventana de contexto de 128.000 tokens, diseñado para desafíos de codificación complejos.
- DeepSeek-V3. Lanzado en diciembre de 2024, DeepSeek-V3 utiliza una arquitectura de combinación de expertos, capaz de manejar una variedad de tareas. El modelo tiene 671 mil millones de parámetros con una longitud de contexto de 128.000.
- DeepSeek-R1. Lanzado en enero de 2025, este modelo se basa en DeepSeek-V3 y se centra en tareas de razonamiento avanzado que compiten directamente con el modelo o1 de OpenAI en cuanto a rendimiento, al tiempo que mantiene una estructura de costos significativamente menor. Al igual que DeepSeek-V3, el modelo tiene 671 mil millones de parámetros con una longitud de contexto de 128 000.
- Janus-Pro-7B. Lanzado en enero de 2025, Janus-Pro-7B es un modelo de visión que puede comprender y generar imágenes.
DeepSeek-R1 LLM enfrenta competencia de otros proveedores
Alibaba y Ai2 lanzaron sus propios LLM actualizados a los pocos días del lanzamiento de R1: Qwen2.5 Max y Tülu 3 405B.
Por qué está generando alarma en EE.UU.
Si bien hubo mucho revuelo en torno al lanzamiento de DeepSeek-R1, generó alarmas en los EE. UU., lo que desencadenó inquietudes y una liquidación del mercado de valores de las acciones tecnológicas. El lunes 27 de enero de 2025, el Nasdaq Composite cayó un 3,4 % en la apertura del mercado, con Nvidia cayendo un 17 % y perdiendo aproximadamente $600 mil millones en capitalización de mercado.
DeepSeek está generando alarma en Estados Unidos por varias razones, entre ellas las siguientes:
- Disrupción de costos. DeepSeek afirma haber desarrollado su modelo R1 por menos de 6 millones de dólares. El desarrollo de bajo costo amenaza el modelo de negocios de las empresas tecnológicas estadounidenses que han invertido miles de millones en IA. DeepSeek también es más económico para los usuarios que OpenAI.
- Logros técnicos a pesar de las restricciones. La exportación de chips GPU y aceleradores de IA de más alto rendimiento desde Estados Unidos está restringida a China. Sin embargo, a pesar de eso, DeepSeek ha demostrado que es posible desarrollar IA de vanguardia sin acceso a la tecnología estadounidense más avanzada.
- Amenaza al modelo de negocio. A diferencia de OpenAI, que es una tecnología patentada, DeepSeek es de código abierto y gratuito, lo que desafía el modelo de ingresos de las empresas estadounidenses que cobran tarifas mensuales por servicios de inteligencia artificial.
- Preocupaciones geopolíticas. Con sede en China, DeepSeek desafía el dominio tecnológico de Estados Unidos en materia de inteligencia artificial. El inversor tecnológico Marc Andreessen lo llamó el "momento Sputnik" de la inteligencia artificial, comparándolo con el gran avance de la carrera espacial de la Unión Soviética en la década de 1950.
Prohibiciones de DeepSeek
Países y organizaciones de todo el mundo ya han prohibido DeepSeek, citando problemas de ética, privacidad y seguridad dentro de la empresa. Debido a que todos los datos de los usuarios se almacenan en China, la mayor preocupación es la posibilidad de una fuga de datos al gobierno chino. El LLM también fue formado con una visión del mundo china, un posible problema debido al gobierno autoritario del país.
Los lugares donde DeepSeek está prohibido incluyen los siguientes:
- Agencias del gobierno australiano.
- Gobierno central de la India.
- Italia.
- La NASA.
- Ministerio de Industria de Corea del Sur.
- Agencias gubernamentales de Taiwán.
- Gobierno del estado de Texas.
- Congreso de Estados Unidos.
- Marina de los EE.UU.
- Pentágono de Estados Unidos.
Ciberataque DeepSeek
La popularidad de DeepSeek no ha pasado desapercibida para los ciberatacantes.
El 27 de enero de 2025, DeepSeek informó de ataques maliciosos a gran escala a sus servicios, lo que obligó a la empresa a limitar temporalmente el registro de nuevos usuarios. El momento del ataque coincidió con el momento en que la aplicación de asistente de inteligencia artificial de DeepSeek superó a ChatGPT como la aplicación más descargada en la App Store de Apple.
A pesar del ataque, DeepSeek mantuvo el servicio para los usuarios existentes. El problema se prolongó hasta el 28 de enero, cuando la empresa informó que había identificado el problema y había implementado una solución.
DeepSeek no ha especificado la naturaleza exacta del ataque, aunque la especulación generalizada de informes públicos indicó que se trataba de algún tipo de ataque DDoS dirigido a su API y plataforma de chat web.
Datos de DeepSeek expuestos
El 29 de enero de 2025, Wiz Research –un equipo del proveedor de seguridad en la nube Wiz Inc.– publicó sus hallazgos sobre una base de datos de back-end de acceso público que difundía información confidencial en la web, un error de ciberseguridad de "principiantes". La información incluía el historial de chat de DeepSeek, datos de back-end, flujos de registros, claves API y detalles operativos. DeepSeek desconectó la base de datos poco después de recibir la información. No está claro durante cuánto tiempo estuvo expuesta la base de datos.
El jailbreak de DeepSeek revela todo el sistema operativo
Ahora sabemos exactamente cómo fue diseñado DeepSeek para funcionar, e incluso podemos tener una pista sobre su muy publicitado escándalo con OpenAI.
Sean Michael Kerner es consultor de TI, entusiasta de la tecnología e inventor. Ha instalado Token Ring, configurado NetWare y es conocido por compilar su propio núcleo Linux. Asesora a organizaciones de la industria y los medios de comunicación sobre cuestiones tecnológicas.