Claude Computer Use en 2026: cuándo usar la API, Cowork o Claude Code

AI Free API Team

•28 mar 2026•18 min de lectura•Claude

Hoy, Claude Computer Use apunta a dos contratos distintos: la herramienta de uso de computadora de la API de Anthropic, pensada para desarrolladores que ejecutan acciones dentro de su propio sandbox, y las rutas de escritorio en Cowork o Claude Code, donde Claude trabaja sobre tu propia máquina. Esta guía muestra qué camino elegir, qué configuración requiere cada uno y por qué no conviene mezclar sus fronteras de seguridad y retención.

Claude Computer Use en 2026: cuándo usar la API, Cowork o Claude Code

Claude Computer Use ahora nombra dos contratos de ejecución distintos. En la parte de la API, Anthropic ofrece a los builders una herramienta beta para capturas de pantalla, acciones de ratón, entrada por teclado y automatización de escritorio dentro de un sandbox que ellos controlan. En la parte de producto, Cowork y Claude Code significan que Claude trabaja sobre tu propia máquina, con el producto de escritorio de Anthropic orquestando la sesión y contigo decidiendo el acceso, las aprobaciones y la escalada.

La respuesta corta y útil es esta: si quieres incorporar automatización a un producto, usa la ruta de la API; si quieres que Claude haga trabajo en tu propia máquina, usa Cowork o Claude Code. La pregunta importante aquí no es "¿Claude puede hacer clic?", sino "¿quién es dueño del entorno de ejecución, quién controla el bucle de herramientas y qué frontera de permisos y retención estás dispuesto a aceptar?".

“
Nota de evidencia: esta guía se basa en la documentación vigente de Anthropic para computer use en la API, la ayuda oficial de Cowork, la página de producto de Cowork y la guía de privacidad sobre computer use, revisadas el 28 de marzo de 2026.

TL;DR

Anthropic API computer use es para quienes construyen. Activas la beta, ejecutas Claude dentro de tu propia VM o contenedor, realizas las acciones y devuelves tool_result al ciclo.
Cowork y Claude Code son para delegar trabajo en tu propia máquina. El producto de escritorio de Anthropic orquesta la sesión, mientras tú decides carpetas, conectores, aprobaciones y si Claude debe subir desde archivos o navegador hasta control directo de pantalla.
Si quieres probarlo cuanto antes, en la ruta API conviene empezar por la reference implementation de Anthropic; en la ruta de escritorio, lo más directo es Claude Desktop -> Cowork.
Estas rutas no comparten un único contrato universal de configuración, permisos o retención. Hay que entenderlas por separado.
La regla segura por defecto es conectores o archivos locales primero, navegador después y control de pantalla al final.
Si la tarea toca cuentas sensibles, pagos, consentimientos o acciones que exigen precisión total, mantén siempre a un humano en el circuito.

Qué significa realmente `Claude Computer Use` ahora

Cuadro comparativo entre Anthropic API y Cowork/Claude Code según VM, archivos, navegador, pantalla y supervisión humana

Cuando esta expresión empezó a circular, se refería sobre todo a una capacidad concreta para desarrolladores. Anthropic había dado a Claude la posibilidad de ver capturas de pantalla, invocar acciones de ratón y teclado y avanzar por tareas dentro de un entorno de escritorio controlado. Para quien construye agentes, ese camino sigue siendo el principal.

La confusión llegó cuando Anthropic amplió la misma familia de ideas al relato de producto de Cowork y Code. La página actual de Cowork dice que Claude puede seguir una misma conversación entre el teléfono y el escritorio, usar conectores, trabajar en Chrome y recurrir a la computadora cuando no exista integración directa. La página de ayuda lo explica de forma aún más operativa: Cowork funciona dentro de Claude Desktop, ejecuta tareas sobre la computadora del usuario y permite intervenir mientras el trabajo está en marcha. En conjunto, esas páginas dejan claro que la misma frase ahora apunta a dos modelos de ejecución distintos.

Ese solapamiento crea un problema práctico. Un desarrollador puede sobreestimar cuánto gestiona Anthropic en la ruta API, mientras que un usuario de escritorio puede subestimar cuánto siguen importando el alcance, los permisos y las aprobaciones en su propia máquina. La forma más fiable de entender este tema es dividirlo por propiedad del entorno de ejecución. Si tu aplicación recibe el tool_use, ejecuta la acción y devuelve el resultado, estás en la ruta API. Si el producto de escritorio de Anthropic orquesta el trabajo sobre tu propia máquina, estás en la ruta de Cowork o Claude Code.

También conviene separar otra cosa desde el principio: usar el navegador y usar la computadora entera no son lo mismo. La propia página de Cowork ya sugiere una jerarquía sensata. Si el problema se resuelve con un conector, usa el conector. Si se puede resolver en Chrome, quédate en el navegador. Solo cuando no haya integración directa tiene sentido escalar a la pantalla. Esa jerarquía es mucho más útil que la frase amplia "Claude puede usar tu computadora".

Ruta 1: la herramienta de uso de computadora de la API de Anthropic

Diagrama del bucle controlado por el desarrollador: Claude emite tool_use, la app ejecuta la acción en una VM o contenedor y devuelve tool_result

Si lo que quieres es construir automatización para un producto, un agente interno o un flujo que realmente necesite actuar sobre interfaces gráficas, la ruta que importa es esta. En la documentación actual, Anthropic presenta computer use como una herramienta beta con captura de pantalla, control del ratón, entrada por teclado y automatización de escritorio en general. Lo más importante aquí no es que "Claude pueda hacer clic", sino el contrato: Claude devuelve una llamada de herramienta, tu aplicación ejecuta la acción dentro de una VM o contenedor, y después devuelve tool_result para seguir el bucle hasta terminar la tarea.

Ese "el bucle te pertenece" cambia todo. Anthropic no está manejando una máquina en tu lugar. El integrador del sistema eres tú. Tú decides cómo se ve la pantalla, cómo capturas la imagen, cómo remapeas coordenadas en alta resolución, cómo se ejecutan realmente los clics y pulsaciones y qué límites impiden que el modelo salga del entorno previsto. En la ruta API, computer use no es un interruptor mágico. Es un contrato de herramientas que tú conectas a un entorno real de ejecución.

Los encabezados beta actuales también dejan claro que sigue siendo un contrato explícito de herramienta. Anthropic indica ahora:

computer-use-2025-11-24 para Claude Opus 4.6, Claude Sonnet 4.6 y Claude Opus 4.5
computer-use-2025-01-24 para Sonnet 4.5, Haiku 4.5, Opus 4.1, Sonnet 4, Opus 4 y el Sonnet 3.7 ya deprecado

La estructura mínima de la petición se parece a esto:

bash
curl https://api.anthropic.com/v1/messages \
  -H "content-type: application/json" \
  -H "x-api-key: $ANTHROPIC_API_KEY" \
  -H "anthropic-version: 2023-06-01" \
  -H "anthropic-beta: computer-use-2025-11-24" \
  -d '{
    "model": "claude-opus-4-6",
    "max_tokens": 1024,
    "tools": [
      {
        "type": "computer_20251124",
        "name": "computer",
        "display_width_px": 1024,
        "display_height_px": 768,
        "display_number": 1
      }
    ],
    "messages": [
      {
        "role": "user",
        "content": "Open the browser and summarize the dashboard."
      }
    ]
  }'

Este ejemplo es útil porque muestra la naturaleza real de la función. No estás activando una autonomía general difusa. Estás declarando qué contrato beta usar, qué tipo de herramienta exponer y qué superficie de pantalla existe. Lo difícil no es la primera llamada; lo difícil es el entorno que la rodea.

Esta ruta es más fuerte cuando de verdad solo existe la interfaz gráfica. Software corporativo antiguo, herramientas internas sin API limpia, tareas tipo RPA, pruebas end-to-end: ahí computer use puede ser razonable. En cambio, si el sistema ya tiene API, CLI, webhook, exportación limpia o acceso a base de datos, automatizar la pantalla suele ser peor ingeniería. No porque computer use sea malo, sino porque estás usando la capa más frágil donde ya había una interfaz de máquina más directa.

La estructura de costes empuja en la misma dirección. La documentación actual de Anthropic dice que la beta añade 466-499 tokens al system prompt y, en la familia Claude 4.x, otros 735 tokens de definición de herramienta, además del coste de las capturas y de los resultados de herramientas. Es decir, la automatización visual siempre arrastra un sobrecoste contextual. Tiene sentido cuando la UI es el verdadero punto de entrada. No lo tiene cuando usas pantalla para imitar una integración que ya existía.

La parte más valiosa de la documentación aquí es la de seguridad. Anthropic recomienda una VM o contenedor dedicados, privilegios mínimos, acceso restringido por dominios y confirmación humana para acciones con consecuencias reales. También advierte sobre prompt injection desde páginas web e imágenes. Esto no es simple relleno legal. Es el núcleo del problema. En cuanto un modelo puede leer lo que aparece en pantalla y actuar en consecuencia, debes tratar el entorno como una fuente potencialmente adversaria.

Hay otro detalle muy práctico que suele olvidarse: el escalado de coordenadas. Anthropic explica que el tamaño de la imagen analizada por el modelo puede no coincidir con la resolución real de la pantalla donde haces clic. Si no remapeas bien esas coordenadas, Claude puede fallar el objetivo aun cuando haya razonado correctamente. Ese tipo de detalle deja claro por qué la ruta API es para quien puede hacerse cargo de la implementación, no para quien solo quiere "ver si la función existe".

Ruta 2: Cowork y Claude Code en tu propia computadora

Cuando la mayoría de la gente dice que quiere que "Claude use la computadora", en realidad está pensando en esta ruta de producto de escritorio. La diferencia fundamental es que aquí no integras un bucle de herramientas en tu propio producto. Usas el entorno de escritorio de Anthropic para delegar trabajo en tu propia máquina. La ayuda actual de Cowork dice que requiere Claude Desktop, funciona en macOS o Windows y no es una superficie independiente en web o móvil. Mientras la tarea corre, la app de escritorio debe permanecer abierta.

Eso ya la hace muy distinta de la API. La API es un contrato de integración. Cowork es un flujo de producto. Anthropic lo describe más bien como "entrega la tarea y vuelve al resultado". La app de escritorio puede acceder a carpetas compartidas, conectores y archivos locales, y puede ejecutar trabajos más largos. La misma ayuda también indica que puedes seguir escribiendo a Claude desde el teléfono mientras la tarea continúa en el escritorio. Esa no es la comodidad de un runtime programable; es la comodidad de una sesión orquestada por producto.

La página de producto de Cowork aporta otra pista importante que muchos resúmenes secundarios omiten. Claude elige primero conectores, luego Chrome y solo al final la pantalla. Es decir, incluso en el propio lenguaje de Anthropic, el control de pantalla es el último recurso, no la primera opción. Ese matiz vale más que la promesa genérica de "Claude puede usar tu computadora", porque te dice cuál debería ser el orden normal de decisión.

Anthropic también es cuidadoso con la disponibilidad. La ayuda describe Cowork en general como una función de Claude Desktop disponible en macOS y Windows dentro de planes de pago. Pero la frase más fuerte de la página de producto - "Anything you can do on your computer, Claude can do" - aparece marcada como Available on macOS. La lectura segura no es aplastar ambas frases en una sola. Lo correcto es decir exactamente lo que dicen las fuentes: Cowork como superficie de escritorio es más amplia, mientras que la promesa explícita de computer use a nivel de pantalla aparece hoy asociada a macOS.

Además, Anthropic dice en esa misma página que la actualización de conversación persistente y computer use se extiende a Cowork y Code. Pero la ruta operativa mejor documentada en público hoy sigue siendo Cowork, no Code. Por eso conviene enmarcar Code como una superficie hermana dentro de la misma familia de trabajo de escritorio, sin fingir que ya existe una guía pública igual de detallada y simétrica para ambos lados.

Las fronteras de permisos aquí también son mucho más de producto. La ayuda de Cowork dice que el borrado permanente de archivos requiere permiso explícito. La página de producto añade que Claude enseña el plan, espera aprobación y te deja elegir a qué carpetas y conectores puede acceder. Eso es distinto de la ruta API, donde tú diseñas el sandbox y las aprobaciones. La ruta de escritorio se parece más a una interfaz de delegación con barreras claras que a un toolkit de automatización de bajo nivel.

En muchísimos casos no técnicos, esa es precisamente la opción correcta. Ordenar una carpeta de descargas, convertir notas dispersas en un borrador de informe, pasar capturas de recibos a una hoja de cálculo o preparar resúmenes recurrentes son tareas mucho más cercanas a Cowork que a la API de computer use. Incluso en trabajo cercano al desarrollo, la pregunta correcta sigue siendo la misma: ¿necesitas un runtime programable para un agente o solo quieres que Claude haga trabajo en tu propia máquina mientras tú supervisas? Si es lo segundo, Cowork o Claude Code son la entrada natural.

Si ahora mismo tu duda real son los planes y el acceso, te conviene revisar también nuestra guía de precios de Claude Code. Y si lo que en realidad necesitas no es un computer use amplio sino una autonomía más segura para trabajo prolongado sobre repositorios, te resultará más útil nuestro análisis de Claude Code Auto mode.

La forma más rápida de empezar en cada superficie

Si no quieres comprender toda la ecología antes de tocar nada, empieza así.

En la ruta API, parte de la reference implementation de Anthropic en vez de construir desde cero un "ejecutor de clics". Configura el beta header actual, levanta el entorno dentro de una VM o contenedor dedicados, entrega a Claude la herramienta de computer use junto con la tarea, ejecuta la acción devuelta y responde con tool_result. La clave no es la primera petición; la clave es la frontera de aislamiento que construyes alrededor.

En la ruta de escritorio, abre Claude Desktop, cambia a Cowork, elige la carpeta o archivos a los que Claude podrá acceder, describe el resultado que quieres, revisa el plan que propone Claude y solo después deja correr la tarea. Mientras el trabajo esté activo, la app de escritorio debe seguir abierta. Si quieres continuar desde el teléfono, usa la continuidad móvil que Anthropic documenta para Cowork, pero recuerda que la ejecución real sigue atada al escritorio.

Qué ruta deberías elegir

Si vas a integrar una capacidad agente dentro de tu producto, elige API.
Si quieres delegar trabajo a Claude sobre tu propia máquina, elige Cowork o Claude Code. En términos más concretos:

Si necesitas...	Elige...	Porque...
Integrar un agente en tu app o workflow	Anthropic API computer use	Tú controlas la VM, el tool loop, la frontera de red y las reglas de aprobación
Que Claude trabaje con archivos locales y tareas de escritorio	Cowork o Claude Code	El producto de Anthropic orquesta la sesión y tú gestionas los límites de acceso
Investigación web, dashboards o formularios	Ruta de navegador antes que pantalla	Es más acotada, más auditable y menos arriesgada
Trabajar con Slack, GitHub, Drive u otro sistema ya integrado	Primero conectores, luego navegador y pantalla	La integración directa suele ser más limpia y segura que imitar la UI
Cuentas sensibles, pagos, consentimientos o acciones destructivas	Flujo dirigido por humanos	Anthropic también exige confirmación humana para acciones con consecuencias reales

La mejor forma de pensar el tema es simple: la ruta API es para quien construye herramientas; la ruta de escritorio es para quien delega trabajo. Lo importante no es hacer que la capacidad suene más grande, sino separar primero quién es dueño del entorno de ejecución. Solo así se distinguen bien el riesgo, el esfuerzo de configuración, el flujo de aprobaciones y los casos de uso reales.

La historia de privacidad y retención depende de la superficie

Esta es una de las partes que más fácilmente se simplifican mal. Los materiales públicos actuales de Anthropic no ofrecen una sola frase universal que describa con precisión todas las variantes de computer use.

En la documentación de la API, computer use se presenta como una client-side tool y se explica que, con un acuerdo ZDR, puede operar sin retención después de la respuesta. Pero el artículo de privacidad para productos comerciales dice que las capturas se eliminan del backend en un plazo de 30 días por defecto, salvo términos distintos. Y la página de Cowork pone el énfasis en que el historial de tareas se guarda localmente.

La conclusión correcta no es "Anthropic se contradice", sino una más precisa: computer use ya vive en más de una superficie. Para un desarrollador, eso implica leer la retención como parte del contrato de implementación y mirar los términos exactos del plan y modo utilizados. Para un usuario de escritorio, implica pensar más en historial local, permisos y fronteras de producto que en el contrato de la API. Lo que no conviene hacer es tomar una frase de una superficie y presentarla como regla universal para todas.

Cuándo no deberías usar control completo de computadora

Escalera de escalado: conectores, archivos, navegador y control de pantalla como capas cada vez más potentes y delicadas

La regla operativa que se desprende del lenguaje actual de Anthropic es muy simple: usa la capa de control más baja que resuelva bien el problema. Si un conector basta, usa el conector. Si puedes resolverlo con archivos locales, mejor eso que hacer clics en una ventana. Si la tarea es básicamente web, quédate en Chrome. Solo cuando no exista integración directa ni una ruta de navegador suficientemente acotada tiene sentido subir a control total de pantalla.

Esto importa por seguridad, pero también por fiabilidad. Los conectores y el acceso a archivos son más fáciles de limitar, de auditar y de mantener. Las tareas de navegador siguen siendo más frágiles que una API directa, pero son menos abiertas que la automatización total del escritorio. El control de pantalla es la capa más poderosa y también la más difícil de razonar. Por eso debe ser el último escalón, no el punto de partida.

También hay una clase de tareas donde "Claude puede" no implica "Claude debería". Anthropic exige confirmación humana para acciones con consecuencias reales, y ese criterio es correcto. Consentimientos de cookies, pagos, aceptaciones contractuales, borrados destructivos, acceso a cuentas sensibles o cualquier operación que requiera precisión perfecta deberían permanecer bajo control humano directo. Que una demo salga bien no significa que el riesgo operativo desaparezca.

Lo mismo vale para tareas que ya tienen una interfaz mejor. Si un dashboard ya exporta CSV o un sistema ya tiene API o webhook, hacer que Claude mire la pantalla y haga clics no es aprovechar computer use, sino escoger la capa más frágil donde ya existía una más directa. Computer use es valioso porque hay software que sigue teniendo forma de software "para personas", no porque hacer clic sea la forma más avanzada de integración.

FAQ

¿Claude Computer Use se refiere solo a la herramienta de la API de Anthropic?

No. Para desarrolladores, la herramienta de la API sigue siendo el significado central. Pero las páginas actuales de Anthropic para Cowork y Code también integran capacidades similares dentro del flujo de trabajo de escritorio. Hoy el término ya cubre más de una superficie.

¿Tengo que implementar yo mismo el tool loop?

Solo en la ruta API. La documentación actual de Anthropic asume que tu aplicación extrae el tool_use, ejecuta la acción dentro de una VM o contenedor y devuelve tool_result. En la ruta de escritorio, ese trabajo de orquestación lo asume el producto de Anthropic.

¿Cowork corre en la web? ¿Se ejecuta desde el teléfono?

No. La ayuda actual dice que Cowork requiere Claude Desktop, funciona en macOS o Windows y no es una superficie independiente de ejecución en web o móvil. Puedes seguir escribiendo desde el teléfono, pero la ejecución real permanece ligada al escritorio.

Si Cowork está disponible, ¿puedo asumir que el computer use completo también lo está?

No conviene asumirlo. La ayuda describe Cowork de forma más amplia, mientras que la página de producto marca la promesa explícita de computer use como Available on macOS. La formulación más concreta es la más segura.

¿La ruta API es cara?

Sí, más que el uso normal de texto. No solo porque el modelo sea potente, sino porque arrastra el coste de la herramienta y de las capturas. Anthropic enumera hoy 466-499 tokens extra en el system prompt beta, 735 tokens de definición de herramienta en Claude 4.x y costes adicionales por capturas y resultados de herramienta. Por eso conviene reservar esta ruta para casos donde la automatización visual sea realmente necesaria.

¿Anthropic guarda las capturas de pantalla?

La respuesta depende de la superficie. La documentación de la API habla del marco ZDR. El artículo de privacidad para productos comerciales habla de borrado por defecto a 30 días. Cowork enfatiza el historial local. Si este punto importa para tu caso, consulta la documentación exacta de la superficie y el acuerdo que realmente vayas a usar.

La pregunta útil aquí no es si Claude sabe hacer clic

Claude sabe hacer clic. Eso, por sí solo, ya no es la parte interesante.

La pregunta útil es qué tipo de sistema estás construyendo y qué nivel de control quieres entregar al modelo. Si estás construyendo un producto, trata la herramienta de la API como un runtime real de automatización y enciérrala dentro de un sandbox real con aprobaciones reales. Si quieres que Claude haga trabajo en tu propia máquina, usa Cowork o Claude Code y deja que el producto de escritorio de Anthropic gestione la sesión, mientras tú controlas carpetas, conectores y aprobaciones clave.

Cuando se mira así, Claude Computer Use deja de ser una promesa borrosa y se convierte en una decisión concreta de routing. Y esa decisión es justamente la que separa una automatización útil de una demo llamativa pero frágil.

Claude Computer Use ahora nombra dos contratos de ejecución distintos. En la parte de la API, Anthropic ofrece a los builders una herramienta beta para capturas de pantalla, acciones de ratón, entrada por teclado y automatización de escritorio dentro de un sandbox que ellos controlan. En la parte de producto, Cowork y Claude Code significan que Claude trabaja sobre tu propia máquina, con el producto de escritorio de Anthropic orquestando la sesión y contigo decidiendo el acceso, las aprobaciones y la escalada.

La respuesta corta y útil es esta: si quieres incorporar automatización a un producto, usa la ruta de la API; si quieres que Claude haga trabajo en tu propia máquina, usa Cowork o Claude Code. La pregunta importante aquí no es "¿Claude puede hacer clic?", sino "¿quién es dueño del entorno de ejecución, quién controla el bucle de herramientas y qué frontera de permisos y retención estás dispuesto a aceptar?".

Nota de evidencia: esta guía se basa en la documentación vigente de Anthropic para computer use en la API, la ayuda oficial de Cowork, la página de producto de Cowork y la guía de privacidad sobre computer use, revisadas el 28 de marzo de 2026.

TL;DR

- Anthropic API computer use es para quienes construyen. Activas la beta, ejecutas Claude dentro de tu propia VM o contenedor, realizas las acciones y devuelves tool_result al ciclo. - Cowork y Claude Code son para delegar trabajo en tu propia máquina. El producto de escritorio de Anthropic orquesta la sesión, mientras tú decides carpetas, conectores, aprobaciones y si Claude debe subir desde archivos o navegador hasta control directo de pantalla. - Si quieres probarlo cuanto antes, en la ruta API conviene empezar por la reference implementation de Anthropic; en la ruta de escritorio, lo más directo es Claude Desktop -Cowork. - Estas rutas no comparten un único contrato universal de configuración, permisos o retención. Hay que entenderlas por separado. - La regla segura por defecto es conectores o archivos locales primero, navegador después y control de pantalla al final. - Si la tarea toca cuentas sensibles, pagos, consentimientos o acciones que exigen precisión total, mantén siempre a un humano en el circuito.

Qué significa realmente Claude Computer Use ahora

Ese solapamiento crea un problema práctico. Un desarrollador puede sobreestimar cuánto gestiona Anthropic en la ruta API, mientras que un usuario de escritorio puede subestimar cuánto siguen importando el alcance, los permisos y las aprobaciones en su propia máquina. La forma más fiable de entender este tema es dividirlo por propiedad del entorno de ejecución. Si tu aplicación recibe el tool_use, ejecuta la acción y devuelve el resultado, estás en la ruta API. Si el producto de escritorio de Anthropic orquesta el trabajo sobre tu propia máquina, estás en la ruta de Cowork o Claude Code.

También conviene separar otra cosa desde el principio: usar el navegador y usar la computadora entera no son lo mismo. La propia página de Cowork ya sugiere una jerarquía sensata. Si el problema se resuelve con un conector, usa el conector. Si se puede resolver en Chrome, quédate en el navegador. Solo cuando no haya integración directa tiene sentido escalar a la pantalla. Esa jerarquía es mucho más útil que la frase amplia "Claude puede usar tu computadora".

Ruta 1: la herramienta de uso de computadora de la API de Anthropic

Si lo que quieres es construir automatización para un producto, un agente interno o un flujo que realmente necesite actuar sobre interfaces gráficas, la ruta que importa es esta. En la documentación actual, Anthropic presenta computer use como una herramienta beta con captura de pantalla, control del ratón, entrada por teclado y automatización de escritorio en general. Lo más importante aquí no es que "Claude pueda hacer clic", sino el contrato: Claude devuelve una llamada de herramienta, tu aplicación ejecuta la acción dentro de una VM o contenedor, y después devuelve tool_result para seguir el bucle hasta terminar la tarea.

Ese "el bucle te pertenece" cambia todo. Anthropic no está manejando una máquina en tu lugar. El integrador del sistema eres tú. Tú decides cómo se ve la pantalla, cómo capturas la imagen, cómo remapeas coordenadas en alta resolución, cómo se ejecutan realmente los clics y pulsaciones y qué límites impiden que el modelo salga del entorno previsto. En la ruta API, computer use no es un interruptor mágico. Es un contrato de herramientas que tú conectas a un entorno real de ejecución.

Los encabezados beta actuales también dejan claro que sigue siendo un contrato explícito de herramienta. Anthropic indica ahora:

- computer-use-2025-11-24 para Claude Opus 4.6, Claude Sonnet 4.6 y Claude Opus 4.5 - computer-use-2025-01-24 para Sonnet 4.5, Haiku 4.5, Opus 4.1, Sonnet 4, Opus 4 y el Sonnet 3.7 ya deprecado

La estructura mínima de la petición se parece a esto:

Esta ruta es más fuerte cuando de verdad solo existe la interfaz gráfica. Software corporativo antiguo, herramientas internas sin API limpia, tareas tipo RPA, pruebas end-to-end: ahí computer use puede ser razonable. En cambio, si el sistema ya tiene API, CLI, webhook, exportación limpia o acceso a base de datos, automatizar la pantalla suele ser peor ingeniería. No porque computer use sea malo, sino porque estás usando la capa más frágil donde ya había una interfaz de máquina más directa.

La estructura de costes empuja en la misma dirección. La documentación actual de Anthropic dice que la beta añade 466-499 tokens al system prompt y, en la familia Claude 4.x, otros 735 tokens de definición de herramienta, además del coste de las capturas y de los resultados de herramientas. Es decir, la automatización visual siempre arrastra un sobrecoste contextual. Tiene sentido cuando la UI es el verdadero punto de entrada. No lo tiene cuando usas pantalla para imitar una integración que ya existía.

La parte más valiosa de la documentación aquí es la de seguridad. Anthropic recomienda una VM o contenedor dedicados, privilegios mínimos, acceso restringido por dominios y confirmación humana para acciones con consecuencias reales. También advierte sobre prompt injection desde páginas web e imágenes. Esto no es simple relleno legal. Es el núcleo del problema. En cuanto un modelo puede leer lo que aparece en pantalla y actuar en consecuencia, debes tratar el entorno como una fuente potencialmente adversaria.

Ruta 2: Cowork y Claude Code en tu propia computadora

La página de producto de Cowork aporta otra pista importante que muchos resúmenes secundarios omiten. Claude elige primero conectores, luego Chrome y solo al final la pantalla. Es decir, incluso en el propio lenguaje de Anthropic, el control de pantalla es el último recurso, no la primera opción. Ese matiz vale más que la promesa genérica de "Claude puede usar tu computadora", porque te dice cuál debería ser el orden normal de decisión.

Anthropic también es cuidadoso con la disponibilidad. La ayuda describe Cowork en general como una función de Claude Desktop disponible en macOS y Windows dentro de planes de pago. Pero la frase más fuerte de la página de producto - "Anything you can do on your computer, Claude can do" - aparece marcada como Available on macOS. La lectura segura no es aplastar ambas frases en una sola. Lo correcto es decir exactamente lo que dicen las fuentes: Cowork como superficie de escritorio es más amplia, mientras que la promesa explícita de computer use a nivel de pantalla aparece hoy asociada a macOS.

Además, Anthropic dice en esa misma página que la actualización de conversación persistente y computer use se extiende a Cowork y Code. Pero la ruta operativa mejor documentada en público hoy sigue siendo Cowork, no Code. Por eso conviene enmarcar Code como una superficie hermana dentro de la misma familia de trabajo de escritorio, sin fingir que ya existe una guía pública igual de detallada y simétrica para ambos lados.

La forma más rápida de empezar en cada superficie

Si no quieres comprender toda la ecología antes de tocar nada, empieza así.

En la ruta API, parte de la reference implementation de Anthropic en vez de construir desde cero un "ejecutor de clics". Configura el beta header actual, levanta el entorno dentro de una VM o contenedor dedicados, entrega a Claude la herramienta de computer use junto con la tarea, ejecuta la acción devuelta y responde con tool_result. La clave no es la primera petición; la clave es la frontera de aislamiento que construyes alrededor.

En la ruta de escritorio, abre Claude Desktop, cambia a Cowork, elige la carpeta o archivos a los que Claude podrá acceder, describe el resultado que quieres, revisa el plan que propone Claude y solo después deja correr la tarea. Mientras el trabajo esté activo, la app de escritorio debe seguir abierta. Si quieres continuar desde el teléfono, usa la continuidad móvil que Anthropic documenta para Cowork, pero recuerda que la ejecución real sigue atada al escritorio.

Qué ruta deberías elegir

Si vas a integrar una capacidad agente dentro de tu producto, elige API. Si quieres delegar trabajo a Claude sobre tu propia máquina, elige Cowork o Claude Code. En términos más concretos:

La mejor forma de pensar el tema es simple: la ruta API es para quien construye herramientas; la ruta de escritorio es para quien delega trabajo. Lo importante no es hacer que la capacidad suene más grande, sino separar primero quién es dueño del entorno de ejecución. Solo así se distinguen bien el riesgo, el esfuerzo de configuración, el flujo de aprobaciones y los casos de uso reales.

La historia de privacidad y retención depende de la superficie

La conclusión correcta no es "Anthropic se contradice", sino una más precisa: computer use ya vive en más de una superficie. Para un desarrollador, eso implica leer la retención como parte del contrato de implementación y mirar los términos exactos del plan y modo utilizados. Para un usuario de escritorio, implica pensar más en historial local, permisos y fronteras de producto que en el contrato de la API. Lo que no conviene hacer es tomar una frase de una superficie y presentarla como regla universal para todas.

Cuándo no deberías usar control completo de computadora

La regla operativa que se desprende del lenguaje actual de Anthropic es muy simple: usa la capa de control más baja que resuelva bien el problema. Si un conector basta, usa el conector. Si puedes resolverlo con archivos locales, mejor eso que hacer clics en una ventana. Si la tarea es básicamente web, quédate en Chrome. Solo cuando no exista integración directa ni una ruta de navegador suficientemente acotada tiene sentido subir a control total de pantalla.

FAQ

¿Claude Computer Use se refiere solo a la herramienta de la API de Anthropic?

¿Tengo que implementar yo mismo el tool loop?

Solo en la ruta API. La documentación actual de Anthropic asume que tu aplicación extrae el tool_use, ejecuta la acción dentro de una VM o contenedor y devuelve tool_result. En la ruta de escritorio, ese trabajo de orquestación lo asume el producto de Anthropic.

¿Cowork corre en la web? ¿Se ejecuta desde el teléfono?

Si Cowork está disponible, ¿puedo asumir que el computer use completo también lo está?

No conviene asumirlo. La ayuda describe Cowork de forma más amplia, mientras que la página de producto marca la promesa explícita de computer use como Available on macOS. La formulación más concreta es la más segura.

¿La ruta API es cara?

¿Anthropic guarda las capturas de pantalla?

La pregunta útil aquí no es si Claude sabe hacer clic

Claude sabe hacer clic. Eso, por sí solo, ya no es la parte interesante.

La pregunta útil es qué tipo de sistema estás construyendo y qué nivel de control quieres entregar al modelo. Si estás construyendo un producto, trata la herramienta de la API como un runtime real de automatización y enciérrala dentro de un sandbox real con aprobaciones reales. Si quieres que Claude haga trabajo en tu propia máquina, usa Cowork o Claude Code y deja que el producto de escritorio de Anthropic gestione la sesión, mientras tú controlas carpetas, conectores y aprobaciones clave.

Cuando se mira así, Claude Computer Use deja de ser una promesa borrosa y se convierte en una decisión concreta de routing. Y esa decisión es justamente la que separa una automatización útil de una demo llamativa pero frágil.

#Claude #uso de computadora #Anthropic API #Claude Cowork #Claude Code

laozhang.ai

One API, All AI Models

Docs

AI Image

Gemini 3 Pro Image

$0.05/img

80% OFF

AI Video

Sora 2 · Veo 3.1

$0.15/video

Async API

AI Chat

GPT · Claude · Gemini

200+ models

Official Price

Served 100K+ developers·No Charge on Failures·Enterprise Stable·Alipay/WeChat

|@laozhang_cn|Get $0.1