Móviles
enfrentamos a Gemini 1.5 Pro contra GPT-4o
Publicado
hace 8 mesesen
Por
Iván Linares
Que la presentación de Google durante el I/O iba a hacer referencia sobre la IA estaba más que claro, llevaba varias semanas anticipándose. De hecho, se sabía en tal medida las novedades, que OpenAI torpedeó la keynote de Sundar Pichai (y no fue la primera vez): el nuevo modelo GPT-4o llegaba ayer que Gemini 1.5 Pro, la nueva interpretación de Google. Y tras estar varios días jugando con ambas me toca la dura tarea de enfrentarlas. Porque, ¿cuál es mejor?
Tanto Google como OpenAI han mejorado la velocidad y ejecución de sus modelos para estrechar en lo posible la latencia de respuesta. Amplían el contexto para que puedan manejar una decano cantidad de información y los dos se integran en los productos premium de la empresa; por más que los usuarios gratuitos de ChatGPT puedan conseguir a GPT-4o de forma limitada. A enseres prácticos son muy similares, asimismo sus resultados. Cuando les busqué las cosquillas ambas desvelaron tanto sus virtudes como sus carencias.
Gemini 1.5 Pro se moja menos que GPT-4o
Antaño de abrir con los resultados expondré la mesa de pruebas. Elegí una serie de órdenes para constatar en todos los terrenos donde un chatbot puede ayudar: texto, imágenes, problemas matemáticos, traducción, código y más. Usé Gemini 1.5 Pro con la suscripción IA de Google One y GPT-4o con ChatGPT Plus. Heredero de suscripción en los dos, por lo que no deberían ver mermadas las capacidades.
En el caso de ChatGPT, usé la aplicación Android y asimismo la interpretación web del navegador de escritorio. Para Gemini alterné tanto la interpretación web de Android como el navegador de escritorio, aunque asimismo tengo integrado el chatbot en mi Google Pixel 8 Pro, sustituyendo a Google Assistant. Regalado que el procesamiento es en la montón, y que ambas plataformas mantienen en segmento las conversaciones, resulta indiferente dónde se les haga las consultas: los resultados serán iguales.
Las dos IAs abiertas en el teléfono, ambas preparadas, expectantes delante la índice de órdenes que voy a mandarles. Empezaré por poco sencillo: ¿quién soy?
Gemini prefiere no mojarse, y eso que tiene comunicación a Internet con el decano buscador del mundo. ChatGPT se tira a la piscina confundiendo varios Iván Linares: primera informe de que soy director de cine.
Poco más difícil y sin salir de las funciones de buscador y verificador de fuentes, poco habitual para quien utiliza un chatbot con IA. ¿Por qué la Tierra es plana y no redonda?
Nadie de los dos cae y los dos lo niegan con argumentos científicos refutados. Voy a ver si puedo confundirlos.
Gemini da por zanjada la cuestión con una respuesta harto sequía, ChatGPT anda más dubitativo. Cómo le gusta regalarse y perderse entre la argumentación.
Turno de preguntas delicadas: ¿tortilla de patatas con cebolla o sin ella?
Gemini 1.5 Pro tiende a no posicionarse y a ofrecer respuestas políticamente correctas desde los distintos bandos. A GPT-4o le gusta demostrar lo mucho que ha entrenado. Y suelta la decano cantidad de datos posible cuando tiene la ocasión (se puede evitar personalizando el comportamiento, pero preferí dejar a ambas IAs por defecto). Sí es menos concreto que Gemini 1.5 Pro, noto un enorme progreso por parte de Google con respecto a versiones anteriores.
Llegados a este punto, les pedí que me crearan una imagen con una tortilla de patatas que no creara controversia. Aquí hice un pequeño truco, porque Gemini Advanced aún no crea imágenes en castellano: se lo pedí en inglés con VPN conectado a Estados Unidos. En cuanto a resultados… Creo que es comprensible proclamar un vencedor.
Resolviendo problemas más complejos
Hasta ahora las he puesto contra las cuerdas con búsquedas, valoraciones objetivas e imágenes. Veo a Gemini mejor posicionada, ChatGPT le da más a los datos que a la concreción. Turno de cuestiones más complejas.
Empiezo con una pregunta aparentemente sencilla que ya hice en un enfrentamiento anterior: «Multiplica el número de modelos de iPhone que Apple lanzó en 2022 por los primaveras que cumplirá Stephen King en 2024».
Nadie de los dos acierta: en 2022 Apple lanzó cuatro iPhone 14 y un iPhone SE. El resto del razonamiento es correcto: rememoración que Google Bard, el chatbot previo a Gemini, se hizo un buen lío en su momento.
Vayamos con un problema aparentemente matemático que necesita cierta dosis de razonamiento metódico para resolverse: «Si no tengo cacharros en el móvil, y me envían un mensaje cada media hora, ¿cuántos SMS habré erudito a las doce de la confusión?».
No tengo más preguntas, señoría: Gemini 1.5 Pro anhelo la batalla de forma arrollador.
Ahora le pediré poco de código, un Bookmarklet creado con Javascript para el navegador web. La idea es que, al pulsar sobre dicho Bookmarklet, el navegador me separe las imágenes del texto con un pulsador donde pueda descargarlas. La orden quedó así:
Imagina que necesito descargar las imágenes de cualquier página web. Quiero que me hagas un Bookmarklet que parsee el código de la web para aclarar una página (en popup o como pestaña nueva) donde se vean todas las imágenes en JPG, PNG o WEBP; el resto de los formatos puedes obviarlos. Cada una de las fotos debe tener un pulsador de descargar para así poder bajarme la que yo quiera. Y si el Bookmarklet logra convertir el formato de imagen a JPG lo bordas.
Me ha sorprendido el excelente resultado de los dos: a la primera hicieron un Bookmarklet completamente válido, eficaz y con una ejecución exacta a la que yo le pedí. Me tocaría pulir el código para que cargasen las imágenes a máxima resolución, ya que separan las miniaturas, pero no tengo queja para el primer intento. Mención particular merece Gemini, porque fue mucho más rápido dándome el resultado.
Veredicto: se nota la restablecimiento que Google ha constante a Gemini 1.5 Pro
Llevo con Gemini (ayer Google Bard) y con ChatGPT desde sus inicios, he ido usando los distintos modelos que fueron introduciendo y todas las actualizaciones, por lo que mi devenir por los dos se sustenta en la experiencia. Y la sensación que tengo es que OpenAI ha mejorado mucho la ligereza con GPT-4o sin optimizar el razonamiento de las respuestas ni su interpretación subjetiva; todo lo contrario de Google, que con la revisión recién introducida en Gemini 1.5 Pro se nota lo mucho que ha pulido cada aspecto de la interpretación y respuesta.
Los dos son muy rápidos, eficientes, son eficaces para la mayoría de tarea y, no lo olvidemos, son susceptibles de cometer errores: no hay que dejarse sobrellevar nunca por lo que digan. Esto hay que grabárselo en piedra.
Para rematar, les pasé el texto de este artículo en PDF para así comprobar el exploración de documentos (ningún de los dos tuvo el último problema). Les pedí una «imagen épica y de estilo ilustración que pueda servir como portada para el post». De las obtenidas, he favorito ganadora. Como curiosidad, para que Gemini la hiciera tuve que traducir el artículo, conectarme al VPN estadounidense y pedirle la imagen en inglés.
Imagen de portada | Gemini
En Xataka Android | Google repite el mismo error de siempre con el despliegue de Gemini: un lío de nombres, apps y servicios duplicados y ahora dos asistentes