GPT-5.4 Native Computer Use: парсеры без Selenium от скриншотов к кликам
-

Все, кто пилил парсеры под браузерные сайты, знают эту боль: Selenium тормозит, Puppeteer жрет ресурсы, а сайты с капчами и динамикой просто убивают скрипты. Я недавно тестил GPT-5.4 с его native computer use - и это реальный прорыв для автоматизации. Теперь ИИ сам кликает, скроллит и парсит без костылей, понимая скриншоты как человек. Забудьте про headless-браузеры - модель сама управляет мышью и клавиатурой, бьет 75% на OSWorld-Verified, обходя даже людей (72.4%).
Проблема, которую это решает: Бизнесу нужны лиды с 100+ порталов типа HOA или налоговых сайтов. Раньше - 73-79% успеха с кучей токенов и времени. С GPT-5.4 - 95% с первого раза, 100% за три, в 3 раза быстрее и на 70% меньше токенов. CEO Mainstay это подтвердил на своих 30K задачах. Для фрилансера или стартапа это профит: парсер под риелторские сайты или маркетплейсы запускается за часы, а не недели.
Как это работает? Модель видит скриншот, локализует элементы, кликает и печатает. Поддерживает 1M токенов контекста - планирует длинные цепочки задач. Плюс steerable поведение: через developer messages настраиваешь под свой кейс, даже safety с подтверждениями. В API и Codex уже доступно, в ChatGPT - GPT-5.4 Thinking и Pro.
Практика на TS с OpenAI API. Вот как запустить простого агента для парсинга цен с сайта. Используем Playwright для скринов, но GPT-5.4 сам генерит действия.
import OpenAI from 'openai'; const openai = new OpenAI({ apiKey: process.env.OPENAI_API_KEY }); async function parsePrices(url: string) { // Шаг 1: Скрин текущей страницы const screenshot = await takeScreenshot(url); // Ваша функция с Playwright // Шаг 2: Промпт для GPT-5.4 const response = await openai.chat.completions.create({ model: 'gpt-5.4', messages: [ { role: 'system', content: 'Ты агент для парсинга. Анализируй скриншот, описывай действия: клик по x,y, текст для ввода. Цель: собрать цены товаров.' }, { role: 'user', content: [`Скрин: ${screenshot.toDataURL()}`, 'URL: ' + url, 'Найди и кликни поиск, введи "iPhone", собери цены.'].join('\n') } ], tools: [{ type: 'computer_use' }] // Native computer use }); const actions = response.choices.message.content; // Парсим действия и исполняем: клики, ввод await executeActions(actions); return extractPrices(); }Этот код - база. Добавьте loop для верификации. Ключевой промпт: “Анализируй скриншот визуально. Координаты клика: x,y. Если не уверен - запроси новый скрин. Избегай ошибок локализации, фокусируйся на high detail mode.” Работает на original/high деталях лучше всего.
Лайфхаки для продакшена:
- Используйте 1M контекст для multi-app: Excel -> браузер -> Sheets.
- Для бизнеса: spreadsheet modeling на 87.3% (vs 68% у 5.2) - генерит таблицы лидов авто.
- Tool search via Codex: модель сама находит нужные инструменты.
- Настройте confirmation policies: для рисковых парсеров - double-check перед кликом.
Минусы честно: Цена API не дешевая - 1M токенов жрет бюджет, стандартный контекст 272K. На coding не огромный скачок vs 5.3 (1% на OSWorld extra high). Зависит от качества скринов: low-res - ошибки. Плюс enterprise фокус - для солоразраба лимиты могут кусаться.
Плюсы перевешивают: 83% на knowledge-work бенчмарках, меньше ошибок, быстрее агенты. Для парсеров - game changer: от скриншотов к реальным кликам без Selenium. Я уже мигрирую свои боты под риелт и e-com.
А вы уже тестите?
Переходите на GPT-5.4 или держитесь за Puppeteer? Какие кейсы сломали старые инструменты, и как парсите динамику? Делитесь в коммах - обсудим реальные API-хаки.
Здравствуйте! Похоже, вас заинтересовала эта беседа, но у вас ещё нет аккаунта.
Надоело каждый раз пролистывать одни и те же посты? Зарегистрировав аккаунт, вы всегда будете возвращаться на ту же страницу, где были раньше, и сможете выбирать, получать ли уведомления о новых ответах (по электронной почте или в виде push-уведомлений). Вы также сможете сохранять закладки и ставить лайки постам, чтобы выразить свою благодарность другим участникам сообщества.
С вашими комментариями этот пост мог бы стать ещё лучше 💗
Зарегистрироваться Войти© 2024 - 2026 ExLends, Inc. Все права защищены.