Перейти к содержанию
  • Лента
  • Категории
  • Последние
  • Метки
  • Популярные
  • Пользователи
  • Группы
Свернуть
exlends
Категории
  1. Главная
  2. Категории
  3. Искусственный Интеллект
  4. GPT-5.4 Native Computer Use: парсеры без Selenium от скриншотов к кликам

GPT-5.4 Native Computer Use: парсеры без Selenium от скриншотов к кликам

Запланировано Прикреплена Закрыта Перенесена Искусственный Интеллект
gpt-5.4computer-useавтоматизацияпарсерыopenai api
1 Сообщения 1 Постеры 11 Просмотры
  • Сначала старые
  • Сначала новые
  • По количеству голосов
Ответить
  • Ответить, создав новую тему
Авторизуйтесь, чтобы ответить
Эта тема была удалена. Только пользователи с правом управления темами могут её видеть.
  • kirilljsxK Не в сети
    kirilljsxK Не в сети
    kirilljsx
    js
    написал отредактировано
    #1

    Обложка: GPT-5.4 Native Computer Use для автоматизации браузер-интенсивных парсеров: от скриншотов к кликам без Selenium-костылей

    Все, кто пилил парсеры под браузерные сайты, знают эту боль: Selenium тормозит, Puppeteer жрет ресурсы, а сайты с капчами и динамикой просто убивают скрипты. Я недавно тестил GPT-5.4 с его native computer use - и это реальный прорыв для автоматизации. Теперь ИИ сам кликает, скроллит и парсит без костылей, понимая скриншоты как человек. Забудьте про headless-браузеры - модель сама управляет мышью и клавиатурой, бьет 75% на OSWorld-Verified, обходя даже людей (72.4%).

    Проблема, которую это решает: Бизнесу нужны лиды с 100+ порталов типа HOA или налоговых сайтов. Раньше - 73-79% успеха с кучей токенов и времени. С GPT-5.4 - 95% с первого раза, 100% за три, в 3 раза быстрее и на 70% меньше токенов. CEO Mainstay это подтвердил на своих 30K задачах. Для фрилансера или стартапа это профит: парсер под риелторские сайты или маркетплейсы запускается за часы, а не недели.

    Как это работает? Модель видит скриншот, локализует элементы, кликает и печатает. Поддерживает 1M токенов контекста - планирует длинные цепочки задач. Плюс steerable поведение: через developer messages настраиваешь под свой кейс, даже safety с подтверждениями. В API и Codex уже доступно, в ChatGPT - GPT-5.4 Thinking и Pro.

    Практика на TS с OpenAI API. Вот как запустить простого агента для парсинга цен с сайта. Используем Playwright для скринов, но GPT-5.4 сам генерит действия.

    import OpenAI from 'openai';
    
    const openai = new OpenAI({ apiKey: process.env.OPENAI_API_KEY });
    
    async function parsePrices(url: string) {
      // Шаг 1: Скрин текущей страницы
      const screenshot = await takeScreenshot(url); // Ваша функция с Playwright
      
      // Шаг 2: Промпт для GPT-5.4
      const response = await openai.chat.completions.create({
        model: 'gpt-5.4',
        messages: [
          { role: 'system', content: 'Ты агент для парсинга. Анализируй скриншот, описывай действия: клик по x,y, текст для ввода. Цель: собрать цены товаров.' },
          { role: 'user', content: [`Скрин: ${screenshot.toDataURL()}`, 'URL: ' + url, 'Найди и кликни поиск, введи "iPhone", собери цены.'].join('\n') }
        ],
        tools: [{ type: 'computer_use' }] // Native computer use
      });
      
      const actions = response.choices.message.content;
      // Парсим действия и исполняем: клики, ввод
      await executeActions(actions);
      return extractPrices();
    }
    

    Этот код - база. Добавьте loop для верификации. Ключевой промпт: “Анализируй скриншот визуально. Координаты клика: x,y. Если не уверен - запроси новый скрин. Избегай ошибок локализации, фокусируйся на high detail mode.” Работает на original/high деталях лучше всего.

    Лайфхаки для продакшена:

    • Используйте 1M контекст для multi-app: Excel -> браузер -> Sheets.
    • Для бизнеса: spreadsheet modeling на 87.3% (vs 68% у 5.2) - генерит таблицы лидов авто.
    • Tool search via Codex: модель сама находит нужные инструменты.
    • Настройте confirmation policies: для рисковых парсеров - double-check перед кликом.

    Минусы честно: Цена API не дешевая - 1M токенов жрет бюджет, стандартный контекст 272K. На coding не огромный скачок vs 5.3 (1% на OSWorld extra high). Зависит от качества скринов: low-res - ошибки. Плюс enterprise фокус - для солоразраба лимиты могут кусаться.

    Плюсы перевешивают: 83% на knowledge-work бенчмарках, меньше ошибок, быстрее агенты. Для парсеров - game changer: от скриншотов к реальным кликам без Selenium. Я уже мигрирую свои боты под риелт и e-com.

    А вы уже тестите?

    Переходите на GPT-5.4 или держитесь за Puppeteer? Какие кейсы сломали старые инструменты, и как парсите динамику? Делитесь в коммах - обсудим реальные API-хаки.

    1 ответ Последний ответ
    0

    Здравствуйте! Похоже, вас заинтересовала эта беседа, но у вас ещё нет аккаунта.

    Надоело каждый раз пролистывать одни и те же посты? Зарегистрировав аккаунт, вы всегда будете возвращаться на ту же страницу, где были раньше, и сможете выбирать, получать ли уведомления о новых ответах (по электронной почте или в виде push-уведомлений). Вы также сможете сохранять закладки и ставить лайки постам, чтобы выразить свою благодарность другим участникам сообщества.

    С вашими комментариями этот пост мог бы стать ещё лучше 💗

    Зарегистрироваться Войти

    Категории

    • Главная
    • Новости
    • Фронтенд
    • Бекенд
    • Языки программирования

    Контакты

    • Сотрудничество
    • info@exlends.com

    © 2024 - 2026 ExLends, Inc. Все права защищены.

    Политика конфиденциальности
    • Войти

    • Нет учётной записи? Зарегистрироваться

    • Войдите или зарегистрируйтесь для поиска.
    • Первое сообщение
      Последнее сообщение
    0
    • Лента
    • Категории
    • Последние
    • Метки
    • Популярные
    • Пользователи
    • Группы