Промпт-інжиніринг та структурований вивід

Q: Що найчастіше перевіряють у домені Prompt Engineering?

Три головні теми: few-shot приклади як найефективніший спосіб передати формат виводу; tool_use з JSON-схемою як єдиний надійний спосіб отримати схема-compliant вивід; retry з контекстом помилки валідації (а не сліпий повтор).

Q: Які anti-patterns критичні для Домену 4?

Розмиті інструкції («будь консервативним», «не вигадуй») не працюють — потрібні конкретні категоріальні критерії. Required поля в схемі, яких може не бути в джерелі, призводять до фабрикації — треба nullable. Batches API не підходить для блокуючих воркфлоу.

Q: Коли Batches API — правильний вибір?

Batches API (50% економія) підходить для асинхронних воркфлоу без жорстких latency-вимог: нічні звіти, масова обробка документів, аналіз tech debt. Не підходить для блокуючих pre-merge checks і будь-яких воркфлоу з multi-turn tool calling.

Question 1

Команда хоче зменшити витрати на API. Зараз real-time виклики живлять два воркфлоу: (1) блокуючий pre-merge check, який має завершитись до merge, і (2) звіт по tech debt, що генерується вночі для ранкового перегляду. Менеджер пропонує перевести обидва на Message Batches API заради 50% економії. Як оцінити?

Accepted Answer

Перевести на batch лише нічні звіти по tech debt, а блокуючі pre-merge checks свідомо лишити на real-time

Answer

Перевести обидва воркфлоу на batch і відстежувати готовність кожного результату через status polling

Answer

Лишити обидва воркфлоу на real-time, щоб уникнути проблем із кореляцією й порядком результатів

Answer

Перевести обидва на batch, додавши timeout-fallback на real-time для запізнілих результатів

Question 2

PR змінює 14 файлів у модулі обліку. Single-pass рев'ю всіх файлів разом дає непослідовний результат: десь детальний фідбек, десь поверхневий, очевидні баги пропущені, а інколи фідбек суперечливий — патерн позначено проблемним в одному файлі й схвалено ідентичний код в іншому. Як перебудувати рев'ю?

Accepted Answer

Розбити на сфокусовані проходи: окремий аналіз кожного файлу й integration-прохід по крос-файлах

Answer

Вимагати від розробників розбивати великі PR на групи по 3–4 файли ще до запуску авто-рев'ю в CI

Answer

Перейти на модель із більшим контекстним вікном, щоб умістити всі 14 файлів разом за один прохід

Answer

Зробити три незалежні проходи й флагати лише ті проблеми, що з'явились мінімум у двох із них тут

Question 3

Ваш промпт каже «перевір, що коментарі точні», і це дає багато false positives. Як переформулювати критерій, щоб підвищити точність?

Accepted Answer

Дати явний категоріальний критерій: флагати коментар, лише коли заявлена в ньому поведінка суперечить коду

Answer

Додати загальну настанову бути консервативним і повідомляти лише про high-confidence знахідки в коментарях

Answer

Просити модель саму оцінювати власну впевненість і фільтрувати знахідки нижче певного порогу

Answer

Збільшити max_tokens, щоб модель мала більше простору ретельніше перевіряти кожен коментар

Question 4

Менеджер пропонує знизити false positives, додавши в промпт «звітуй лише про high-confidence проблеми» та «будь обережним». Чому це слабке рішення?

Accepted Answer

Розмиті заклики бути консервативним не дають precision; потрібні категоріальні критерії

Answer

Це сильне й цілком достатнє рішення, саме так і варто формулювати інструкції для рев'ю

Answer

Проблема лише в слові обережним, тож достатньо замінити його на суворішим і все запрацює

Answer

Достатньо знизити temperature до нуля, і тоді кількість false positives помітно зменшиться

Question 5

Та сама Claude-сесія, що згенерувала код, гірше знаходить у ньому власні тонкі помилки, навіть з інструкцією «перевір себе» чи extended thinking. Який підхід ефективніший?

Accepted Answer

Другий незалежний інстанс Claude без reasoning-контексту генерації для свіжого рев'ю коду

Answer

Додати в той самий промпт інструкцію уважно перевірити власний згенерований код щонайменше двічі

Answer

Увімкнути extended thinking у тій самій сесії, щоб модель глибше проаналізувала власні рішення

Answer

Підняти temperature на етапі самоперевірки, щоб модель розглянула альтернативні трактування коду

Question 6

Детальні інструкції все одно дають непослідовний формат фідбеку рев'ю. Який прийом найкраще дає консистентний, actionable формат?

Accepted Answer

Few-shot приклади бажаного формату виводу рев'ю: location, issue, severity, suggested fix

Answer

Ще детальніша прозова специфікація бажаного формату з повним переліком обов'язкових полів виводу

Answer

Просити модель самостійно вигадувати зручну для неї структуру виводу під кожен окремий прохід

Answer

Збільшити кількість проходів рев'ю, щоб формат поступово стабілізувався між повторними запусками

Question 7

Ви ганяєте документи через Batches API (обробка до 24 год) і маєте дотриматись SLA 30 годин. Як спланувати подачу батчів?

Accepted Answer

Подавати батчі у вікнах близько 4 годин, щоб гарантувати дотримання SLA

Answer

Подати все одним великим батчем раз на добу й сподіватись, що обробка встигне вчасно

Answer

Перейти на синхронний API, бо batch-обробка не підходить для жодних SLA-обмежень

Answer

Подавати кожен документ окремим мінібатчем щохвилини протягом доби

Question 8

Одна категорія перевірок дає стільки false positives, що розробники втрачають довіру навіть до точних категорій. Який прагматичний крок?

Accepted Answer

Тимчасово вимкнути категорію з високим FP, паралельно покращуючи її промпт

Answer

Лишити все як є, оскільки довіра розробників відновиться сама собою з часом

Answer

Знизити загальну кількість усіх знахідок наполовину незалежно від категорії

Answer

Видалити всі категорії перевірок, окрім перевірки стилю коду

Ключові теми

Типові anti-patterns

Приклади питань — Домен 4

Ваш промпт каже «перевір, що коментарі точні», і це дає багато false positives. Як переформулювати критерій, щоб підвищити точність?

Менеджер пропонує знизити false positives, додавши в промпт «звітуй лише про high-confidence проблеми» та «будь обережним». Чому це слабке рішення?

Та сама Claude-сесія, що згенерувала код, гірше знаходить у ньому власні тонкі помилки, навіть з інструкцією «перевір себе» чи extended thinking. Який підхід ефективніший?

Детальні інструкції все одно дають непослідовний формат фідбеку рев'ю. Який прийом найкраще дає консистентний, actionable формат?

Ви ганяєте документи через Batches API (обробка до 24 год) і маєте дотриматись SLA 30 годин. Як спланувати подачу батчів?

Одна категорія перевірок дає стільки false positives, що розробники втрачають довіру навіть до точних категорій. Який прагматичний крок?

Часті питання про Домен 4

Що найчастіше перевіряють у домені Prompt Engineering?

Які anti-patterns критичні для Домену 4?

Коли Batches API — правильний вибір?