Блог про веброзробку та програмування

Корисні статті про Java, Spring, SEO, фронтенд та сучасні технології. Поради, приклади, лайфхаки для розробників

Пошук:

Категорії

Переглянути
Claude Opus 4.7 для RAG: як я тестував модель на реальних документах

Claude Opus 4.7 для RAG: як я тестував модель на реальних документах

Протестував Claude Opus 4.7 на 400 юридичних PDF у своїй RAG-системі AskYourDocs. Порівняв з Llama 3.3 70B — що виграє, що коштує, коли брати.

Claude Opus 4.7: детальний огляд моделі Anthropic у 2026

Claude Opus 4.7: детальний огляд моделі Anthropic у 2026

Claude Opus 4.7 вийшов 16 квітня 2026. SWE-bench Pro 64.3%, vision 3.75 MP, ціна $5/$25. Розбираю що нового, breaking changes та реальний досвід у RAG.

Gemma 4 26B MoE: підводні камені і коли це реально виграє

Gemma 4 26B MoE: підводні камені і коли це реально виграє

Правда про Gemma 4 26B MoE яку не пишуть в рекламних оглядах. Свопінг на Mac 24 GB, 2 токени/сек, баги Flash Attention.

Reasoning mode в Gemma 4: як вмикати, коли потрібно і скільки коштує — 2026

Reasoning mode в Gemma 4: як вмикати, коли потрібно і скільки коштує — 2026

Що таке thinking mode в Gemma 4, як він працює через Ollama, як скоротити або вимкнути через /no_think. Реальні тести на M1 16 GB

Gemma 4: повний огляд — розміри, ліцензія, порівняння з Gemma 3

Gemma 4: повний огляд — розміри, ліцензія, порівняння з Gemma 3

Що таке Gemma 4, які розміри моделей, ліцензія Apache 2.0, порівняння з Gemma 3 по бенчмарках і як запустити через Ollama. Повний огляд від Google DeepMind

Gemma 4 на M1 16 GB — реальні тести: код, текст, швидкість

Gemma 4 на M1 16 GB — реальні тести: код, текст, швидкість

Тестую Gemma 4 через Ollama на MacBook Pro M1 16 GB. Порівняння з Qwen3:8b і Mistral Nemo на реальних задачах: генерація Spring Boot коду та тексту. Чесний огля

Як модель LLM  вирішує коли шукати — механіка прийняття рішень

Як модель LLM вирішує коли шукати — механіка прийняття рішень

tool_choice, CoT reasoning, опис інструменту і галюцинація від впевненості — як модель вирішує шукати чи ні, і як це зламати чи налагодити.

Tool Use vs Function Calling: механіка, JSON schema і зв'язок з RAG

Tool Use vs Function Calling: механіка, JSON schema і зв'язок з RAG

LLM не виконує функції — вона їх описує у JSON. Розбираємо tool_choice, повний цикл виклику, різницю між RAG pipeline і Tool Use — з прикладами коду для OpenAI

Як навчають LLM: від pre-training до RLVR — повний гайд 2026

Як навчають LLM: від pre-training до RLVR — повний гайд 2026

Як насправді навчають ChatGPT, Claude і Gemini: pre-training, SFT, RLHF, DPO, RLVR. Реальні цифри вартості, scaling laws і нова ера синтетичних даних 2025–2026.

Я додав BM25 до свого RAG-сервісу — і vector search перестав губити точні запити

Я додав BM25 до свого RAG-сервісу — і vector search перестав губити точні запити

Як я додав BM25 до vector search у production RAG-сервісі на pgvector. Міграція, RRF, конфігурація під клієнта — з кодом і підводними каменями.

Hybrid Search та Reranking: як підняти якість RAG на 15–40% без зміни моделі

Hybrid Search та Reranking: як підняти якість RAG на 15–40% без зміни моделі

Як hybrid search (BM25 + vector + RRF) та reranking підвищують якість RAG без зміни моделі. Архітектура, код для Qdrant, порівняння rerankers, decision tree.

Embeddings простими словами: як AI розуміє сенс, а не просто слова

Embeddings простими словами: як AI розуміє сенс, а не просто слова

Чому ChatGPT знаходить документ без точного збігу слів? Пояснюємо що таке embeddings, як модель кодує сенс і де це використовується — без зайвої теорії.

Як виміряти якість RAG: метрики, інструменти та перший evaluation pipeline — гайд 2026

Як виміряти якість RAG: метрики, інструменти та перший evaluation pipeline — гайд 2026

5 метрик RAG з формулами, код запуску RAGAS і DeepEval, порогові значення, evaluation на Ollama та CI/CD pipeline. Від тестового набору до автоматизації.

ChromaDB, Qdrant або pgvector: як обрати Vector DB під свій проєкт

ChromaDB, Qdrant або pgvector: як обрати Vector DB під свій проєкт

Порівняння ChromaDB, Qdrant та pgvector. Бенчмарки 50M векторів, нюанси Cloud Managed Postgres та вибір архітектури для RAG у 2026 році.

Vector Search для початківців: як RAG знаходить потрібну інформацію

Vector Search для початківців: як RAG знаходить потрібну інформацію

Як RAG знаходить потрібний фрагмент? Пояснюємо cosine similarity без формул, порівнюємо ChromaDB vs Qdrant vs pgvector і даємо робочий код із нуля.

RAG для PDF: як задавати питання по документах — повний гайд 2026

RAG для PDF: як задавати питання по документах — повний гайд 2026

Створіть робочий RAG пайплайн для PDF. PyMuPDF, pdfplumber, Tesseract, EasyOCR і локальні або API-моделі для Q&A.

Chunking Strategies в RAG 2026: як правильно розбивати дані для production

Chunking Strategies в RAG 2026: як правильно розбивати дані для production

Як правильно розбивати документи в RAG-системах: огляд 7 стратегій chunking з бенчмарками, decision tree для вибору та кейсами з production.

Ollama: 8 ГБ vs 16 ГБ RAM — які моделі відкриваються і чи варто апгрейд у 2026

Ollama: 8 ГБ vs 16 ГБ RAM — які моделі відкриваються і чи варто апгрейд у 2026

Які моделі Ollama запускаються на 16 ГБ RAM у 2026? 7 конкретних моделей 11B-14B tier, порівняння з 8 ГБ, бенчмарки і поради щодо CPU offloading

Genspark Claw vs Claude Cowork vs Perplexity Computer: який AI-агент обрати у 2026 — порівняння, ціни та рекомендації

Genspark Claw vs Claude Cowork vs Perplexity Computer: який AI-агент обрати у 2026 — порівняння, ціни та рекомендації

Порівняння трьох AI-агентів 2026: Claw від $40/міс, Cowork від $20/міс, Computer $200/міс. Таблиця, матриця рішень за задачами та ролями. Чесний аналіз.

Що таке токени у ChatGPT, Claude і Gemini: як AI бачить ваш текст і скільки це коштує (2026)

Що таке токени у ChatGPT, Claude і Gemini: як AI бачить ваш текст і скільки це коштує (2026)

Що таке токени, як працює BPE-токенізація, чому кирилиця коштує втричі дорожче та скільки платити за API GPT-4o, Claude, Gemini у 2026 році.

Embedding-моделі для RAG у 2026: як обрати, порівняння провайдерів

Embedding-моделі для RAG у 2026: як обрати, порівняння провайдерів

Порівняв 12 embedding-моделей для RAG: OpenAI, Cohere, Voyage AI, BGE-M3. Таблиця цін, реальний досвід з 4 мовами на Spring Boot і поради що обрати.

Як працює AI: токени, трансформери і навчання LLM

Як працює AI: токени, трансформери і навчання LLM

Як працює ChatGPT, Claude і Gemini у 2026: токени, attention, контекстне вікно, RLHF, галюцинації.

RAG з Ollama: як навчити AI відповідати по твоїх документах — від пайплайну до продакшну

RAG з Ollama: як навчити AI відповідати по твоїх документах — від пайплайну до продакшну

RAG з Ollama — як зробити щоб локальна AI відповідала по твоїх PDF і документах без донавчання. Покрокове пояснення пайплайну,

Контекстне вікно LLM: чому AI забуває і скільки це коштує

Контекстне вікно LLM: чому AI забуває і скільки це коштує

Що таке context window, чому подвоєння контексту в 4 рази дорожче, ефект lost in the middle, порівняння Claude vs GPT vs Gemini та реальна вартість токенів.