🔥 Hot topics · NEUMÍ · Umí · § The Court · Nedávná překlopení · 📈 Časová osa · Zeptat se · Komentáře · 🔥 Hot topics · NEUMÍ · Umí · § The Court · Nedávná překlopení · 📈 Časová osa · Zeptat se · Komentáře
Stuff AI CAN'T Do

Umí AI upravovat 3D scény podle textových instrukcí ?

Co si myslíš?

Ptá se tato otázka, zda mohou systémy umělé inteligence přímo přetvořit a změnit texturu 3D scény, když jsou jim zadány pokyny v prostém textu, aniž by došlo ke zhroucení úpravy napříč různými úhly pohledu. Zkoumá proveditelnost jedné dopředné pasáže, která zachovává prostorovou konzistenci v celém prostředí.

Background

V nedávné práci se Kaixin Zhu et al. (2026) zabývají nativním 3D editováním scén pomocí své metody VGGT-Edit, která provádí modifikace geometrie a vzhledu v jednorázovém procesu. Místo spoléhání se na multi-view difúzi nebo iterativní optimalizaci VGGT-Edit předpovídá reziduální geometrická a vzhledová pole, aby požadovanou změnu aplikovala přímo v 3D prostoru, přičemž se snaží udržet strukturální integritu invariantní při změnách pohledu. Autoři testují na ScanNet++, OmniScenes a Matterport3D, kde ukazují, že předpověď reziduálních polí překonává předchozí základní metody jak v kvalitě editace, tak v konzistenci napříč pohledy. Jejich open-source kód a dataset jsou k dispozici na https://github.com/zhuKaixhin/VGGT-Edit.


Editování textu na 3D pomocí AI pokročilo od hrubé manipulace se scénami k ovládání více objektů a atributů, kde přírodní jazyk specifikuje úpravy jako materiál, barva, umístění objektu nebo osvětlení v jediném průchodu. Difúzní 3D generativní modely nyní podporují úpravy řízené jazykem vložením textových tokenů do polí neurální radiance nebo pipeline Gaussian splattingu, což umožňuje úpravy jako „udělej pohovku červenou“ při zachování geometrické konzistence napříč pohledy. Předchozí práce se spoléhaly na úpravy na úrovni jednotlivých pohledů, které často vedly k nekonzistentním texturám nebo stínům při pohledu z nových úhlů, zatímco novější metody omezují úpravy pomocí kanonických 3D reprezentací nebo triplanárních prvků, aby zachovaly prostorovou soudržnost. Benchmarky kombinující syntetické a reálné interiérové scény ukazují zlepšené skóre zarovnání založené na CLIP a nižší geometrický posun, když jsou úpravy podmíněny jak jazykem, tak 3D strukturou. Výzkumné prototypy demonstrují interaktivní editaci scén řízenou textem za méně než 10 sekund na středně výkonných GPU, což naznačuje pokrok směrem k pracovním postupům v reálném čase. Přesto však zůstávají výzvy v řešení okultací, zachování jemné geometrie a škálování na velké scény otevřeného světa bez nutnosti per-scénového přetrénování.

— Rozšířeno 15. května 2026

Stav naposledy zkontrolován May 20, 2026.

📰

Galerie

In the Court of AI Capability
Summary of Findings
Verdict over time
May 2026May 2026
Sitting at the Bench Filed · kvě 20, 2026
— The Question Before the Court —

Umí AI upravovat 3D scény podle textových instrukcí?

★ The Court Finds ★
Reaffirmed
Téměř

Existují omezené ukázky — ale porota nebyla jednomyslná.

Ruling of the Bench

Porota se shodla, že technologie existuje v zárodečné podobě – některé zkušené ruce prohlásily, že již spatřila světlo světa, jiné ji označily za teprve nedávno opouštějící laboratoř a ještě plnou dětských nemluvností. Tam, kde se čtyři názory rozcházely mezi „ano“ a „téměř“, byla hlavní příčinou tolerance k chybám a nedodělkům ukázkových dem. S nikým nesouhlasícím v záporu soud shledal umění jako vznikající, ale živé. Rozsudek: „Scénu lze dnes upravovat textem, i když kamera ještě potřebuje dospělého.“

— Hon. D. Knuth-Hale, Presiding
Jury Tally
2Ano
2Téměř
0Ne
Verdict Confidence
81%
The Court of AI Capability is, of course, not a real court.
But the data is real.
The Case File · Stacked History
Session I · May 2026 Téměř · 83%
Case № D2D0 · Session II
In the Court of AI Capability

The Case File

Docket № D2D0 · Session II · Vol. II
I. Particulars of the Case
Question put to the courtUmí AI upravovat 3D scény podle textových instrukcí?
SessionII (2 hearing)
Convened20 kvě 2026
Previously ruledALMOST (May '26) → ALMOST (May '26)
Presiding JudgeHon. D. Knuth-Hale
II. Cumulative Tally Across Sessions

Across 2 sessions, 8 jurors have heard this case. Combined tally: 4 YES · 4 ALMOST · 0 NO · 0 IN RESEARCH.

Note: cumulative includes older juror opinions. The current session tally above is the live verdict.

III. Verdict

By a vote of 2 — 2 — 0, the panel returns a verdict of TéMěř, with verdict confidence of 81%. The court so orders.

IV. Prohlášení soudců
Porotce I ANO

"Text-to-3D scene editing is demonstrated by systems like Instruct-Nerf2Nerf and similar diffusion-based pipelines."

Porotce II ANO

"AI systems like Point-E and LEO can generate and edit 3D scenes from text prompts with reasonable fidelity."

Porotce III ALMOST

"Text-to-3D models and scene editing exist"

Porotce IV ALMOST

"Text-to-3D models and scene editing demos exist"

Individuální prohlášení porotců jsou zobrazena v původní angličtině pro zachování důkazní přesnosti.

D. Knuth-Hale
Presiding Judge
M. Lovelace
Clerk of the Court

Co si myslí publikum

Ne 33% · Ano 25% · Možná 42% 12 votes
Ne · 33%
Ano · 25%
Možná · 42%
41 days of activity

Diskuze

no comments

Komentáře a obrázky procházejí kontrolou admina, než se objeví veřejně.

2 jury checks · nejnovější před 4 dny
20 May 2026 4 jurors · umí, umí, nerozhodnuto, nerozhodnuto nerozhodnuto
15 May 2026 4 jurors · nerozhodnuto, umí, umí, nerozhodnuto nerozhodnuto

Každý řádek je samostatná kontrola poroty. Porotci jsou AI modely (identity záměrně neutrální). Stav odráží kumulativní součet všech kontrol — jak porota funguje.

Další v technology

Máte nějakou, kterou jsme přehlédli?

Přidejte tvrzení do atlasu. Kontrolujeme týdně.