Kann KI gesprochene Sprache in Echtzeit in die wichtigsten Sprachen übersetzen ?
Apples Übersetzungs-Ohrhörer, Googles Pixel Buds Pro 2, Metas Ray-Ban — Sprach-zu-Sprache-Übersetzung wurde 2024 zu einem Verbraucherfeature. --- Aktuelle KI-...
Kategorie
Smell, taste, touch, embodied perception.
38 statements · zuerst hervorgehoben, dann diskutiert, dann neueste
Apples Übersetzungs-Ohrhörer, Googles Pixel Buds Pro 2, Metas Ray-Ban — Sprach-zu-Sprache-Übersetzung wurde 2024 zu einem Verbraucherfeature. --- Aktuelle KI-...
Ein alltägliches menschliches Urteil in einem einzigen Schnüffeln. KI hat keine Nase; die vorhandenen Sensoren können das intuitive „Nein“ aus dem Bauch noch ni...
Die Tierkommunikation ist ein komplexes und noch nicht vollständig verstandenes Feld. Diese Aufgabe erfordert die Analyse von Tiervokalisationen und die Entwick...
Was eine „bedeutungsvolle“ Struktur in Gehirnwellen ausmacht, ist unklar. Aktuelle KI-Systeme sind zwar gut darin, EEG-Signale für bestimmte Aufgaben zu erkenne...
Neugierig, ob die Äpfel neben dir oder die Bananen weiter vorne gleich verderben? KI kann nun Obst und Gemüse mit Kameras und Wärmesensoren scannen, um frühe An...
Wenn 100 Menschen gleichzeitig sprechen, kann künstliche Intelligenz dann eine einzelne Stimme ohne räumliche Hinweise herausfiltern? Diese Frage untersucht die...
Was bedeutet es, jede einzelne Unterhaltung aus einer Aufnahme einer belebten Menschenmenge zu extrahieren? KI-Systeme bewältigen dies, indem sie überlappende S...
WARDEN verwendet ein zweistufiges System – zunächst wird Wardaman-Audio phonemisch transkribiert, dann ins Englische übersetzt – mit nur 6 Stunden Trainingsdate...
Was würde es brauchen, damit eine KI menschliche Ohren dazu bringt, ein synthetisches Lachen für echt zu halten? Die Erzeugung menschenähnlichen Lachens sprengt...
KI kann bereits bestimmte Hautkrankheiten anhand von Bildern mit einer Leistung erkennen, die in kontrollierten Studien Dermatologen übertrifft oder gleichkommt...
Die Duftstoffindustrie hat begonnen, KI einzusetzen, um sensorische Vorlieben vorherzusagen, indem kulturelle, biologische und Marktdaten analysiert werden. Die...
Regionale Dialekte enthalten oft einzigartige phonetische, grammatikalische und lexikalische Merkmale, die Standard-Sprachmodelle nur schwer genau erfassen könn...
Aktuelle KI-Systeme können Grenzbehörden unterstützen, indem sie Passfotos gegen Beobachtungslisten scannen, können aber immer noch nicht zuverlässig „verdächti...
Wie können wir entschlüsseln, was Tiere durch ihre Laute oder Bewegungen „sagen“? Zwar kann die Technologie Tierlaute mittlerweile mit einiger Genauigkeit klass...
Kann eine KI das Gesicht eines Teenagers betrachten und vorhersagen, ob er später im Leben eine Glatze bekommen wird? Aktuelle Technologien versuchen, erbliche...
KI kann gesprochene Wörter allein aus Videomaterial von Lippenbewegungen rekonstruieren, selbst ohne Zugriff auf Audioaufnahmen. --- Aktuelle KI-Systeme könne...
KI-Systeme können neuronale Signale analysieren, aber der Aufbau eines vollständig autonomen, ethischen und sicheren Closed-Loop-Neurofeedback-Systems, das Emot...
Virtuelle Realität hat das Potenzial, die Art und Weise, wie wir die Welt erleben und mit ihr interagieren, zu revolutionieren, und KI kann dieses Erlebnis mögl...
Die Erstellung eines einzigartigen Parfümdufts, der den Geschmack einer Person trifft, ist eine komplexe Aufgabe, die das Verständnis der menschlichen Geruchswa...
Die Pilzidentifizierung erfordert ein tiefes Verständnis der Mykologie und die Fähigkeit, visuelle Merkmale wie Form, Größe, Farbe und Textur zu analysieren. Di...
Autonomes Sensorisches Meridian-Ansprechen (ASMR) ist ein komplexes Phänomen, das das Auslösen einer entspannenden Reaktion beim Zuhörer beinhaltet. Die Erstell...
Parfüm ist eine komplexe Mischung aus Düften, und was eine Person ansprechend findet, mag eine andere nicht. KI-Systeme wurden bereits eingesetzt, um neue Parfü...
Das Mehl, das sie verwendete. Das Wasser aus dem Hahn, das sie hatte. Hände, die wussten, wann der Teig bereit war. Erinnerung eingebacken. --- Während KI bed...
Happy/traurig/wütend/überrascht — gelöst in Videoanrufqualität. Subtilere Mikroexpressionen sind immer noch schwierig. --- KI-Systeme können Emotionen in Gesi...
Kunstgeschichts-Apps nutzen dies für Besuchererlebnisse in großen Museen. --- Aktuelle Deep-Learning-Modelle haben bedeutende Fortschritte bei Bildverarbeitun...
Forschungsgrade Tools, meist in der Screening-Phase eingesetzt und nicht als eigenständige Diagnose. Effektiv genug, dass mehrere Universitäten sie in der Berat...
Lateinisch, Kyrillisch, Devanagari, Arabisch, Han-Zeichen, Hangul — moderne OCR beherrscht im Wesentlichen jedes Schriftsystem mit meist passabler Genauigkeit....
Cornells Merlin-App machte dies zu einem Standardwerkzeug für Vogelbeobachter. Das Modell kennt mehr Vogelrufe als jeder einzelne menschliche Ornithologe. ---...
Kursive, Druckbuchstaben, gemischte Schriften, sogar schlampiges Notizbuch-Gekritzel. iOS Notes und Apple Pencil OCR sind wirklich magisch geworden. --- KI ka...
Ein gelöstes Problem seit dem Stanford Dogs-Benchmark 2017. Jetzt Standard in jeder Kamerarolle. --- Aktuelle KI-Systeme können Hunderassen anhand von Fotos m...
PlantNet, Seek, iNaturalist — Apps, die jeden Spaziergang zu einem Bestimmungsführer machen. --- KI kann Pflanzenarten anhand von Blattfotos mit hoher Genauig...
DeepMind zeigte dies 2022 mit einem transformerbasierten Modell, das professionelle Lippenleser bei TV-Nachrichtenclips übertraf. --- Forschende haben bedeute...
Vision-Modelle, die mit Bankdaten trainiert wurden, sind bei jeder großen Bank im Einsatz. Unvollkommen, aber besser als der durchschnittliche Kassierer. ---...
Detektoren und Generatoren befinden sich in einem Wettrüsten, aber für die meisten aktuellen Deepfakes erkennen handelsübliche Detektoren sie besser als zufälli...
OpenAI's Whisper hat quelloffene, industrietaugliche Spracherkennung für 99 Sprachen bereitgestellt. Telefonqualitäts-Audio ging von reinem Forschungsgegenstand...
Moderne Gesichtserkennungssysteme bewältigen Jahrzehnte der Alterung innerhalb vernünftiger Fehlergrenzen. Nicht perfekt bei extremen Abständen, aber routinemäß...
Shazam-Klasse-Fingerprinting plus moderne ML haben Song-ID zu einem gelösten Problem auf jedem modernen Telefon gemacht. --- KI kann einen Song aus einem kurz...
ResNet übertraf die menschliche Leistung im ImageNet-Benchmark 2015. Heute schaffen das Modelle auf Smartphones in Millisekunden. --- Aktuelle KI-Systeme könn...
Wir überprüfen wöchentlich.
Wir recherchieren dieses Thema noch aktiv. Richte hier eine Benachrichtigung ein, und wir informieren dich, sobald es Neuigkeiten dazu gibt!
Wähle eine Seite, gib ihr einen einzeiligen Titel, optional eine Erläuterung, und eine Kategorie. Wir prüfen Einreichungen wöchentlich.