chasovschik: (Default)
[personal profile] chasovschik
Загадочная для меня проблема всяких ИИ: надписи в картинках. Вывески там, знаки всякие и так далее. Там с самого начала и до сих пор получается всякая абракадабра и гобблдигук вместо нормальных надписей. Сейчас чуть получше, но все равно. Казалось бы, это как раз то, что искусственный интеллект умеет лучше всего - слова писать. Картинки рисовать тоже умеет. Очевидно, для ИИ есть существенная разница между созданием текста в компьютерном смысле и письмом в традиционном понимании, где каждую букву надо было выводить каким-нибудь стилом. Ну и возникают проблемы известного типа "Я уже букву К нарисовал". Наверно, просто никому не приходило в голову их отдельно тренировать это делать. Ну или у них там дико узкая специализация: кто умеет писать, рисовать не умеет, и наоборот. С другой стороны, прогресс все-таки есть. Заголовок вот тут уже вполне человеческий, например.



Остальное тоже неплохо и даже креативно. "Ну и захеж мы купыии слолко едя?" О чем речь, понятно, и новые слова тоже в тему. "Захеж", если приложить некоторые усилия, может даже пойти в народ.

(Это я увидел у кого-то в Фейсбуке только что. К сожалению, пока сохранял картинку, долбаный Фейсбук выдал свежую порцию постов, а старая пропала, как там заведено. А я не помню, кто это был. Если кто в курсе, подскажите, чтобы я ссылку поставил.)

Пойду потребую у нанобананы какую-нибудь каллиграфию и посмотрю, что получится.

UPD: посмотрел. Попросил нанобанану сделать картинку с текстом, написанным каролингским минускулом.



Текст был воспроизведен из промпта почти безукоризненно - в первой строке ошибка, вызванная, видимо, моим требованием сделать инициал. Шрифт к каролингскому минускулу относительно близок, хотя рукописным не выглядит (но это уже совсем другая история). Возможно, объяснение загадочным надписям надо искать или в бесплатной природе тех мест, где их делали, или в проблемах с промптами.

Date: 2026-03-14 03:39 pm (UTC)
yankel: (Default)
From: [personal profile] yankel
Забавно. Я на ошибки даже не обратил внимания. Мозг ухватил все слово

Date: 2026-03-14 10:51 pm (UTC)
dbutrin: (Default)
From: [personal profile] dbutrin
почти уверен, что в каком-нибудь 2009 году llm делал совершенно такие же ошибки в текстах.

Date: 2026-03-14 03:50 pm (UTC)
vlad_m: (Default)
From: [personal profile] vlad_m
Я тоже. Потом вернулся, вспомнив о теме поста.
Известный эффект.

Date: 2026-03-14 03:55 pm (UTC)
abuela: (пресурсы)
From: [personal profile] abuela
на самом деле это очень похоже на распознавание текста сканером с нечёткой печати. Ошибки типичные, вот это вот захеж. Странно, конечно.

Date: 2026-03-14 10:35 pm (UTC)
dbutrin: (Default)
From: [personal profile] dbutrin
ну да. это он, в сущности, всякий раз распознает капчу.

Date: 2026-03-14 10:49 pm (UTC)
dbutrin: (Default)
From: [personal profile] dbutrin
ну, мы-то с другой стороны зеркала. можно и так сказать.
занятно, кажется, этот странный эффект можно усовершенствовать буквально тремя-четырьмя командами при обучении, объединив некоторые слои его слоистой "памяти". видимо, никому не нужно это специально - ну, или там есть неведомые нам технические сложности, например, разные принципы формирования соотв. ассоциативных слоев для видео-, аудио- и текстовой информации.
From: [personal profile] idan11
Мне нра - надо продвигать.
"Десятей салатов" тоже хорошо заходит.
dimorlus: (Default)
From: [personal profile] dimorlus
Наверное, там же, где и в "зачем".
alexeybobkov: (Default)
From: [personal profile] alexeybobkov
Как вы сами выше заметили, у модели геометрический подход к написанию текста, поэтому ошибки и не бросаются в глаза при невнимательном прочтении. Исходя из этого я думаю, что "захеж" это всё-таки искажённое написание "зачем".
Но нам-то, спрашивается, какое дело до происхождения термина? Мне тоже ударение на первый слог, пожалуй, больше нравится.
Edited Date: 2026-03-14 10:32 pm (UTC)

Date: 2026-03-14 05:40 pm (UTC)
alexeybobkov: (Default)
From: [personal profile] alexeybobkov
Задумался, куда ставить ударение в "захеж". И так и так хорошо.

Date: 2026-03-14 05:42 pm (UTC)
alexeybobkov: (Default)
From: [personal profile] alexeybobkov
О, не заметил, что у вас тот же вопрос)

Date: 2026-03-14 06:33 pm (UTC)
1master: (Default)
From: [personal profile] 1master
Потому, что картинки генерятся совершенно не текстовыми моделями, а у тех совсем другой подход к снаряду.

Date: 2026-03-14 07:35 pm (UTC)
From: [personal profile] mimafi2
Похоже на то. Мне недавно пришлось генерить меню. (Не спаашивайте, зачем). Текст отдельно отлично. Дизайн отдельно отлично. Вместе - рукалицо.

Date: 2026-03-14 08:35 pm (UTC)
From: [personal profile] mimafi2
Одной все три. Отдала потом мужу доводить до ума фотошопом.

Date: 2026-03-14 07:52 pm (UTC)
From: [personal profile] vakhitov
"Захеж" — это просто "зАхер", но с польским или чешским колоритом.

Date: 2026-03-14 09:14 pm (UTC)
solomon2: (Default)
From: [personal profile] solomon2
Попросите его изобразить часы со стрелками, показывающие 12:03. Предсказываю, что он покажет 10:10.
Edited Date: 2026-03-14 09:16 pm (UTC)

Date: 2026-03-14 10:33 pm (UTC)
dbutrin: (Default)
From: [personal profile] dbutrin
и он таки пытается написать осмысленный текст - но, видимо, исключительно исходя из тех надписей, которые были в сете обучения на картинках, а не в виде текстов как таковых. пишет он именно текст. но текст на картинке и текст-текст без картинки для него - два непересекающихся множества.
поскольку таких надписей на картинках на три-четыре порядка (как минимум) меньше, чем просто текстов - через некоторое время он будет писать такие надписи на приемлемом уровне. и это будет тогда, когда тексты он научится генерировать на уровне, недоступном при обычном владении языком - т.е. через год-полтора, видимо.

Date: 2026-03-14 10:46 pm (UTC)
dbutrin: (Default)
From: [personal profile] dbutrin
ну, оно сказочно быстро учится. вернее, даже не так. ей сказочно быстро добавляют мощности.
за последний год оно научилось писать пресс-релизы лучше 50% пресс-секретарей стран G7. год назад представить себе было невозможно такой прогресс.
ну и окна для токенов стали просто огромные. сейчас в них нормально влезает среднего размера книга. это уже более или менее хорошо. когда контекстное окно будет размером с областную библиотеку, это уже будет очень много. сейчас специалист-гуманитарий оперирует в конкретной теме, я думаю, 25-30 текстами размера книги в течение нескольких месяцев. если эта штука ему расширит окно до 300 - это будет совсем другое дело, ибо рядовой человек такое не в состоянии делать, это для него подвиг.
думаю, через полгода-год надо будет это все нормально осваивать. оно точно перестало быть игрушкой для амбициозных переростков, это правда. инструментарий к этой штуке сильно отстает от ее возможностей.

Date: 2026-03-14 11:35 pm (UTC)
dbutrin: (Default)
From: [personal profile] dbutrin
а. так оно их не само "выдумывало", т.е. аппроксимировало из существующих (я, например, видел похожие ошибки на сгенерированной картинке "красноармейского митинга в 1917 году"), а неправильно рисовало заранее заданный текст?
это другая проблема. бог весть, что ему нужно тогда. возможно, он действительно пытается понять из набора существующих у него в "предпамяти" картинок, как это может выглядеть - и портит текст, исходя из усредненного качества надписей на этих картинках.

Date: 2026-03-14 11:37 pm (UTC)
dbutrin: (Default)
From: [personal profile] dbutrin
но тогда откуда "десятей саладов" взялось? это же явно усреднение текста, а не картинки.
буквы-то он может отрисовывать по картинке - перевод шрифта в символы явно не двусторонний процесс. но тут он слова подбирает.

Date: 2026-03-15 12:51 am (UTC)
dbutrin: (Default)
From: [personal profile] dbutrin
(PS - устное народное творчество с просторов телеграмма, отчасти раскрывающее тему)

мы с приятелем в НИИ
проектируем ИИ
как чего не генерируй
получаются хуи

пока что, в общем, далеко от сингулярности. но движение есть.

Date: 2026-03-14 11:53 pm (UTC)
From: [personal profile] i_mko
Жена на работе использует Клод для написания тестов, а Копайлот делает код ревью. Клод набросал тест, Копайлот сделал ряд замечаний, Клод: "Good catch!". Жена наблюдала с интересом за их битвой. Но что будут делать внуки не понимаю.

Date: 2026-03-15 03:53 am (UTC)
ymarkov: (Default)
From: [personal profile] ymarkov
Выбор текста для каллиграфии одобряю :-)
March 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 2026