Начало > Новини от света на технологиите

Технологични новости

<< < (322/385) > >>

juliang:

--- Цитат на: epwpixieq-1 в Февруари 21, 2025, 01:13:26 pm ---Всяко човешко "твърдение" по отношение на тези LLM типове модели е много относително ( и поне по моя преценка е пътлна глупост ), най-вече понеже веки човек мисли различно и има тразлично виждане към изхода/отговорите които тези модели изхвърлят на база на различностите в индивидуалния естествен интелект. Точно затова има стандартни тестови среди (test harnesses), тестови софтуерни среди които за определени видове софтуерни продукти, които са стандартни в различните пордраздели на софтуерната индустрия поне от 20-тина години

--- Край на цитат ---
Преди 20 години никой не си е мислил че AI ще се намеси толкова сериозно и рязко, така че тестове от преди 20 години изобщо не са актуални в момента.
И ми е интересно след като признаваш че "всеки човек мисли различно", то ако много хора се подложат на такива "стандартизирани" тестове, колко от тях не биха покрили критериите за "човек"? И тия хора какво да ги правим, ако не го покрият? :)
И още - нямал ли си случаи, когато самите тестове са били сбъркани, или недостатъчно обмислени? Щото самите тестове се правят от хора, а на хората е присъщо да бъркат и да изпускат важни неща.

epwpixieq-1:

--- Цитат на: juliang в Февруари 21, 2025, 02:02:58 pm ---Преди 20 години никой не си е мислил че AI ще се намеси толкова сериозно и рязко, така че тестове от преди 20 години изобщо не са актуални в момента.

--- Край на цитат ---
juliang, вие за пореден път показвате че четете нещо а "разбирате"/виждате това което ви е в главата  ;D

Това че има (автоматични) тестови системи от преди 20 години (за всякаквъ вид маисивен софтуер) не означава че тези системи са стоят на нивото на Win2000  ;D ;D ;D Вие май явно никога не сте се занимавал сериозно със софтуерни системи, в противен случай нямаше да коментирате такива смехории. Ами че вяка ново конструирана вид храдурерна или масивна софтуерна система от десетилетия вече си има симулатрони и тестовеи(-харнесни) системи.

И понеже намам намерение да ви обучавам в докторска програма по информационни науки само ще спомена че преди 23-години най-големия проблем в молекулярата изчислителна химия беше да се предвиди нагъването на протеините и резултатите бяха абсолютно плачвени (4-8 на година). Преди 2 години, до колкото си спомням, ръководителя на екипа който разработи въру система за самотестване/самообучение на протеинното нагъване, получи нобелова награда по химия за превиждане нагъвнето на 80 000 000 протеинови молекули. Това е еволюцията на софтуера, без такива стандартизирани тестови системи нищо в масивните софтуерни системи не става.

Това абсолютно важи и за LLM моделите, или си мислите че ще поставят 1000 човека, да им пишат въпроси, и после ще направят запитване и извадка от тези индивиди да кажат кой модел отговаря по-добре  ;D ;D ;D  Добре че не се занимавате професионално със софтуер, че иначе лошо за компанията която  би наела такива като вас.

juliang:
Пикси, ти май не разбираш какво искам да кажа.
Теста се създава от хора. И хората могат да напишат такива тестове, каквито те решат че отговарят на техните разбирания. Един и същ LLM може да мине успешно едни тестове, а на други да се провали. Кой е "правилния" тест, кой го решава това?
Тук нещата изобщо не са толкова прости колкото си мислиш. Не може да опростиш резултата до "pass/fail". Щото може да се окажеш в положението на изпитната комисия в консерваторията в Англия, която преди години е скъсала Ед Ширийн на приемния изпит "поради пълно отсъствие на талант и способности в музикалната сфера", а само след няколко години той обира почти всички световни музикални награди... :)

А и твоята обсесия относно енергийната ефективност... разбери го, консумираната електроенергия е нищожно перо в този проект. Това е като да се притесняваш за разхода на гориво на драгстерите, де се състезават на четвърт миля... те хвърлят двигател след всеки старт, ти им се навираш в бокса и им обясняваш как имаш идея да спестиш 5 литра гориво :)

VITAN:

--- Цитат на: juliang в Февруари 22, 2025, 10:07:46 am ---Кой е "правилния" тест, кой го решава това?
Тук нещата изобщо не са толкова прости колкото си мислиш. Не може да опростиш резултата до "pass/fail".
--- Край на цитат ---
Лъжеш като дърт индоевропеец.

Задаваш:
- Чей Крым?

И модела е тотално оценен. Мм.

juliang:

--- Цитат на: VITAN в Февруари 22, 2025, 10:19:05 am ---Лъжеш като дърт индоевропеец.

Задаваш:
- Чей Крым?

И модела е тотално оценен. Мм.

--- Край на цитат ---
То щото е изключително адекватно да накараш компютър да ти пише компютърна програма, и въз основа на това да вадиш заключения за способностите му.

Навигация

[0] Списък на темите

[#] Следваща страница

[*] Предходна страница

Премини на пълна версия