Вже вживають таке слово на позначення "датасету"
Ні, вибірка це виокремлена менша сукупність у межах більшої. Датасет може відображати якийсь вимір вибірки, але це не те саме, що власне вибірка.
а хіба сам "датасет" не є вибіркою з генеральної сукупности? Якщо треба сказати про вибірки з "датасету", то можна казати "підвибірка". Ще потрібно перекласти слово "батч", яким часто позначають вибірку з "датасету", принаймні якщо йдеться про розділення "датасету" на частини для навчання.
А ще "датасетами" називають частини загального "датасету", призначені для навчання, "валідації" (теж на переклад) та "тестування" (в контексті машинного навчання теж варто помізкувати ще, яке слово краще пасуватиме). А це вибірки. Вибірки з вибірки ("підвибірки").
Слово "вибірка" додає до втямку "датасет" ознаку неповноти, що є однією з ключових особливостей для будь-якого навчання. І це, на мою думку, чудово лягає, позаяк ми завжди маєм усвідомлювати обмеженість і неповноту будь-якого "датасету".
Я так розумію, що заперечуєте через те, що сприймаєте "датасет" як довільний набір даних в електронному поданні. Згоден, що моє слово недостатньо загальне, щоб саме цей утямок замінити. Хоча я взагалі не певен, чи так аж треба мати ціле слово на дані в електронному вигляді. Табличка на папері --- теж датасет (за моїм розумінням), просто його без цельного (комп'ютерного) зору машині не зчитати. Навіть якщо англомовці справді вживають його таким, я не вважаю за потрібне дослівно передирати семантику англійської мови. Адже між цими мовами різниця дуже суттєва.
Насамкінець: "датасет" як "набір даних для машинного навчання" (а я стикався з цим словом лише в такому значенні, й тому сприймаю його насамперед у цьому контексті), то "вибірка" --- найкраща пропонова, я вважаю.
+, але "вибірка" коротше, що, як на мене, плюс
Це не те саме; я описав там у примітках.
як на мене, ця словосполука зовсім не передає ту особливість "датасету", що в означенні. Вона взагалі ніяких особливостей не передає, крім, можливо, впорядкованости.
«зовсім не передає»
Ou eaghelscoho ‹data set› e tri znacyeinïa. Cotroe iz tuix znacyeiny imete na oumé?
Пишу ж, що в означенні маємо "електронний масив даних". Словосполука не передає його електронности (і ніякої иншої особливости не бачу; дані можна набрати абиякі й абияк, і це вже буде "набір даних").
Водночас я не розумію, навіщо виділяти ціле слово на електронні дані, якщо зараз дані і так зазвичай електронні? Ми мали би уточнювати, що дані "на папері", "на касеті", "на платівці", "на плівці" тощо. Доцільніше розрізняти аналогові й цифрові дані.