Jak podkresla autor, algorytmy wykorzystujące uczenie się maszynowe muszą mieć na czym się uczyć. Od zakresu dostarczonych im danych treningowych zależeć będzie celność prognoz dokonywanych później w celach biznesowych. Jeśli algorytm od początku będzie skazany na analizę okrojonej próby obserwacji, rośnie ryzyko, że nietrafnie pogrupuje dane, pominie ważne korelacje lub powiązania przyczynowo-skutkowe albo dopatrzy się ich tam, gdzie ich nie ma. Dopiero szkolenie algorytmu na dużych zestawach danych pozwala zminimalizować ryzyko uchybień w diagnozach i prognozach.
- Zapewnienie dostępu do wielkich zbiorów nie jest jednak łatwe w przededniu wejścia w życie najbardziej rygorystycznych przepisów o ochronie danych – RODO. Zwłaszcza dla startupów, które w przeciwieństwie do większych graczy, jak sklepy internetowe lub serwisy społecznościowe, nie mogą same generować Big Data przez obserwację rozbudowanej bazy użytkowników - czytamy w komentarzu. Więcej>>