Drew Conway opublikował Data Venn Diagram , z którym szczerze się zgadzam:
Z jednej strony powinieneś naprawdę przeczytać jego post. Z drugiej strony mogę zaoferować własne doświadczenie: moja wiedza merytoryczna (którą wolę bardziej niż termin „merytoryczna wiedza specjalistyczna”, ponieważ naprawdę powinieneś mieć również „merytoryczną wiedzę specjalistyczną” w matematyce / statystykach i hakowaniu) znajduje się w handel detaliczny, moja matematyka / statystyki prognozują i wnioskowują statystyki, a moje umiejętności hakerskie leżą w R.
Z tego punktu widzenia mogę rozmawiać i rozumieć sprzedawców detalicznych, a ktoś, kto nie ma co najmniej wiedzy na ten temat, będzie musiał stawić czoła stromej krzywej uczenia się w projekcie z detalistami. Jako koncert boczny robię statystyki z psychologii i tam jest dokładnie tak samo. I nawet przy dość pewnej wiedzy na temat części hakowania / matematyki / statystyki na diagramie trudno mi było przyzwyczaić się do, powiedzmy, punktacji kredytowej lub innych nowych tematów.
Gdy masz już pewną liczbę umiejętności matematycznych / statystycznych i umiejętności hakowania, o wiele lepiej jest zdobyć podstawy w jednym lub kilku przedmiotach niż dodając jeszcze jeden język programowania do swoich umiejętności hakowania, lub jeszczeinny algorytm uczenia maszynowego do twojego portfolio matematyki / statystyk. W końcu, gdy masz solidne podstawy matematyczne / statystyki / hakowanie, możesz w razie potrzeby nauczyć się takich nowych narzędzi z Internetu lub z podręczników w stosunkowo krótkim czasie. Ale z drugiej strony wiedza specjalistyczna w tej dziedzinie prawdopodobnie nie będzie w stanie uczyć się od zera, jeśli zaczniesz od zera. Klienci będą raczej współpracować z naukowcami A, którzy rozumieją swoją dziedzinę, niż z naukowcami B, którzy najpierw muszą nauczyć się podstaw - nawet jeśli B jest lepszy w matematyce / statystykach / hakowaniu.
Oczywiście wszystko to oznacza również, że nigdy nie zostaniesz ekspertem w żadnej z trzech dziedzin. Ale to dobrze, ponieważ jesteś naukowcem danych, a nie programistą, statystykiem lub ekspertem od tematyki. W trzech oddzielnych kręgach zawsze będą ludzie, od których możesz się uczyć. Co jest częścią tego, co lubię w nauce o danych.
EDYCJA: Niedługo i kilka przemyśleń później, chciałbym zaktualizować ten post o nową wersję diagramu. Nadal uważam, że umiejętności hakerskie, wiedza matematyczna i statystyczna oraz merytoryczna wiedza specjalistyczna (w skrócie „programowanie”, „statystyki” i „biznes” dla czytelności) są ważne ... ale myślę, że rola komunikacji jest również ważna. Wszystkie spostrzeżenia, które czerpiesz dzięki hakowaniu, statystykom i specjalistycznej wiedzy biznesowej, nie zrobią żadnej różnicy, chyba że przekażesz je osobom, które mogą nie mieć tej unikalnej mieszanki wiedzy. Konieczne może być wyjaśnienie danych statystycznych menedżerowi biznesowemu, który musi być przekonany do wydawania pieniędzy lub zmiany procesów. Lub dla programisty, który nie myśli statystycznie.
Oto nowy diagram Venna do analizy danych, który obejmuje również komunikację jako jeden z niezbędnych składników. Obszary oznaczyłem w sposób, który powinien gwarantować maksymalny płomień, a jednocześnie być łatwy do zapamiętania.
Skomentuj.
Kod R:
draw.ellipse <- function(center,angle,semimajor,semiminor,radius,h,s,v,...) {
shape <- rbind(c(cos(angle),-sin(angle)),c(sin(angle),cos(angle))) %*% diag(c(semimajor,semiminor))
tt <- seq(0,2*pi,length.out=1000)
foo <- matrix(center,nrow=2,ncol=length(tt),byrow=FALSE) + shape%*%(radius*rbind(cos(tt),sin(tt)))
polygon(foo[1,],foo[2,],col=hsv(h,s,v,alpha=0.5),border="black",...)
}
name <- function(x,y,label,cex=1.2,...) text(x,y,label,cex=cex,...)
png("Venn.png",width=600,height=600)
opar <- par(mai=c(0,0,0,0),lwd=3,font=2)
plot(c(0,100),c(0,90),type="n",bty="n",xaxt="n",yaxt="n",xlab="",ylab="")
draw.ellipse(center=c(30,30),angle=0.75*pi,semimajor=2,semiminor=1,radius=20,h=60/360,s=.068,v=.976)
draw.ellipse(center=c(70,30),angle=0.25*pi,semimajor=2,semiminor=1,radius=20,h=83/360,s=.482,v=.894)
draw.ellipse(center=c(48,40),angle=0.7*pi,semimajor=2,semiminor=1,radius=20,h=174/360,s=.397,v=.8)
draw.ellipse(center=c(52,40),angle=0.3*pi,semimajor=2,semiminor=1,radius=20,h=200/360,s=.774,v=.745)
name(50,90,"The Data Scientist Venn Diagram",pos=1,cex=2)
name(8,62,"Communi-\ncation",cex=1.5,pos=3)
name(30,78,"Statistics",cex=1.5)
name(70,78,"Programming",cex=1.5)
name(92,62,"Business",cex=1.5,pos=3)
name(10,45,"Hot\nAir")
name(90,45,"The\nAccountant")
name(33,65,"The\nData\nNerd")
name(67,65,"The\nHacker")
name(27,50,"The\nStats\nProf")
name(73,50,"The\nIT\nGuy")
name(50,55,"R\nCore\nTeam")
name(38,38,"The\nGood\nConsultant")
name(62,38,"Drew\nConway's\nData\nScientist")
name(50,24,"The\nperfect\nData\nScientist!")
name(31,18,"Comp\nSci\nProf")
name(69,18,"The\nNumber\nCruncher")
name(42,11,"Head\nof IT")
name(58,11,"Ana-\nlyst")
name(50,5,"The\nSalesperson")
par(opar)
dev.off()