Inleiding tot de Kernel Density Estimation

Kernel Dichtheid Schatting is een statistische methode voor het weergeven van een reeks gegevens . Om histogrammen gerelateerde , Kernel Density Estimation biedt een manier om de verdeling van een variabele in de populatie te schatten. De werkwijze is betrekkelijk ingewikkelde maar de resultaten een visuele interpretatie van mogelijke dichtheid van een variabele , dat wil zeggen de frequentie waarmee een variabele verschijnt in een populatie . Gebruikt

Kernel Dichtheid Schatting schattingen vorm van een dichtheidsfunctie . Een dichtheid functie toont de frequentie waarmee een variabele verschijnt in een aselecte steekproef van een populatie. De Kernel Density Estimation wordt beschouwd als een niet-parametrische methode . In de statistiek zijn er parametrische en niet - parametrische methoden . Parametrische methoden maken meer aannames dan niet- parametrische Ones. Geen veronderstellingen over de distributie , middelen , of standaarddeviaties zijn nodig in niet - parametrische statistiek . Bijvoorbeeld , als je wilde weten of de tiende proef in een klaslokaal een hogere score dan de eerste negen zouden hebben , in parametrische redenering zou je het gemiddelde en de standaarddeviatie weten om een antwoord af te leiden . In niet - parametrische redenering , gewoon weten het aantal test is genoeg om te weten de laatste test heeft een 10 procent kans om boven de vorige scores.
Kernel

de kernel Density Estimation heeft twee cruciale componenten : de kernel en de bandbreedte . De kernel is de functie dichtheid . Er zijn zes gemeenschappelijke soorten functies dichtheid in niet- parametrische statistiek : normaal , uniforme , driehoekig , Epanechnikov , quartic , triweight en cosinus . Elk van deze functies wordt gebruikt om de frequentie van een willekeurige variabele in een populatie te schatten .
Bandwidth

De tweede component , de bandbreedte , vlakt de resulterende gegevens uit de dichtheidsfunctie van de kernel . De bandbreedte heeft dus grote invloed op de visuele weergave van de gegevens . Een scherpe lijn kan geleidelijk gladgestreken worden , totdat de gegevens is zo geparafraseerd , dat het niet langer zinvol . In de Kernel dichtheid schatting formule , wordt de bandbreedte weergegeven door de letter h . Het moet positief zijn en resulteren in een verdeling die samenvat tot een.
Voordelen

Kernel Density Estimation heeft voordelen voor andere niet - parametrische schattingsmethoden , vooral histogrammen . Histogrammen vertegenwoordigen de distributie van een variabele in bakken langs een horizontaal bereik . Gestapelde bakken vormen een grotere dichtheid van de variabele in de sector van de gegevens . Omdat histogrammen symboliseren gegevens via bakken, de variabele is gecompartimenteerd en verschillende distributies zijn gekarteld en discreet , verkeerde voorstelling van de vloeistof verdeling van een variabele die echt bestaat in een populatie . Kernel Density Estimation beter vertegenwoordigt deze vloeiende beelden met vloeiende lijn , waarvan de gladheid wordt bepaald door de in de kernel density formule gekozen bandbreedte .