Spamdetectie bij Google

16
Google spamdetectie Peter van der Graaf Booming

Transcript of Spamdetectie bij Google

Page 1: Spamdetectie bij Google

Google spamdetectiePeter van der Graaf

Booming

Page 2: Spamdetectie bij Google

Peter van der Graaf• 18 jaar SEO expert• Opvolgend actief in branches waar SEO nog

het verschil kon maken• Platforminrichting en Linkbuilding

• Bureau Booming

Page 3: Spamdetectie bij Google

Zoekmachines vs Spammers• Altavista, Lycos, Hotbot en Yahoo

streden intensief tegen SEO spam:Hoog scoren werd voornamelijk een kwestie van het inzetten van steeds weer nieuwe trucs

• Google pakte dergelijke trucage het beste aan en won daarmee het marktleiderschap

• Spammers worden steeds vernuftiger en een statisch algoritme kan dit niet bijbenen

• Machine learning was nodig om onnatuurlijkheid het hoofd te bieden

Page 4: Spamdetectie bij Google

Google richtlijnen• Het beste antwoord voor de zoeker zou het

beste moeten scoren

• Manipulatie moet bestraft worden en in ieder geval niet beloond– Panda: Content moet toegevoegde waarde

hebben en uniek geschreven zijn– Penguin: Links moeten als stem van vertrouwen

verdiend zijn

Page 5: Spamdetectie bij Google

Niet zo flexibel!De uitdaging van Google

Page 6: Spamdetectie bij Google

Hoe werkt Google?1. Verzamelen van alle eigenschappen2. Continu updaten externe eigenschappen3. Versimpelen tot diverse eindcijfers4. Verder versimpelen tot gecodeerde ranking factoren5. Op volgorde zetten voor zoekopdracht (cache)

6. Filteren en herschikken op eigenschappen individu7. Tonen resultaten

• Verversen kost rekenkracht• Factoren toevoegen/vervangen erg moeilijk• Waardering van factoren aanpassen is wel flexibel

Page 7: Spamdetectie bij Google
Page 8: Spamdetectie bij Google

Systeemaanpassingen?• Hoe flexibel is Google?• Ingewikkelde balans tussen– Responstijden– Accuraatheid– Spambestrijding– Benodigde rekenkracht• Capaciteit index groei

– Flexibiliteit voor algoritmewijzigingen• Machine learning algoritmen?

Gebruikerservaring

Page 9: Spamdetectie bij Google

Machine learning bij Google• Welk patroon legt manipulatie bloot?

• Naar welke factoren mag het systeem kijken?

• Welk controlemiddel scheidt goed van slecht?

Page 10: Spamdetectie bij Google

PandaCommunicatie vanuit Google (2011):

“De Panda-update heeft als doel het belonen van kwaliteitscontent en het devalueren van sites met geringe meerwaarde voor bezoekers.”

Officiële eigenschappen:Geen spamdetectie, maar herevalutatiekwaliteitsindicatoren.

Vernoemd naar Google (distributed tree learning)engineer Biswanath Panda

Page 11: Spamdetectie bij Google

Panda Machine Learning

Page 12: Spamdetectie bij Google

Panda: Patronen• Classificatie en regressie

over grote datasets– Systeem bepaalt classificatie

op basis van overeenkomstige attributen

– Blijft opsplitsen tot te grote diversiteit optreedt

– Uitgangspunt: Voorspelbaarheid nieuwe datasets door controleren van slechts enkele variabelen

Page 13: Spamdetectie bij Google

Initieel geen live algoritme• Op de achtergrond in statische dataset patronen

ontdekken• Mensen bepalen eerste controlemiddelen

(meestal tekenen van goede of slechte gebruikerservaring)

• Mensen controleren voor false positives en negatives voor het resultaat (reeksen controlepunten) live gezet wordt

• Met elke iteratie wordt het resultaat stabieler• Zo stabiel dat Panda een Live algoritme kon worden• Zogenaamde Panda Updates alleen nog nodig als het

learning systeem zelf aangepast wordt

Page 14: Spamdetectie bij Google
Page 15: Spamdetectie bij Google

Heeft het effect?Wat doen Panda en Penguin

Page 16: Spamdetectie bij Google