Kdyby se někomu chtělo…

Tomáš Herceg       25.07.2011       Offtopic       11523 zobrazení

Posledních pár měsíců se nějaký spambot neustále snaží posílat do našich fór (zejména pod články staršího data) spam. Otravuje mě to a spoustu lidí jistě taky, ale nemám čas se tím zabývat. Nepomáhá ani Recaptcha – možná si někdo najal nějakého Inda, aby to louskal, to dnes není problém.

Byl bych velice zavázán osobě, které by se chtělo napsat nějakou chytrou metodu na skoncování s tímto spamem. Blacklistování konkrétních slov asi nemá smysl, to už jsem zkoušel – jakmile jim jedno zakážete, najdou si jiné, nebo do něj dají úmyslně překlep – a bohužel byli trpělivější než já.

Predikce by měla používat nějakou statistiku - rozsekat text na slova, zjistit četnosti jednotlivých slov a podle toho určit pravděpodobnost, s jakou je to spam. Nemusí se učit za běhu, stačí jí statistiku postavit z následující databáze (posledních 1000 příspěvků pod články, co nejsou odpovědi na jiné příspěvky (spammer odpovídat neumí, posílá pořád nové a nové).

Pokud mohu poprosit, ideálně aby to fungovalo v .NET 2.0. Pokud potřebujete nějaká další data, napište mi e-mail a domluvíme se.

 

Mimochodem dala by se z toho udělat pěkná open source knihovna.

 

hodnocení článku

0       Hodnotit mohou jen registrované uživatelé.

 

Nový příspěvek

 

Diskuse: Kdyby se někomu chtělo…

Ale opravdu očekávají, že na fórech tohotu typu uspějejí s "ubohou reklamou" na ubohé zboží, které nabízejí? Existují někde podobné analýzy?

nahlásit spamnahlásit spam 0 odpovědětodpovědět

V ČR to nefunguje. Po světě to ale prý docela dobře generuje zisky. Něco jsem o tom četl, ale zdroj si napamatuji.

nahlásit spamnahlásit spam 0 odpovědětodpovědět

Diskuse: Kdyby se někomu chtělo…

Což zkusit inteligentnější captcha? Třeba nějaké hádanky.

Např. Každý chvilku ... doplňte. Myslím, že to by nějaký Ind nerozlouskl.

nahlásit spamnahlásit spam 0 odpovědětodpovědět

Nejsem Ind, ale neuhádnul bych to ani já. Potíž je v tom, že hádanka buď musí být triviální, aby ji uhádnul každý, a v takovém případě ji pravděpodobně uhodne i Ind s Google translatorem.

nahlásit spamnahlásit spam 0 odpovědětodpovědět

...tahá pilku :-)

I kdyby si to přeložil, moc nevěřim tomu, že by znal české hádanky a věděl o co se jedná.

Tuhle jsem v jedné diskusi viděl otázečku:

Co má každý na hlavě?

Odpověď ...

Zrovna tohle translator přeložil kapku odlišně. Místo head wearing.

Alespoň bych to zkusil.

Myslím si, že by to dost pomohlo. Nejlépe kombinaci dvou metod, hádanky plus nšjaký chytrý algoritmus na rozlišování spamu.

Marteen

nahlásit spamnahlásit spam 0 odpovědětodpovědět

Aha, tak to by mě nikdy nenapadlo - buď je to hláška z filmu, který jsem neviděl, nebo pořekadlo, které jsem nikdy neslyšel. A to je právě problém.

A otázka "co má každý na hlavě" je taky vtipná - pokud má být odpověď vlasy, tak je to blbost (plešatí by mohli vyprávět).

Asi by se dala vymyslet rozumná a jednoznačná hádanka, třeba kdo je prezidentem ČR. Ale tu translator přeloží správně.

nahlásit spamnahlásit spam 0 odpovědětodpovědět

Mám pocit, že to zbytečně rozpitváváme. I ti plešatí mají po stranách pár vlasů. Ale to je fuk. Vlasy je nejlogičtější odpověď.

Marteen

nahlásit spamnahlásit spam 0 odpovědětodpovědět

To je nádherné a geniální řešení. Palec nahoru.

nahlásit spamnahlásit spam 0 odpovědětodpovědět

Otázky typu: "Jaké jsou tři vlasy děda vševěda?" nebo "Jak se jmenovala sestra Jeníčka v Perníkové chaloupce?" jsou pro Inda naprosto neprolomitelné :)

nahlásit spamnahlásit spam 0 odpovědětodpovědět

Anebo - "Druhý pád množného čísla slova hrom" nebo "Který zpěvák vyhrál nejvíc Zlatých slavíků?" nebo "Když vás někdo naštve, řeknete mu 'Trhni si ...'". A tak dál do nekonečna.

nahlásit spamnahlásit spam 0 odpovědětodpovědět

hej presne tento idotský spam filter je aj na roote na vačšinu otázok je nutné odpovedať v češtine, niektoré české príslovia ani nepoznám a česky neviem takže by to fungovalo nie len na indov ale aj na Slovákov.

nahlásit spamnahlásit spam 1 / 1 odpovědětodpovědět

No výborně!

(nic ve zlém :D)

nahlásit spamnahlásit spam 0 odpovědětodpovědět

jsou pro Inda naprosto neprolomitelné :)

1)Rovnako ako pre väčšinu zahraničných ľudí a aj niektorých čechov.

2)Pravdepodobne to každý odpovie vlastnými slovami a nezobere mu to ani správnu odpoveď.Počítač nevie ani to, že y = x * 5 je to isté, ako y = 5x, ne to ešte parsovať odpoveď na hádanku.

nahlásit spamnahlásit spam 0 odpovědětodpovědět

Pokud bys nevěděl, nechal by sis vypsat jinou otázku. Schválně, kolik z těch pěti, které jsem napsal, bys dal? (samozřejmě by počítač toleroval více variant správných odpovědí - např. bez diakritiky, bez rozlišení písmen malá-velká apod.

nahlásit spamnahlásit spam 0 odpovědětodpovědět

Diskuse: Kdyby se někomu chtělo…

Ja by som skúsil animovanú captchu.

Biele pozadie, čierny text a pozakrívané čiernými obdlžníkmi, ktoré by po jednom odkrívali písmená - stále len jedno viditeľné a ostatné zakryté.Alebo kľudne aj iné farby.Zároveň môže byť na písmená aplikovaný nejaký šum, prípadne deformácia alebo hra s farbami.Možností je veľa.

Napríklad toto: http://digitalerr0r.wordpress.com/2009/0...

nahlásit spamnahlásit spam 0 odpovědětodpovědět

Diskuse: Kdyby se někomu chtělo…

zkus hidden checkbox, vetsina spambotu v defaultu vsechno zaskrtava.

nahlásit spamnahlásit spam 3 / 3 odpovědětodpovědět

přesně tak, z hlediska implementace je to nejjednodušší řešení a osvědčilo se mi to už vícekrát

nahlásit spamnahlásit spam 0 odpovědětodpovědět

Diskuse: Kdyby se někomu chtělo…

Jen otázku. Systémy jako http://akismet.com/ taky nefungujou?

nahlásit spamnahlásit spam 0 odpovědětodpovědět

Že něco takového existuje jsem nevěděl - na implementaci to vypadá snadno, otázkou je, jak si to poradí s češtinou a kusy zdrojáku v ní - aby mi ji to taky nebralo jako spam.

nahlásit spamnahlásit spam 0 odpovědětodpovědět
                       
Nadpis:
Antispam: Komu se občas házejí perly?
Příspěvek bude publikován pod identitou   anonym.

Nyní zakládáte pod článkem nové diskusní vlákno.
Pokud chcete reagovat na jiný příspěvek, klikněte na tlačítko "Odpovědět" u některého diskusního příspěvku.

Nyní odpovídáte na příspěvek pod článkem. Nebo chcete raději založit nové vlákno?

 

  • Administrátoři si vyhrazují právo komentáře upravovat či mazat bez udání důvodu.
    Mazány budou zejména komentáře obsahující vulgarity nebo porušující pravidla publikování.
  • Pokud nejste zaregistrováni, Vaše IP adresa bude zveřejněna. Pokud s tímto nesouhlasíte, příspěvek neodesílejte.

přihlásit pomocí externího účtu

přihlásit pomocí jména a hesla

Uživatel:
Heslo:

zapomenuté heslo

 

založit nový uživatelský účet

zaregistrujte se

 
zavřít

Nahlásit spam

Opravdu chcete tento příspěvek nahlásit pro porušování pravidel fóra?

Nahlásit Zrušit

Chyba

zavřít

feedback