Kdyby se někomu chtělo…

Tomáš Herceg

Vývojářský blog Tomáše Hercega

http://www.herceg.cz
@hercegtomas

Podle kategorie

Posledních pár měsíců se nějaký spambot neustále snaží posílat do našich fór (zejména pod články staršího data) spam. Otravuje mě to a spoustu lidí jistě taky, ale nemám čas se tím zabývat. Nepomáhá ani Recaptcha – možná si někdo najal nějakého Inda, aby to louskal, to dnes není problém.

Byl bych velice zavázán osobě, které by se chtělo napsat nějakou chytrou metodu na skoncování s tímto spamem. Blacklistování konkrétních slov asi nemá smysl, to už jsem zkoušel – jakmile jim jedno zakážete, najdou si jiné, nebo do něj dají úmyslně překlep – a bohužel byli trpělivější než já.

Predikce by měla používat nějakou statistiku - rozsekat text na slova, zjistit četnosti jednotlivých slov a podle toho určit pravděpodobnost, s jakou je to spam. Nemusí se učit za běhu, stačí jí statistiku postavit z následující databáze (posledních 1000 příspěvků pod články, co nejsou odpovědi na jiné příspěvky (spammer odpovídat neumí, posílá pořád nové a nové).

Databáze posledních příspěvků

Pokud mohu poprosit, ideálně aby to fungovalo v .NET 2.0. Pokud potřebujete nějaká další data, napište mi e-mail a domluvíme se.

Mimochodem dala by se z toho udělat pěkná open source knihovna.

hodnocení článku

0 Hodnotit mohou jen registrované uživatelé.

Tomáš Herceg

Jsem hlavním softwarovým architektem ve společnosti Riganti. Mám dlouholeté zkušenosti s ASP.NET, SQL Serverem, Entity Frameworkem, Windows Azure, Silverlight/WPF, HTML/Javascript, XNA a vývoj pro Windows Phone a Windows Store. Kromě vývoje aplikací také školím v rámci dotNETcollege. Od roku 2009 jsem držitelem ocenění Microsoft Most Valuable Professional.

http://www.herceg.cz

blog autora

@hercegtomas

DotNETcollege: Mohlo by vás zajímat

Kontejnery, Docker a Azure Kubernetes Service (AKS)

TypeScript

Testování v prostředí .NET - unit testy a integrační testy

Kontinuální integrace pomocí TeamCity

Entity Framework pro pokročilé

Xamarin - vývoj multiplatformních mobilních aplikací

Javascript pro mírně pokročilé

Xamarin Forms

Microsoft SQL Server - optimalizace struktur a dotazů

Entity Framework pro začátečníky

Mohlo by vás také zajímat

Nový příspěvek

Diskuse: Kdyby se někomu chtělo…

Ale opravdu očekávají, že na fórech tohotu typu uspějejí s "ubohou reklamou" na ubohé zboží, které nabízejí? Existují někde podobné analýzy?

nahlásit spam

odpovědět

16. 8. 2011 13:52

Tomáš Jecha, MVP, MCSD

860 1596

V ČR to nefunguje. Po světě to ale prý docela dobře generuje zisky. Něco jsem o tom četl, ale zdroj si napamatuji.

nahlásit spam

odpovědět

Diskuse: Kdyby se někomu chtělo…

Což zkusit inteligentnější captcha? Třeba nějaké hádanky.

Např. Každý chvilku ... doplňte. Myslím, že to by nějaký Ind nerozlouskl.

nahlásit spam

odpovědět

28. 7. 2011 1:34

Tomáš Herceg

1847 3847

Nejsem Ind, ale neuhádnul bych to ani já. Potíž je v tom, že hádanka buď musí být triviální, aby ji uhádnul každý, a v takovém případě ji pravděpodobně uhodne i Ind s Google translatorem.

nahlásit spam

odpovědět

...tahá pilku :-)

I kdyby si to přeložil, moc nevěřim tomu, že by znal české hádanky a věděl o co se jedná.

Tuhle jsem v jedné diskusi viděl otázečku:

Co má každý na hlavě?

Odpověď ...

Zrovna tohle translator přeložil kapku odlišně. Místo head wearing.

Alespoň bych to zkusil.

Myslím si, že by to dost pomohlo. Nejlépe kombinaci dvou metod, hádanky plus nšjaký chytrý algoritmus na rozlišování spamu.

Marteen

nahlásit spam

odpovědět

28. 7. 2011 13:09

Tomáš Herceg

1847 3847

Aha, tak to by mě nikdy nenapadlo - buď je to hláška z filmu, který jsem neviděl, nebo pořekadlo, které jsem nikdy neslyšel. A to je právě problém.

A otázka "co má každý na hlavě" je taky vtipná - pokud má být odpověď vlasy, tak je to blbost (plešatí by mohli vyprávět).

Asi by se dala vymyslet rozumná a jednoznačná hádanka, třeba kdo je prezidentem ČR. Ale tu translator přeloží správně.

nahlásit spam

odpovědět

Mám pocit, že to zbytečně rozpitváváme. I ti plešatí mají po stranách pár vlasů. Ale to je fuk. Vlasy je nejlogičtější odpověď.

Marteen

nahlásit spam

odpovědět

To je nádherné a geniální řešení. Palec nahoru.

nahlásit spam

odpovědět

Otázky typu: "Jaké jsou tři vlasy děda vševěda?" nebo "Jak se jmenovala sestra Jeníčka v Perníkové chaloupce?" jsou pro Inda naprosto neprolomitelné :)

nahlásit spam

odpovědět

Anebo - "Druhý pád množného čísla slova hrom" nebo "Který zpěvák vyhrál nejvíc Zlatých slavíků?" nebo "Když vás někdo naštve, řeknete mu 'Trhni si ...'". A tak dál do nekonečna.

nahlásit spam

odpovědět

hej presne tento idotský spam filter je aj na roote na vačšinu otázok je nutné odpovedať v češtine, niektoré české príslovia ani nepoznám a česky neviem takže by to fungovalo nie len na indov ale aj na Slovákov.

nahlásit spam

1 / 1

odpovědět

No výborně!

(nic ve zlém :D)

nahlásit spam

odpovědět

jsou pro Inda naprosto neprolomitelné :)

1)Rovnako ako pre väčšinu zahraničných ľudí a aj niektorých čechov.

2)Pravdepodobne to každý odpovie vlastnými slovami a nezobere mu to ani správnu odpoveď.Počítač nevie ani to, že y = x * 5 je to isté, ako y = 5x, ne to ešte parsovať odpoveď na hádanku.

nahlásit spam

odpovědět

Pokud bys nevěděl, nechal by sis vypsat jinou otázku. Schválně, kolik z těch pěti, které jsem napsal, bys dal? (samozřejmě by počítač toleroval více variant správných odpovědí - např. bez diakritiky, bez rozlišení písmen malá-velká apod.

nahlásit spam

odpovědět

Diskuse: Kdyby se někomu chtělo…

Ja by som skúsil animovanú captchu.

Biele pozadie, čierny text a pozakrívané čiernými obdlžníkmi, ktoré by po jednom odkrívali písmená - stále len jedno viditeľné a ostatné zakryté.Alebo kľudne aj iné farby.Zároveň môže byť na písmená aplikovaný nejaký šum, prípadne deformácia alebo hra s farbami.Možností je veľa.

Napríklad toto: http://digitalerr0r.wordpress.com/2009/0...

nahlásit spam

odpovědět

Diskuse: Kdyby se někomu chtělo…

zkus hidden checkbox, vetsina spambotu v defaultu vsechno zaskrtava.

nahlásit spam

3 / 3

odpovědět

přesně tak, z hlediska implementace je to nejjednodušší řešení a osvědčilo se mi to už vícekrát

nahlásit spam

odpovědět

Diskuse: Kdyby se někomu chtělo…

25. 7. 2011 20:17

Dušan Janošík

0 16

Jen otázku. Systémy jako http://akismet.com/ taky nefungujou?

nahlásit spam

odpovědět

25. 7. 2011 21:01

Tomáš Herceg

1847 3847

Že něco takového existuje jsem nevěděl - na implementaci to vypadá snadno, otázkou je, jak si to poradí s češtinou a kusy zdrojáku v ní - aby mi ji to taky nebralo jako spam.

nahlásit spam

odpovědět

otázka připomínka kladné hodnocení záporné hodnocení

Nadpis:

Antispam:

Komu se občas házejí perly?

Příspěvek bude publikován pod identitou anonym.

Nyní zakládáte pod článkem nové diskusní vlákno.
Pokud chcete reagovat na jiný příspěvek, klikněte na tlačítko "Odpovědět" u některého diskusního příspěvku.

Nyní odpovídáte na příspěvek pod článkem. Nebo chcete raději založit nové vlákno?

Administrátoři si vyhrazují právo komentáře upravovat či mazat bez udání důvodu.
Mazány budou zejména komentáře obsahující vulgarity nebo porušující pravidla publikování.

Pokud nejste zaregistrováni, Vaše IP adresa bude zveřejněna. Pokud s tímto nesouhlasíte, příspěvek neodesílejte.

dotNETportal.cz

Tomáš Herceg

Podle kategorie