israelnieuws israelnieuws
 
  • Joop Soesan

Een Israëlische startup gebruikt AI om plagiaat en auteursrechtinbreuken op te sporen


Foto via Wikipedia


Plagiaat is geëxplodeerd in het Covid-19-tijdperk. Naarmate meer mensen thuis werkten en lessen volgden via Zoom, zonder direct persoonlijk toezicht, is de verleiding om het werk van iemand anders over te nemen exponentieel gegroeid, net als steeds geavanceerdere manieren om het werk van iemand anders te kopiëren.


Trucs zoals het vervangen van een letter als "o" door een gelijkaardig teken in een niet-Latijns alfabet of het gebruik van "onzichtbare" tekst gemarkeerd in het wit om de huidige programma's voor het detecteren van auteursrechten te slim af te zijn, zijn gemeengoed geworden.


Het gemiddelde percentage plagiaat voor en na Covid is gestegen van 26% naar 45% in Nederland, van 37% naar 49% in Frankrijk en van 42% naar 53% in India, volgens een onderzoek onder 51.000 hogeschool- en middelbare scholieren, door anti-plagiaat softwaremaker CopyLeaks.


De oplossing is niet meer van hetzelfde - waarbij software een database controleert op gekopieerde woorden en alinea's - maar het gebruik van kunstmatige intelligentie (AI) die niet alleen woorden met woorden vergelijkt, maar ook "betekenis voor betekenis", legt Alon Yamin CEO van CopyLeaks aan ISRAEL21C uit.


De rommelige Israëlische startup wordt gebruikt door scholen en organisaties over de hele wereld, waaronder Macmillan Publishers, Stanford University, de BBC, Medium, de National Space Society, de Verenigde Naties, Cisco en Accenture, evenals door studenten, bloggers en journalisten.


De uitgebreide klantenlijst van CopyLeaks laat niet alleen zien hoe breed de software kan worden gebruikt, maar ook hoe wijdverbreid het plagiaatprobleem is geworden.


Scholen zijn misschien het meest gebruikte geval voor antiplagiaattools, maar publicaties en boekuitgevers kunnen CopyLeaks ook gebruiken om ervoor te zorgen dat hun schrijvers niet - zelfs niet per ongeluk - het werk van iemand anders hebben misbruikt (journalisten zullen bijvoorbeeld vaak tekst uit een ander artikel parafraseren, ervan uitgaande dat ze genoeg wijzigingen hebben aangebracht om het hun eigen te maken; zo niet, dan kan de publicatie worden onderworpen aan juridische stappen).


Misbruik van inhoud


Bedrijven die bedrijfswebsites ontwikkelen, zijn een andere bron van potentiële klanten voor bedrijven als CopyLeaks. Hier is het voordeel omgekeerd - heeft iemand anders uw werk gekopieerd?


Dit laatste is hoe medeoprichter en CopyLeaks CTO Yehonatan Bitton zijn roeping vond in de anti-plagiaatruimte.


In 2013 ontwikkelde Bitton inhoud voor een website van een familie toen hij ontdekte dat deze werd gekopieerd door concurrerende sites. De diefstal was frustrerend, maar erger nog, deze meerdere bronnen van identieke inhoud zorgden voor een lagere zoekresultaten van de site, wat een negatieve invloed had op de verkoop.


Bitton zocht naar een softwareoplossing om dergelijk misbruik van inhoud te detecteren, maar kon er geen vinden. Vervolgens bracht hij het idee naar voren om iets te bouwen dat zijn probleem zou kunnen oplossen bij Yamin, zijn toenmalige collega en mede-afgestudeerde van de 8200-signaalinlichtingeneenheid van de IDF.


Yamin speelde een belangrijke rol bij het ontwikkelen van AI en door machine learning aangedreven algoritmen voor Israëlische legerintelligentie; het was die technologie die de basis werd voor CopyLeaks.

CopyLeaks-CEO Alon Yamin en CTO Yehonatan Bitton. Foto met dank aan CopyLeaks


DEELTWEETENDEELOPMERKINGE-MAIL

Plagiaat is geëxplodeerd in het Covid-19-tijdperk. Naarmate meer mensen thuis werkten en lessen volgden via Zoom, zonder direct persoonlijk toezicht, is de verleiding om het werk van iemand anders over te nemen exponentieel gegroeid, net als steeds geavanceerdere manieren om het werk van iemand anders te kopiëren.


Trucs zoals het vervangen van een letter als "o" door een gelijkaardig teken in een niet-Latijns alfabet of het gebruik van "onzichtbare" tekst gemarkeerd in het wit om de huidige programma's voor het detecteren van auteursrechten te slim af te zijn, zijn gemeengoed geworden.


Het gemiddelde percentage plagiaat voor en na Covid is gestegen van 26% naar 45% in Nederland, van 37% naar 49% in Frankrijk en van 42% naar 53% in India, volgens een onderzoek onder 51.000 hogeschool- en middelbare scholieren. door anti-plagiaat software maker CopyLeaks .


ONTDEK ISRAELL - Ontvang de ISRAEL21c

Weekly Edition gratis per e-mailMeld u nu aan!

De oplossing is niet meer van hetzelfde - waarbij software een database controleert op gekopieerde woorden en alinea's - maar het gebruik van kunstmatige intelligentie (AI) die niet alleen woorden met woorden vergelijkt, maar ook "betekenis voor betekenis", legt Alon Yamin uit, CEO van CopyLeaks.


De rommelige Israëlische startup wordt gebruikt door scholen en organisaties over de hele wereld, waaronder Macmillan Publishers, Stanford University, de BBC, Medium, de National Space Society, de Verenigde Naties, Cisco en Accenture, evenals door studenten, bloggers en journalisten.


De uitgebreide klantenlijst van CopyLeaks laat niet alleen zien hoe breed de software kan worden gebruikt, maar ook hoe wijdverbreid het plagiaatprobleem is geworden.


Scholen zijn misschien het meest gebruikte geval voor antiplagiaattools, maar publicaties en boekuitgevers kunnen CopyLeaks ook gebruiken om ervoor te zorgen dat hun schrijvers niet - zelfs niet per ongeluk - het werk van iemand anders hebben misbruikt (journalisten zullen bijvoorbeeld vaak tekst uit een ander artikel parafraseren , ervan uitgaande dat ze genoeg wijzigingen hebben aangebracht om het hun eigen te maken; zo niet, dan kan de publicatie worden onderworpen aan juridische stappen).


Misbruik van inhoud


Bedrijven die bedrijfswebsites ontwikkelen, zijn een andere bron van potentiële klanten voor bedrijven als CopyLeaks. Hier is het voordeel omgekeerd - heeft iemand anders uw werk gekopieerd?


Dit laatste is hoe medeoprichter en CopyLeaks CTO Yehonatan Bitton zijn roeping vond in de anti-plagiaatruimte.


In 2013 ontwikkelde Bitton inhoud voor een website van een familie toen hij ontdekte dat deze werd gekopieerd door concurrerende sites. De diefstal was frustrerend, maar erger nog, deze meerdere bronnen van identieke inhoud zorgden voor een lagere zoekresultaten van de site, wat een negatieve invloed had op de verkoop.


Bitton zocht naar een softwareoplossing om dergelijk misbruik van inhoud te detecteren, maar kon er geen vinden. Vervolgens bracht hij het idee naar voren om iets te bouwen dat zijn probleem zou kunnen oplossen bij Yamin, zijn toenmalige collega en mede-afgestudeerde van de 8200-signaalinlichtingeneenheid van de IDF.


Yamin speelde een belangrijke rol bij het ontwikkelen van AI en door machine learning aangedreven algoritmen voor Israëlische legerintelligentie; het was die technologie die de basis werd voor CopyLeaks.


CopyLeaks-CEO Alon Yamin en CTO Yehonatan Bitton. Foto met dank aan CopyLeaks

Bevordering van authenticiteit


Ongeveer 70 miljoen gevallen van inbreuk op het auteursrecht werden ontdekt door de technologie van CopyLeaks op basis van 75 miljoen gescande pagina's en 58 miljoen documenten vergeleken.


CopyLeaks gebruikt AI om de 'stem' van een schrijver te begrijpen. Dat gaat verder dan alleen de woorden, waar geautomatiseerde tools "met de tekst kunnen spelen, woorden en hun volgorde kunnen veranderen, waardoor het gemakkelijk wordt om plagiaat te maskeren", vertelt Yamin aan ISRAEL21c.


"Zelfs als geen enkel woord identiek is, kunnen we detecteren of de betekenis of de zinsbouw erg hetzelfde is."


Dat is niet buiten het vermogen van menselijke lezers, "maar we kunnen het op een geautomatiseerde manier doen op een zeer hoog volume."


En in een groeiend aantal talen: CopyLeaks ondersteunt momenteel meer dan 100 talen, waaronder Hebreeuws en Hindi.


CopyLeaks kan scholen en publicaties helpen opzettelijke of onopzettelijke inbreuken op het auteursrecht te voorkomen, maar het is ook een manier om “zichzelf te authentiseren, om er zeker van te zijn dat je genoeg hebt geparafraseerd, dat je al je citaten correct hebt toegeschreven. Ons doel is om authenticiteit te bevorderen”, zegt Yamin.

Een voorbeeld CopyLeaks-rapport. Afbeelding met dank aan CopyLeaks


De interface toont zij-aan-zij vergelijkingen van de originele tekst aan de linkerkant en de gemarkeerde tekst aan de rechterkant, compleet met links naar de bron waar het vandaan kwam. Rapporten kunnen als pdf worden gedownload.


"Een CopyLeaks-scan [op plagiaat] kan enkele seconden tot enkele minuten duren, afhankelijk van factoren als de grootte van het document of het aantal resultaten", zegt Yamin.


Op aanvraag of altijd aan


CopyLeaks kan worden gebruikt als een sitelicentie die is gekocht door een school, instelling of publicatie; door individuele schrijvers die betalen op basis van het aantal gecontroleerde woorden en pagina's; of geïntegreerd in een bestaand LMS (learning management system).


De technologie werkt met de meeste van de beste LMS'en, waaronder Moodle, Blackboard, Canvas, Brightspace en Schoology - deze dekken zo'n 90% van de academische instellingen. De software kan on-demand worden uitgevoerd (upload een bestand en klik op "scannen") of constant op de achtergrond draaien.


De prijs loopt van $10 per maand voor 1.200 pagina's per jaar of 300.000 woorden tot $566 per maand voor 120.000 pagina's per jaar en 30 miljoen woorden . De prijzen voor grote instellingen worden aangepast aan hun specifieke behoeften. Er is ook een gratis proefversie, waarbij gebruikers ongeveer 10 pagina's per maand tegen de banden kunnen.


CopyLeaks ondersteunt 25 bestandstypen, inclusief afbeeldingsbestanden, waarbij OCR-algoritmen (optical character recognition) elke aanstootgevende inhoud opsporen. Het kan zelfs computercode scannen die programmeurs schrijven als onderdeel van applicatieontwikkeling.


Klanten kunnen instellen hoe gevoelig ze de software willen hebben; er zijn zes verschillende niveaus. “Sommige klanten geven alleen om het kopiëren/plakken van plagiaat. De gevoeligheid zal dus erg laag zijn. Anderen geven om alles wat mogelijk vergelijkbaar kan zijn, dus het gevoelige niveau zal erg hoog zijn. Daar kun je mee spelen en kijken welke resultaten voor jou relevant zijn in jouw use case”, zegt Yamin.


CopyLeaks heeft onlangs een nieuwe tool geïntroduceerd: het beoordelen van geschreven essays met behulp van AI.


“We hebben een pilot gedaan met het ministerie van Onderwijs in Israël. We waren slechts één punt verwijderd van de 100 punten in vergelijking met menselijke beoordelaars. Het is zeer nauwkeurig en snel - we kunnen het in slechts vijf minuten doen. En het is volledig onbevooroordeeld”, zegt Yamin.


Een wereldwijd probleem


CopyLeaks is niet de enige plagiaatdetectietool die schrijvers scherp houdt. De 800-pond gorilla in de ruimte is Turn It In, die in 2019 voor 1,7 miljard dollar werd verworven door Advance Publications .


Turn it In is op zijn beurt druk bezig geweest met het verwerven van kleinere concurrenten, wat leidde tot een David vs. Goliath-achtige confrontatie voor CopyLeaks, dat slechts 25 mensen in zijn twee kantoren heeft (Kiryat Shemona in Israël voor R&D en Stamford, Connecticut voor verkoop en marketing ).


En hoewel het ver verwijderd is van de bijna $ 2 miljard die Turn It In ontving, heeft CopyLeaks zojuist een Series A-ronde van $ 6 miljoen opgehaald, bovenop $ 1,8 miljoen in 2018 van Connecticut Innovations (vandaar de reden dat het hoofdkantoor in Stamford is).


Yamin merkt op dat CopyLeaks meer dan 200.000 personen heeft die het elke maand gebruiken en nog eens een paar honderd B2B (business-to-business) klanten, zoals uitgevers en scholen.


Hoe zit het met het soort essayfabrieken dat je meestal aantreft in studentenverenigingen op universiteitscampussen? Zal CopyLeaks deze buiten bedrijf stellen?


Als je iemand hebt betaald om volledig originele inhoud te schrijven, zal dat moeilijk te detecteren zijn, geeft Yamin toe, maar als dezelfde student een essay inlevert dat hij of zij zelfstandig heeft geschreven, kan CopyLeaks de 'stem' vergelijken om te zien of het hetzelfde is.


CopyLeaks is tot nu toe gericht op tekst en afbeeldingen, maar Yamin zegt dat het scannen van andere media in de toekomst zal komen, inclusief auteursrechtelijk beschermde video's die op sites voor het delen van bestanden worden geplaatst.


Is er een geografie die bijzonder flagrant is in inbreuk op het auteursrecht? Yamin zegt nee. “Het is echt een wereldwijd probleem. Het gebeurt overal.”


Hoe geplagieerde tekst te vangen


Software is misschien de beste manier om geplagieerde tekst op te sporen, maar het menselijk oog kan nog steeds enkele van de meest flagrante oplichting opvangen. Dit zijn de belangrijkste gebieden om te controleren, volgens CopyLeaks:


  • Incoherentie in schrijfstijl of plotselinge veranderingen in schrijfpatronen

  • Schrijfstijlvariatie van woord tot woord of in verschillende alinea's.

  • Als het document geen betrekking heeft op het gegeven onderwerp.

  • Referenties of bronnen die in de les niet werden aanbevolen.

  • Afwijkingen en verschuivingen in onderwerp.

  • Verschillende citatiemethoden

  • Variatie in letterstijl en grootte tussen alinea's.

  • Meerdere bronnen genoemd zonder enige aanhaling.

  • Geen citaten maar uitgebreide geciteerde bronnen.

Voor meer informatie over CopyLeaks, klik hier.






























41 weergaven0 opmerkingen
 
israelnieuws