VKEde andmete suurpuhastus: Kuidas valmistada oma korratud arvutustabelid ette tehisintellekti juurutamiseks

Tehisintellekt (AI) on praegu kõigi huulil – ja seda mõjuval põhjusel. Potentsiaal optimeerida tegevust, kärpida kulusid (mis, olgem ausad, on minu kinnisidee, mitte teie oma) ja saada teadmisi, mis tunduvad peaaegu üliinimlikud, on tõeliselt transformatiivne. Kuid ma olen töötanud sadade ettevõtetega igas sektoris ja reaalsus on järjepidevalt ebamugav: lõhe kavatsuse ja mõju vahel on suurem, kui arvate. Andmete tõlgendamine on kõik. 73% väikeettevõtete omanikest planeerib AI-d kasutusele võtta, kuid minu tähelepanekute kohaselt on nende arv, kes seda tegelikult hästi teevad, palju väiksem. Ja number üks takistus ei ole tavaliselt kulu ega tehnoloogia – see on aastakümnete vanustes, digitaalse teibiga kokku pandud arvutustabelites peituv puhas ja kaootiline pärandandmete segadus.

Teie AI-strateegia on täpselt nii hea, kui head on teie andmed. Igasuguse tähendusrikka AI juurutamise puhul väikeettevõttes ei ole vana vanasõna "prügi sisse, prügi välja" (garbage in, garbage out) lihtsalt hoiatus; see on surnuaed, kuhu ambitsioonikad automatiseerimisprojektid surema lähevad. Nii et enne, kui proovite integreerida keerukaid ennustavaid tööriistu või automatiseerida kogu oma raamatupidamisprotsessi (säästes ehk £3,000/aastas töö eest, mida AI suudab teha £30/kuus – vaadake meie tarkvara säästmise juhendit), peate tingimata maja puhtaks tegema. Täpsemalt öeldes peate käsile võtma need arvutustabelid.

Miks puhas andmestik on läbirääkimismatu (GIGO reaalsus)

💡 Kas soovite, et Penny teie ettevõtet analüüsiks? Ta kaardistab, millised rollid AI võib asendada, ja koostab etapiviisilise plaani. Alustage tasuta prooviperioodi →

AI-mudelid ei ole võlukunst; need on võimsad mustrite tuvastamise mootorid. Nad õpivad andmetest, mida te neile annate. Söötke neile ebakorrektset, ebakõlalist või puudulikku teavet ja nad reprodutseerivad truult ebakorrektseid, ebakõlalisi ja potentsiaalselt väga kalleid väljundeid. See on nagu kiirrongi ehitamine soole.

Kujutage ette, et proovite luua klientide lahkumise ennustusmudelit. Teie peamises arvutustabelis on ettevõtte 'Acme Corp' kohta mitu sissekannet (kirjutatud kui 'acme', 'Acme corporation', 'Acme Co.' või lihtsalt 'Acme' koos erinevate kontaktisikutega). Mõnel sissekandel puuduvad olulised suhtluskuupäevad, teistel aga on segamini müüginumbrid. AI ei näe ühte väärtuslikku klienti; ta näeb nelja väikest, segadusttekitavat üksust, mille käitumine on vasturääkiv. Selle ennustused on halvemad kui kasutud – need on eksitavad, suunates teie väärtuslikud ressursid valedele sekkumistele. Lisaks ilmselgele ebaõnnestumisele toidavad korratud andmed ka seda, mida ma nimetan Agentuuri maksuks – kus ettevõtted maksavad agentuuridele või konsultantidele kalli manuaalse täitmise eest lihtsalt seetõttu, et nende siseandmed on otseseks ärakasutamiseks liiga kaootilised, nõudes kallist inimsekkumist ülesannete jaoks, mida AI saaks hõlpsasti automatiseerida, kui andmed oleksid vaid valmis. Niisiis, puhas andmestik ei tähenda ainult AI töölepanemist; see tähendab tohutu kulusäästu avamist, tarbetust käsitsitööst mööda hiilimist ja tõeliselt säästliku (lean) tegevuse ülesehitamist.

VKEde andmete suurpuhastuse 5-astmeline raamistik

Olen töötanud lugematute ettevõtetega, mis olid põhimõtteliselt ummikus. Neil oli tohutu potentsiaal optimeerida tegevust AI abil – näiteks automatiseerida raamatupidamist £30/kuus asemel £3,000/aastas (mõelge sellele tarkvara säästmisele) –, kuid nende andmed olid täielik katastroof. Ärge sukörduge otse keerukatesse Python skriptidesse; alustage struktureeritud andmehügieenist. Siin on praktiline 5-astmeline raamistik oma korratud arvutustabelite ettevalmistamiseks automatiseerimiseks.

1. Andmete inventuur ja ratsionaliseerimine: Teadke, mis teil on (ja miks)

Esiteks, pange vastu kiusatusele hakata puhastama üksikuid lahtreid. Teil on vaja suurt pilti. Paljudel ettevõtetel on kümneid, mõnikord sadu erinevaid arvutustabeleid, mis on laiali erinevatel ketastel, kaustades ja e-kirjades. Soovitan 'andmekartograafiat' – pange füüsiliselt kirja iga tabel, andmebaas ja süsteem, mis sisaldab äriandmeid. Mis on igasühes? Kes seda kasutab? Mis kõige tähtsam: miks see teil ikka veel alles on? Olen näinud kliendiprojekte, kus oleme säästnud lugematuid tunde (ja potentsiaalselt IT-toe kulusid tulevikus) lihtsalt dubleeritud või vananenud andmete tuvastamise ja kustutamise teel. Kui teatud andmestik ei teeni selget ärieesmärki ega ole nõutav vastavuse tagamiseks, hankige sellest lahti. Säästlik tegevus algab säästlikest andmetest.

2. Standardiseerimine ja dublikaatide eemaldamine: Taltsutage kaos

Kui olete oma allikad ratsionaliseerinud, on aeg standardiseerida. Vaadake oma veerge. Kas kuupäevad on järjepidevalt PP/KK/AAAA või KK/PP/AAAA? Kas 'UK' on kirjutatud kui United Kingdom, Great Britain, UK või U.K.? Määratlege selged andmestandardid selliste asjade jaoks nagu nimed, aadressid, kuupäevad, valuuta ja tootekirjeldused. See on kriitilise tähtsusega funktsionaalsuseülese automatiseerimise jaoks ja tagamaks, et erinevad süsteemid (ja tulevased AI-tööriistad) mõistaksid teavet ühtselt. Seejärel tegelege dublikaatide eemaldamisega. Sama kliendi või toote mitu sissekannet on uskumatult tavadised ja mürgitavad AI-mudeleid. Kasutage nende kirjete koondamiseks selliseid tööriistu nagu Exceli 'Eemalda dublikaadid', hägusotsingu (fuzzy matching) funktsioone (jah, nüüd on olemas lihtsad AI-toega Exceli lisandmoodulid, mis saavad sellega aidata, tuvastades mustrite põhjal sarnaseid sissekandeid) või spetsiaalset andmepuhastustarkvara. Järjepidevus on AI jaoks läbirääkimismatu kõigis tööstusharudes, olgu see siis tervishoiu meditsiiniliste warnsuste või jaekaubanduse varude taseme puhul.

3. Puuduvate andmetega tegelemine: Täitke lüngad (arukalt)

Puuduvad andmed on igas reaalelulises stsenaariumis garanteeritud. Kuid lihtsalt lünkade jätmine ei ole AI puhul sageli lahendus. Vastupidi, lünkade pime täitmine (imputatsioon) võib tegelikkust tõsiselt moonutada. Peate olema teadlik teist järku mõjudest: puuduva väärtuse asendamine keskmise palgaga võib kunstlikult vähendada varieeruvust, eksitades potentsiaalselt finantsmudelit. Parim lähenemisviis on sageli märgistada andmed selgesõnaliselt puuduvaks või kasutada imputatsioonitehnikaid mõeldud viisil – näiteks asendada numbriliste andmete puhul mediaaniga, kui esineb erindeid, või kasutada kategooriliste andmete puhul moodi. Mõelge, miks andmed puuduvad ja kuidas teie viis sellega tegeleda mõjutab teie tulevast AI-rakendust. Kas puuduv e-posti aadress on teie turunduse automatiseerimise jaoks kriitiline või lihtsalt tüütu?

4. Vigade parandamine ja erindite käsitsemine: Valideerige ja täiustage

Lisaks lihtsatele vormindamisprobleemidele peate leidma ja parandama otsesed vead. Sõiduki rehvirõhu näidud ei saa olla 1,000 PSI; ühelgi tootel ei tohiks olla negatiivset hinda; ja kliendi sünnikuupäev ei saa olla aastal 2045 (veel). Rakendage seda, mida ma nimetan 'Võimatuse filtriks' – lihtsad reeglid andmete märgistamiseks, mis ei saa reaalsete piirangute põhjal õiged olla. Seejärel tuvastage erindid. £1 miljoni suurune tellimus võib olla ehtne või see võib olla trükiviga £10,000 asemel. Uurige äärmuslikke väärtusi ja otsustage, kas need alles jätta (kui need on ehtsad ja asjakohased, kuigi need võivad siiski mõnda mudelit oluliselt kallutada), parandada või välistada. Kriitiliste väljade puhul sisestage andmete valideerimine oma kogumisvormidesse ja praegustesse arvutustabelitesse edaspidiseks, et vältida uute vigade sissehiilimist.

5. Dokumenteerimine ja halduse sisseseadmine: Säilitage puhtus

Õnnitleme, teil on puhtad andmed! Nüüd kõige olulisema sammu juurde: nende sellisena hoidmine. Kui te ei loo järjepidevaid andmehaldusprotsesse, olete kuue kuu pärast tagasi seal, kust alustasite. Dokumenteerige oma andmestandardid (loodud 2. etapis). Kes 'omab' kliendiandmeid? Tooteandmeid? Finantsandmeid? Määratlege selged vastutusalad ning looge oma meeskonnale lihtsad andmesisestusreeglid ja koolitused. See viimane samm on ülioluline jätkusuutliku ja säästliku tegevuse ülesehitamiseks. Selgete, hallatud andmeprotsessidega säästlik ettevõte on oluliselt tõhusam kui suur konkurent, kes upub digitaalsesse segadusse. Teie tänane investeering andmehügieeni on see, mis teeb homme võimalikuks keeruka ja kulusäästliku AI juurutamise. Võrrelge seda struktureeritud vundamenti olemuslikult manuaalse käsitlemisega, mis läheb ettevõtetele kalliks maksma – võrrelge Penny vs arvutustabelid, et näha, kuidas automatiseerimine õitseb struktureeritud andmetel, muutes arvutustabelid alguspunktiks, mitte sihtkohaks.

Konkreetsed funktsioonid ja andmetüübid, mida prioritiseerida

Kust peaksite alustama? Enamiku ettevõtete puhul soovitaksin prioritiseerida kolme peamist valdkonda, millel on kohene AI potentsiaal:

Kliendiandmed (CRM): Puhtad kontaktid, järjepidev suhtlusajalugu, ostuajalugu. AI kasutus: Isikupärastatud turundus, kliendikaotuse ennustamine, lihtsad klienditeeninduse vestlusrobotid.
Finantsandmed: Tehingute täpne kategoriseerimine, puhtad tarnijate/klientide nimekirjad, järjepidev arveldus. AI kasutus: Automatiseerida raamatupidamist, kuluhaldus, lihtne rahavoogude prognoosimine. (Tuletage endale meelde £3k vs £30 säästupotentsiaali töö puhul, mida käitlevad sellised tööriistad nagu Penny). Standardsed raamatupidamispõhimõtted kehtivad globaalselt, muutes selle universaalseks alguspunktiks, olenemata sellest, kas kasutate QuickBooksi Londonis või Xerot Sydneys.
Toote- ja laoinfotehnoloogia: Järjepidevad kirjeldused, SKU-d, laoseisud, tarnijaandmed. AI kasutus: Nõudluse prognoosimine, varude optimeerimine, lihtne hinna optimeerimine.

Mõelge teist järku mõjudele: täpsed tooteandmed ei paranda mitte ainult prognoosimist; see vähendab vigu teie veebisaidil, toob kaasa vähem kliendikaebusi ja optimeerib teie tellimuste täitmist – iga väike võit koondub märkimisväärseks tõhususe kasvuks.

Arvutustabelitest kaugemale jõudmine: Pikaajaline visioon

Olgem realistlikud: arvutustabelid ei kao tõenäoliselt täielikult ja neil on endiselt oma koht ad-hoc analüüsiks. Kuid nendele kui peamisele äriandmebaasile toetumine on strateegiline ummiktee. Selle andmepuhastuse lõppeesmärk ei ole ainult parem AI; see on tugevama, skaleeritavama tegevusvundamendi ehitamine. Puhtad andmed on võti, mis avab integratsiooni. Kui teie kliendiloend on dublikaatideta ja standardiseeritud, muutub selle teisaldamine Excelist korralikku CRM-i ja seejärel ennustava AI lisamine selle peale hallatavaks projektiks. See integratsioon on koht, kus toimub tegelik transformatsioon, nihutades teid eemale manuaalsest töötlemisest ja säästliku, AI-toega ärimudeli poole, mis kärbib tegevuskulusid (vaadake uuesti seda Penny vs arvutustabelid võrdlust, et näha konkreetset näidet sellest tegevuses). Mõni tund, mis kulub praegu oma andmete kaardistamisele ja puhastamisele, sillutab teed oluliselt säästlikumale ja konkurentsivõimelisemale tulevikule.

Nii et ärge laske korratutel andmetel oma AI-ambitsioone rööpast välja lüüa. Edukas AI juurutamine väikeettevõttes algab puhastest arvutustabelitest. Lõpetage viieks minutiks tööriistade uurimine, valige üks kriitiline andmestik ja täitke andmepuhastuse kontrollnimekirja esimene samm täna. Teie tulevane automatiseeritud tegevus sõltub sellest.

VKEde andmete suurpuhastus: Kuidas valmistada oma korratud arvutustabelid ette tehisintellekti juurutamiseks

Miks puhas andmestik on läbirääkimismatu (GIGO reaalsus)

VKEde andmete suurpuhastuse 5-astmeline raamistik

1. Andmete inventuur ja ratsionaliseerimine: Teadke, mis teil on (ja miks)

2. Standardiseerimine ja dublikaatide eemaldamine: Taltsutage kaos

3. Puuduvate andmetega tegelemine: Täitke lüngad (arukalt)

4. Vigade parandamine ja erindite käsitsemine: Valideerige ja täiustage

5. Dokumenteerimine ja halduse sisseseadmine: Säilitage puhtus

Konkreetsed funktsioonid ja andmetüübid, mida prioritiseerida

Arvutustabelitest kaugemale jõudmine: Pikaajaline visioon

Want Penny to analyse your business?

Hankige Penny iganädalased tehisintellekti ülevaated

Veel Pennylt

3-etapiline andmepuhastus: kuidas valmistada ette oma väikeettevõtte tabelid tehisintellekti kasutuselevõtuks

5-minutiline andmete tervisekontroll: Kas Teie ettevõte on automatiseerimiseks päriselt valmis?

„API-eelise” mõtteviis: miks on teie tarkvara ühendatavus teie AI-saatus