Semalt Парады па выкарыстанні глыбокага навучання для аптымізацыі аўтаматызаванага тэга загалоўка



Хуткі спосаб заняць вядучае месца ў рэйтынгу SEO - уключыць ключавое слова вышэйшага рэйтынгу ў тэг загалоўка. І калі вы падумаеце пра гэта хвіліну, вы зразумееце, што гэта сапраўды разумнае рашэнне. Калі ў вас ёсць старонка, якая ўжо ранжыруе ключавое слова без таго, што яно прысутнічае ў загалоўку, уявіце, наколькі важна мець ключавое слова ў назве. Вы, натуральна, будзеце часцей індэксавацца па гэтым ключавым слове; такім чынам, вы ставіцеся лепш.

Цяпер, калі мы ўзялі гэтае ключавое слова і дадалі яго ў ваша апісанне, яны будуць выдзелены ў выніках пошуку, што азначае, што больш карыстальнікаў пошукавай сістэмы, верагодна, націснуць. Гэта, вядома, пойдзе на карысць вэб-сайту.

Уявіце сабе, што Сэмалт працаваў на сайце з сотнямі, тысячамі ці мільёнамі старонак. Калі б нам давялося зрабіць гэта ўручную, гэта аднясе шмат часу і хутка дорага абыдзецца. Дык як жа мы можам прааналізаваць яго старонку і аптымізаваць кожны загаловак і апісанне мета? Рашэнне заключаецца ў выкарыстанні машыны. Навучаючы машыну знаходзіць найбольш рэйтынгавыя ключавыя словы на кожнай старонцы, мы эканомім час і выдаткі. Выкарыстанне машыны можа ў канчатковым выніку працаваць лепш і хутчэй, чым каманда ўводу дадзеных.

Давайце зноў прадставім Людвіга Uber і T5 Google

Аб'яднаўшы Людвіга з Uber і T5 ад Google, вы атрымаеце даволі магутную сістэму.

Такім чынам, Людвіг - гэта аўтаматычны інструмент ML з адкрытым зыходным кодам, які дазваляе карыстальнікам навучаць прасунутыя мадэлі без неабходнасці пісаць любы код.

Google T5, з іншага боку, з'яўляецца цудоўнай версіяй мадэляў у стылі SERT. T5 можа абагульняць, перакладаць, адказваць на пытанні і класіфікаваць пошукавыя запыты, а таксама мноства іншых функцый. У двух словах, гэта вельмі магутная мадэль.

Аднак няма ніякіх прыкмет таго, што T5 прайшоў навучанне па аптымізацыі тэгаў загалоўкаў. Але, магчыма, мы можам гэта зрабіць, і вось як:
  • Мы атрымліваем падрыхтаваны набор дадзеных з прыкладамі:
    • Арыгінальныя тэгі загалоўка без нашага мэтавага ключавога слова
    • Нашы мэтавыя ключавыя словы
    • Аптымізаваныя тэгі загалоўка з мэтавымі ключавымі словамі
  • Код наладкі T5 і падручнікі для выкарыстання
  • Ёсць набор загалоўкаў, якія не былі аптымізаваны, каб мы маглі праверыць нашу мадэль
Мы пачнем з набору дадзеных, які ўжо быў створаны, і прадаставім кіраўніцтва па тым, як мы стварылі набор дадзеных.

Аўтары T5 былі дастаткова шчодрымі, каб даць нам падрабязны нататнік Google Colab, які мы выкарыстоўваем для дапрацоўкі T5. Патраціўшы час на яго вывучэнне, мы змаглі адказаць на адвольныя дробязі. У наўтбуку Colab таксама ёсць рэкамендацыі па наладжванні T5 на новыя задачы. Аднак, калі вы паглядзіце на змены кода і неабходную падрыхтоўку дадзеных, вы выявіце, што гэта патрабуе шмат працы і што нашы ідэі могуць быць ідэальнымі.

Але што, калі гэта можа быць прасцей? Дзякуючы версіі Uber Ludwig 3, якая выйшла некалькі месяцаў таму, у нас ёсць спалучэнне некаторых вельмі карысных функцый. Версія Людвіга 3.0 пастаўляецца з:
  • Механізм аптымізацыі гіперпараметраў, які атрымлівае дадатковую прадукцыйнасць ад мадэляў.
  • Інтэграцыя без кода з сховішчам Transformers Hugging Face. Гэта дае карыстальнікам доступ да абноўленых мадэляў, такіх як GPT-2, T5, DistilBERT і Electra, для задач апрацоўкі натуральнай мовы. Некаторыя з такіх задач ўключаюць аналіз настрояў класіфікацыі, распазнаванне названых аб'ектаў, адказы на пытанні і многае іншае.
  • Ён новейшы, хутчэйшы, модульны і мае больш пашыраную бэкэнд, якая абапіраецца на TensorFlow 2.
  • Ён забяспечвае падтрымку многіх новых фарматаў дадзеных, такіх як Apache Parquet, TSV і JSON.
  • У ім ёсць па-за ўключэння перакрыжаванай праверкі k-fold.
  • У інтэграцыі з вагамі і перадузятасцямі ён можа выкарыстоўвацца для кіравання і кантролю за некалькімі мадэльнымі навучальнымі працэсамі.
  • Ён мае новы тып вектарных дадзеных, які падтрымлівае шумныя цэтлікі. Гэта спатрэбіцца, калі мы маем справу са слабым наглядам.
Ёсць некалькі новых функцый, але мы лічым інтэграцыю да Transformers Hugging Face адной з самых карысных функцый. Абдымныя канвееры твару могуць быць выкарыстаны для значнага паляпшэння намаганняў SEO па стварэнні загалоўкаў і метаапісанняў.

Выкарыстоўваць канвеер - гэта выдатна для прагназавання мадэляў, якія ўжо навучаны і ўжо даступныя ў буферы мадэляў. Аднак у цяперашні час няма мадэляў, якія могуць рабіць тое, што нам трэба, таму мы аб'ядноўваем Людвіга і Трубаправод, каб стварыць грозны аўтаматычны загаловак і метаапісанне для кожнай старонкі на сайце.

Як мы выкарыстоўваем Людвіга для дакладнай налады T5?

Гэта важнае пытанне, бо мы імкнемся паказаць нашым кліентам, што менавіта адбываецца на фоне іх веб-сайта. Тут ёсць клішэ, якое сцвярджае: "выкарыстанне Людвіга для навучання Т5 настолькі простае, што мы павінны разгледзець пытанне аб яго незаконнасці". Праўда ў тым, што мы б плацілі сваім кліентам значна вышэй, калі б нам трэба было наняць інжынера па штучным інтэлекту, каб зрабіць эквівалент.

Тут вы даведаецеся, як мы дакладна наладжваем T5.
  • Крок 1: Адкрыйце новы сшытак Google Colab. Пасля гэтага мы змяняем час выканання, каб выкарыстоўваць GPU.
  • Мы загружаем набор дадзеных Hootsuite, які ўжо сабраны.
  • Затым мы ўсталёўваем Людвіга.
  • Пасля ўстаноўкі мы загружаем вучэбны набор дадзеных у кадр дадзеных pandas і правяраем яго, каб убачыць, як ён выглядае.
  • Тады мы сутыкаемся з самай істотнай перашкодай, якая заключаецца ў стварэнні належнага файла канфігурацыі.
Стварэнне дасканалай сістэмы патрабуе дакументацыі на Т5 і пастаянных спроб і памылак, пакуль мы не выправімся. (гэта можа зрабіць доўгі шлях, калі вы зможаце знайсці тут код Python.)

Пераканайцеся, што прагледзелі слоўнікі функцый уводу і высновы і пераканайцеся, што правільна падабраны вашы налады. Калі ўсё зрабіць правільна, Людвіг пачне выкарыстоўваць "t5-small" у якасці запушчанай мадэлі. Для вялікіх мадэляў T5 прасцей змяніць канцэнтратар мадэлі і патэнцыяльна палепшыць яе генерацыю.

Навучыўшы мадэль некалькі гадзін, мы пачынаем атрымліваць уражлівую дакладнасць праверкі.

Важна адзначыць, што Людвіг аўтаматычна выбірае іншыя важныя вымярэнні генерацыі тэксту, галоўным чынам, збянтэжанасць і рэдагаванне адлегласці. Гэта абедзве нізкія лічбы, якія нам пасуюць.

Як мы выкарыстоўваем нашы навучаныя мадэлі для аптымізацыі загалоўкаў

Выпрабаванне нашых мадэляў - гэта сапраўды цікавая частка.

Спачатку мы загружаем тэставы набор дадзеных з неаптымізаванымі загалоўкамі Hootsuite, якія заставаліся нябачанымі мадэллю падчас навучання. Вы зможаце праглядзець набор дадзеных з дапамогай гэтай каманды:

! галава

Hootsuite_titles_to_optimize.csv

Вельмі ўражвае тое, што Людвіг і T5 могуць зрабіць столькі з любым невялікім вучэбным наборам, і яны не патрабуюць дадатковай налады гіперпараметра. Правільны тэст зводзіцца да таго, як ён узаемадзейнічае з нашымі мэтавымі ключавымі словамі. Наколькі добра ён спалучаецца?

Стварэнне прыкладання для аптымізацыі тэгаў загалоўка з дапамогай Streamlight

Аўтары кантэнту лічаць гэта дадатак найбольш карысным. Ці не дзіўна было б мець простае ў выкарыстанні дадатак, якое не патрабуе вялікіх тэхнічных ведаў? Ну, менавіта для гэтага тут Streamlight.

Яе ўстаноўка, як і выкарыстанне, даволі простая. Вы можаце ўсталяваць яго з дапамогай:

! pip ўсталяваць аптымізацыю

Мы стварылі дадатак, якое выкарыстоўвае гэтую мадэль. Пры неабходнасці мы можам запусціць яго з таго ж месца, дзе мы навучаем мадэль, альбо загрузіць ужо падрыхтаваную мадэль туды, дзе плануем запусціць сцэнар. Мы таксама падрыхтавалі файл CSV з загалоўкамі і ключавымі словамі, якія мы спадзяемся аптымізаваць.

Цяпер мы запускаем прыкладанне. Для запуску мадэлі нам трэба ўказаць шлях да файла CSV, у якім ёсць загалоўкі і ключавыя словы, якія мы спадзяемся аптымізаваць. Імёны слупкоў CSV павінны адпавядаць імёнам падчас навучання Людвігу. Калі мадэль не аптымізуе ўсе загалоўкі, не варта панікаваць; правільнае атрыманне нумара - таксама выдатны крок наперад.

Як спецыялісты ў Python, мы вельмі ўзрадаваны, працуючы з гэтым, бо звычайна ў нас перапампоўваецца кроў.

Як стварыць уласны набор дадзеных для навучання

Выкарыстоўваючы назвы Hootsuite, мы можам падрыхтаваць мадэлі, якія добра падыдуць нашым кліентам, але могуць стаць стандартнымі для іх канкурэнтаў. Вось чаму мы гарантуем, што ствараем уласны набор дадзеных, і вось як мы гэта робім.
  • Мы выкарыстоўваем уласныя дадзеныя з Google Search Console або Bing Webmaster Tools.
  • У якасці альтэрнатывы мы можам таксама атрымаць дадзеныя аб канкурэнцыі кліента з SEMrush, Moz, Ahrefs і г.д.
  • Затым мы пішам сцэнар для тэгаў загалоўкаў, а потым падзяляем загалоўкі, якія маюць і не маюць мэтавага ключавога слова.
  • Мы бярэм загалоўкі, аптымізаваныя з выкарыстаннем ключавых слоў, і замяняем ключавыя словы сінонімамі, альбо выкарыстоўваем іншыя метады, каб загаловак быў "дэаптымізаваны".

Выснова

Семальт тут, каб дапамагчы вам аўтаматычна аптымізаваць тэгі загалоўкаў, а таксама метаапісанні. Паступаючы такім чынам, вы можаце заставацца наперад у SERP. Аналіз вэб-сайта ніколі не бывае лёгкай задачай. Таму навучанне машыны, якая нам дапамагае ў гэтым, не толькі эканоміць выдаткі, але і эканоміць час.

У Semalt ёсць спецыялісты, якія ўсталююць набор дадзеных, Людвіг і T5, каб вы заўсёды маглі перамагаць.

Патэлефануйце нам сёння.

mass gmail