显示标签的帖子技术. 显示所有帖子
显示标签的帖子技术. 显示所有帖子

2017年2月16日星期四

罗伯特·凯尔尔’s 行业趋势和前景 – #RootsTech

罗伯特·凯尔尔 at RootsTech 2017Fumanysearch.的产品经理Robert Kehrer参加了名为的小组讨论“行业趋势和前景”在创新者峰会部分rootstech. 2017。 Robert摔跤在Familysearch中具有大数据技术问题。

罗伯特面临准备他的演讲的最困难的事情之一是缩小他想谈论的领域。他将事物缩小到三类创新:技术,过程和数据。

他看到来的第一科技创新是自动转录—计算机转录文档的能力。最近有一些进展,特别是在手写识别领域。今天,自动转录很好地处理在CypeScript文档上,并且在印刷笔迹上很好。确实识别卷曲写作的能力正在展示承诺。但是,实际上存在了自动转录的杂乱文件。

罗伯特·凯尔尔表示,根据手写风格,某些文件的自动转录更加困难

另一个技术创新正在发生的领域是命名实体认可。计算机采用标准文本,并使用名为自然语言处理的过程,从而挑出名称,日期,位置,关系等。在该领域取得了进展。

创新在神经网络和机器学习中发生,并且与自动转录和命名实体识别相结合。通过一个简单的例子说明,机器学习并不难以理解。机器学习可以使可以显示机器的许多名称的图像威廉。随后,当名称被展示给机器时,它可以挑选出来威廉。

罗伯特·凯尔尔 demystifies machine learning 罗伯特·凯尔尔 demystifies machine learning

大学教师’认为这些技术将取代人类分子。必须使用人员索引的数据训练这些技术。这些技术释放了人们只做只有人们可以做的事情。

创新正在发生模糊搜索进步。模糊是一个有趣的词,他曾经指的是非精确的搜索结果。这是熟悉的东西,如通配符和名称变体。罗伯特感觉就像可能有一些创新,这比人工智能提示匹配系统更复杂,而不是今天的搜索引擎更复杂。

脱氧核糖核酸将且对系谱产生巨大影响。

流程创新也是重要的。今天,组织具有确定获取的记录的集中进程。罗伯特认为我们将看到更多分布式决策,以便数字化的集合。他设想了一个地方档案馆,图书馆,教会会众(如LDS赌注和病房)以及个人承担责任识别,数字化和指数收集。我们看到这一点已经有了家庭研究记忆或十亿的应用程序。

数据创新是罗伯特 ’最终类别。那里有很多数据,这是非常有价值的,但风险将会丢失。由于档案条件不佳,政治不稳定,自然灾害或预定的破坏,记录可能存在风险。在十年结束之前,印度摧毁了他们的京水。最后,有数亿“records”在非洲的某些文化中储存在某些文化中的记忆基族学系。 FamilySearch有一个积极且不断增长的计划来捕捉这些“oral genealogies.”

罗伯特·凯尔尔表示,由于存档条件不佳,有些记录面临风险。 罗伯特·凯尔尔表示,由于政治不稳定,一些记录面临风险。 罗伯特·凯尔尔表示,由于自然灾害,一些记录有风险 罗伯特·凯尔尔表示,由于预定的破坏,一些记录有风险

最后一个数据创新是罗伯特之一 ’希望。在家谱学家的记录管理人员中锁定了很多良好的家谱数据’电脑。它没有自由共享。 Robert设想了一个树木更容易获得的世界,并且在所有不同的网站中更自由地共享。网站可以竞争最佳功能,用户体验和记录,而不是在提交树木的可用性上。

2017年1月5日星期四

#rootstech 2017年半决赛主义者宣布为创新者摊牌

rootstech.'s Innovator Showdownrootstech有没有宣布2017年半决赛的创新者摊牌?我可以’T在任何地方查找官方宣布。 rootstech默默地更新了创新者摊牌网页,但幸运的是,允许几个法官,吉尔球克里斯汀伍德科克,亲自宣布和新闻围绕博客圈传播。

十分之一的是:

Champollion 2.0.


CSI:人群采购索引图像

Cuzins.

双匹配三角形器

图像埃伯尔

图像Joyflips.

金色

Oldnews USA

Qromatag.

图像rootsfinder.

根据克里斯汀的说法,参加比赛有42份提交,其中有21人考虑。克里斯汀说他们的评论有四个标准:

家史
提交的意见书必须与家族史直接或间接相关。

理念的质量
包括创造力和原创性。

实施理念
包括开发人员执行的想法如何。

潜在影响
用户会对此感到兴奋,是适用的,它是否解决了真正的问题?

创新者摊牌将于2017年2月10日星期五举行,roottech 10:30 MST,可以在线查看rootstech.org..

2016年7月13日星期三

Familysearch系列树中断最小

Familysearch系列树现在已遮盖了NFS2016年6月27日FrumeSearch的预定停电和系统升级似乎顺利进行。升级是试图防止性能问题。升级提供“一种应该提供更好的交通缩放的新技术,” Fumanysearch.’s Joe Martel. “这意味着越来越多的人使用该网站它不应该陷入困境。”如果升级成功,周日下午的系统故障应该是过去的事情。

升级包括破坏Familysearch系列树和古代新家庭研究(NFS)之间的同步链接,Ron Tanner,家庭树产品经理。休息的最令人兴奋的益处是合并ioses的能力(“异常规模的个人”)并停止归属于FriceSearch或LDS会员帐户的愚蠢数据变化。

乔说,新系统的另一个好处是家庭搜索将能够更快地提高和增强功能。

“切割是一种巨大的努力,” Joe said. “帽子向工程团队和规划进入了这一点。” 根据博客renee zamora,该系统计划于周一早上12:30离线。虽然家庭搜索警告用户停电可以24小时,冬青汉森在Facebook上报道它在上午6:00返回网上。

我没有’T听到任何关于新系统重大问题的报告。“我猜我们会看到一些故障,但没有任何纪念碑已经出现了,” Joe said. I’看到了次要问题。 (有一份报告你能行’t直接将大写的名称更改为混合案例。有一份报告该%22在自定义事实中替换了引号。)。一世’ve seen 注释关于系统更快。乔已经表示,FamilySearch需要调整新系统配置。

仍然存在不可能的合并人员的情况根据罗恩,但系统会告诉你确切的原因。“有一些限制我们必须为那些有很多人际关系的人提供。”如果组合的人超过某些限制,则不允许合并。根据Renee的说法,这些是目前的限制:

  • 注意长度:10,752个字符
  • 人员注意:50,字符215,040
  • 关系笔记12,字符129,024
  • 所有人和关系备注字符:386,320
  • 结论:200
  • 人来源:200
  • 关系来源:50
  • 回忆:1000
  • 没有比赛:400
  • 讨论:20
  • 夫妇关系:200
  • 父母套:50
  • 儿童人数:400

罗恩说这些数字根据需要发生变化。一世’ve already seen a 报告父限制已更改为100并讨论到50。

Fumanysearch.称新系统称为新系统“Tree Foundation,”根据Familysearch工程师,Randy Wilson。它使用了一个调用的数据库技术卡桑德拉. “我们的关系数据库才能’要更快地走得更快,所以担心家庭树很快就会尖端,”他说。新系统可以“scale horizontally.”这意味着FrumeSearch可以轻松添加更多计算机服务器以满足需求。“That doesn’t必然意味着响应时间会更快,但相当,更多的人应该能够立即使用它,”兰迪说。他指出,这种技术的变化不会神奇地解决所有性能问题,但更改消除了重要的瓶颈,这是一个重要的解决方案。

2016年5月25日星期三

祖先.com Preparing Large German Record Collection

Fraktur Font City目录样本和我’M猜测是德国城市目录。

多年前,Accestry.com开发了允许其计算机的技术“read”(技术上被称为OCR,或光学字符识别)并解释美国城市目录。 (看“Ancestry.com.的数据提取技术.”)虽然技术有时会产生愚蠢的结果,但总体而言,它允许祖先在纪录的时间和最低成本下发布超过20亿的记录。权衡似乎是合理的。

祖先 has nearly 700 German city directories but has yet to apply the technology to them. “德语的主要挑战是打印时哥特式或弗拉克字体的常见使用,”喉棕色,祖先产品经理说。 “这种特殊的脚本状字体特别难以识别今天可用的最佳OCR [光学字符识别]工具。单词,尤其是名称可以误认为是这种特殊字体中的许多字符非常相似。”

祖先’S解决方案是一种质量保证检查,比较计算机认为它的名称’对读取名称列表的阅读。如果计算机看到不在名称列表中的某些内容,则会警告审阅者。如果计算机已识别出名称列表中的名称,则审阅者将添加它。否则,该名称映射到正确的名称或删除。这些评论的结果被送回计算机,以便从错误中吸取。它重新读取了书籍,重复了这个过程。 

“当这些记录结束时,在非常难以读取的字体中将德语单词的随机列表变成了一组关于看起来很像年度人口普查的记录,” said Laryn.

这一新集合将在几年内获得可用,并将包含数百万页的新内容。

2016年3月24日星期四

引文的完整URL?

多饭店,“加州贫困豌豆捡拾者。七个孩子的母亲。年龄三十二岁。 Nipomo,加利福尼亚州,” 1936引用网页时,必须决定是否使用完整的URL或URL到主页。一个通常引用网站主页,并包括指导用户到目标页面所需的附加信息。引用完整的URL是两个条件下的替代方案:1。网址长期以来。 2. URL不太长。 URL越长,用户越难以在不进行印刷错误的情况下进入它。1

你如何知道URL是否长期存在?

URL患有一个名为的过程链接腐烂。由于各种原因,他们停止工作。公司停止存在或重命名或重组网站。一些URL设置为在几分钟内到期。其他人从不在任何地方工作,而是在当前浏览器中的计算机上工作。你怎么知道的?尝试将URL复制并粘贴到其他浏览器中。如果它失败了,你就知道它不久不起。

例如,NARA包括在他们的微型内幕出版物的开头的描述性小册子,有时包含丰富的信息。部分客房距离酒店仅有些人员距离NARA Microfilm商店仅有些服务。在商店中,每条微杂散的产品页面包含链接(“查看重要的出版物详情”)下载小册子。不幸的是,小册子的URL(如M1328的那个)几乎不可能获得,七行长,而且赢得了’t work again. And 这URL of a product page立即到期;甚至刷新页面甚至刷新页面会让您回到欢迎页面。访问商店中的小册子的唯一方法是通过冗长的指令.

另一类未能工作的URL是URL记录在公共图书馆或通过他们的网站找到使用数据库。

一些出版商提供了他们打算在适当的时间工作的URL。多久?让’说他们将几乎致力于永恒。但是,请记住“Internet time”比常规时间快得多。“Eeternity”不超过30年。

一些系统和网站提供了长期存在的URL?

purl和gpo

美国政府出版办公室利用一个名为的系统金银丝(持久统一资源定位器)用于某些在线出版物。

作为联邦信息在线传播的一部分,FDLP使用持久的统一资源定位器(PURL)来为在线联邦信息提供稳定的URL。当用户点击PURL时,请求被路由到联邦出版物。随着联邦机构重新设计并删除其网站的信息,GPO工作人员将PURL条目进行适当的位置。2

例如,Tri-Fold手册的PURL,USCIS系谱计划, 是http://purl.fdlp.gov/GPO/gpo64668。当您在浏览器进入浏览器时,GPO服务器将您重新排除到宣传册的当前位置,从而可以。相似地,http://purl.fdlp.gov/GPO/gpo26239送你追踪你美国印度血统的指南。显然,GPO甚至支持关于非政府网站的一些政府出版物。http://purl.fdlp.gov/GPO/gpo43102让你送到一张海报,美国国家地图集。总统选举,1789-2008,在爱荷华大学’s website.

如果资源避风港,GPO PURL系统将工作’T已从互联网上删除,如果GPO人员有时间更新链接。除非他们过长,否则我会在引文中使用Purl链接。

ARK和FamilySearch.

Fumanysearch.为其提供了长期的URL历史记录, 记录图像, IGI. 和个人遗传学。任何包含的URL“ark:” (档案资源密钥) 或者“pal:” (持久的档案链接)预计将工作很长时间。我认为这些安全在引用中使用。此外,我认为删除问号和一切都可以安全。

URL收藏品, 家庭树的人, 相片, 用户上传的文档,wiki文章和其他页面不’t contain the “ark:” characters so I don’认为他们很长一生。

LOC数字ID和手柄

国会图书馆网站上的在线项目通常具有包含数字ID的永久URL。

To find a permanent URL for an item first look at the bottom of the item record. In some collections, you will find shorter permanent addresses in the "Digital ID" field of the item record. The URLs begin with "http://hdl..."和are called "handles" or "handle addresses."3

URL.//www.loc.gov/item/mfd.45004/ 现在弗雷德里克迪士拉家族的三个死亡证明。但那URL将来可能无法在未来工作。在该页面上,可以在网址中找到数字ID:http://hdl.loc.gov/loc.mss/mfd.45004。如果使用数字ID URL,则LOC计算机将解释它并生成当前工作的URL。去吧,你发现自己回来了//www.loc.gov/resource/mfd.45004。 Loc具有更改后一个URL的纬度,但数字ID URL寿命更长。我认为在引用中使用安全。

URL.//www.loc.gov/item/fsa1998021539/PP/用来指向着名的Dorothea Lange照片的一个例子(在本文的顶部显示)。4那个链接现在被打破了,我不打败 ’知道数字ID,所以我无法返回该网页。您可以使用数字ID URL查看原始的未经触控的照片http://hdl.loc.gov/loc.pnp/ppmsca.12883.

contentDM和参考URL

ContentDM是软件许多大学用于显示其数字集合。它有一个失败的链接的声誉。让’s say I search the Robert Hawley Milne Papers从刘易斯大学Carli数字收藏网站并找到Flora Jane Putnam的出生证明。我的浏览器显示的URL是http://collections.carli.illinois.edu/cdm/singleitem/collection/lew_rhm/id/311/rec/4。如果我更改浏览器或清除我的饼干或明天使用它,则无法保证工作。如果我捅了一下,我发现标有一个链接“Reference URL.”我点击它,并奖励此URL:http://collections.carli.illinois.edu/cdm/ref/collection/lew_rhm/id/311。如果您希望分享Flora的URL’S出生证明,粉虱这一个。但我不知道’在引文中使用它。为什么?

如果机构从ContentDM切换到另一个软件解决方案,ContentDM参考链接将破坏。这对于大多数大学和中小型档案中的软件系统来说是如此。这带来了全圈。

结论

引用主页并包括数字工件固有的信息通常更好—可能会从一个软件解决方案存活到另一个软件解决方案的信息。然后可以与搜索功能一起使用该信息。数字标识符,标题和作者/创作者是有可能生存的信息。

在Flora Jane Putnam示例中,数字伪影标题是“Flora Jane Putnam的出生证明”和标识符是“Flora Jane Putnam出生证书1893.tif。”其中一个或两个可能生存。我可以引用证书和数字伪像:

伊利诺伊州公共卫生部,延迟出生记录的认证副本号201472,Flora Jane Putnam(1893); Robert Hawley Milne Papers;运河和区域历史集合;刘易斯大学图书馆,罗梅诺维尔,IL;数字图像,(http://www.lewisu.edu:Accessed 2016年3月18日),搜索图书馆’S Milne数字收藏“Flora Jane Putnit Sentrics 1893”。

我的个人做法是谨慎使用完整的URL,如果对其持久性有任何疑问,即使在URL腐烂后,用户也可以找到用户可以找到网页的其他信息。 

 


本文的一部分按照BCG动作邮件列表中的帖子调整了许可。

来源

     1. 伊丽莎白显示磨坊,证据解释说:引用从文物到网络空间的历史来源,第三版,Adobe Digital Edition,(巴尔的摩,马里兰州:遗传学出版,2015),59,269,283,597,626,767。
     2.  联邦存款库程序持久URL主页 (http://purl.access.gpo.gov:访问2016年3月19日)。
     3.  “经常问的问题,” 国会图书馆:美国记忆 (//memory.loc.gov/ammem:2016年3月19日访问),书签[和]链接。
     4.  Dorothea Lange, “加州贫困豌豆捡拾者。七个孩子的母亲。年龄三十二岁。 Nipomo,加利福尼亚州,”1936年; REDOWED照片佛罗伦萨汤普森与左拇指,LC-USF34-T01-009058-C(B&W电影杜菲。 neg。);农业安全管理/战争信息黑白底片收藏;印刷和照片分部;国会图书馆,华盛顿,D.C;数字图像(http://hdl.loc.gov/loc.pnp/fsa.8b29516:访问2016年3月19日)。

2016年2月3日星期三

#byu家族史技术研讨会

Amy Harris向她的愿望清单给了Byu家族史技术研讨会的开发人员和研究人员。#rootstech., 前#innovatorummit.,有大学杨大学家族史技术研讨会。现在在第16年,一天的研讨会汇集了开发商和研究人员,解决了一些家谱’最棘手的挑战。

Amy Harris是拜访的历史副教授和一个认可的家谱学家,提供了研讨会’昨天的主题演讲。艾米目前担任主任BYU的家庭历史计划。她谈到了这个话题“家谱学家的技术愿望清单:教学,过滤和映射。”

“我们从事类似的工作,”艾米说家谱学家和技术人员。“我们正在解决谜题或谜团。”艾米经历了她希望技术的愿望清单,以改善历史学家和家谱学家的工作。

艾米愿望应用程序可能会更有教学,教学用户更好。它没有’T必须是FrumeSearch,使家庭搜索网站更具可用性。它可能是一个popup应用程序,其中说明了哪些情况,记录集合可能很有用。开发人员不会’T需要制定教学资源。它可以将用户指向现有资源。应用程序可以帮助使用情况特定的研究问题,步行用户通过弄清楚的过程,在过程的每个步骤中应该使用哪些记录。

她希望有教学OCR技术。她希望有助于引用标准。她希望技术有助于用户评估祖先或家庭搜索树的记录提示。她希望树软件更好地辅助用户通过未知的命名方案的挑战工作’t携带与一代相同的姓氏到下一个。

艾米愿望计划帮助用户了解和使用更改的司法管辖区。拥有一个应用程序向一个地方显示所有不同司法管辖区,覆盖地图上的边界并允许随时间变化的边界。只有少数英国不同司法管辖区的例子是民事登记区,贫困的法律工会,英格兰教堂和教区教区,以及乐观的月度会议边界。

简而言之,艾米祝愿通过先进的研究方法知晓的应用程序,并帮助用户利用它们。

2015年9月24日星期四

祖先 Insider Named One of Family Tree Magazine’s Top Blogs

祖先的内幕家是家庭树杂志之一's top 5 blogs.我上周学到了家谱杂志已经把我命名为其中一个五大家谱博客。谢谢,家谱杂志。我很感激你的社论’s staff’鼓励我坚持博客,即使我’一个糟糕的作家。希望我通过呈现有用的内容来弥补它。

说到哪个,足够了解我。让我给你一些实际上有用的东西。另外四个系谱博客是

家谱杂志荣幸YouTube作为第六选择。一世’ve发现了很晚的同样的事情。这里’只是一些有用的渠道我’ve looked at:

阅读David A. Fryxell’拿到这些博客http://familytreemagazine.com/article/best-genealogy-blogs-2015.

阅读他关于另一个的评论“101 Best Websites,” 2015 at http://familytreemagazine.com/article/101-best-websites-2015和:

 

2015年8月27日星期四

未来将带来自动索引工具– #BYUFHGC

Jake Gehring在2015年BYU家族历史和家谱会议上展示“It’s not that we don’喜欢我们的[索引]志愿者,” said Jake Gehring. “我们宁愿让他们在只有[人类]可以做的事情上。”杰克是家庭研究的内容开发总监,上个月在BYU家族历史和家谱会议上展示。本文是他演示文稿的第三篇和最后一篇文章。在这first article我报道了杰克’■家庭搜索索引没有跟上记录的数量,家庭搜索正在获取,并且需要额外的手段。在这second article我报告了这些方法中的两个方法:提高人类成分者的效率并与商业伙伴合作。在今天’■我将报告第三种方式:通过计算机增加自动化。

在他演讲的第三部分,杰克谈到了“真正的遥远的东西,hal9000的东西。”

杰克展示了我们在Robert Kehrer看到的屏幕镜头’s keynote. (See “Kehrer谈论家庭搜索转型”在我的博客上。)屏幕显示了一种颜色编码的ob告。

ob告与家庭搜索自动编码的语音颜色的部分自动化ob告索引系统

Fumanysearch.培训了一台电脑来识别语音的不同部分。他们培训了电脑如何辨别出一堆单词。通知在上面的例子中,人们的名字在深绿色,棕色的地方被识别,日期在深蓝色,鲑鱼的关系,淡绿色的事件,钢蓝色的时钟时间(或者你会称之为黑暗的天空蓝色? ),红色的组织,以及GoldenRod的建筑物(或者你会称之为芥末?)。

它们基本上教电脑阅读。计算机愿意从ob告中提取更多细节,而不是志愿者很容易做到。它可以真的工作,真的很快。对于Ob告,计算机可以在大约一周内完成一半的家庭搜索’志愿者三年半待。这就是为什么在几周内,家庭搜索将停止志愿者指标当前的obAtuare项目。事实上,Fomgionsearch已经通过这种方式发布了大约3700万个obituaries。您可能已经发现并使用了由智能计算机索引的ob告。

这适用于自1977年以来发表的ob告。从那时起,大多数仇恨都已经发布并以数字方式储存。预约1977年看起来很有不同。因为Ob告尚未数字化,这是一个非常讨厌的OCR问题。 [ocr将打印页面转换为文本,以便计算机随后可以尝试理解它。]问题是如此严重,计算机只能识别1900年前报纸上的一半单词。

如果你是rootstech,你可能已经看到了杰克所表现的最后一件事。一家名叫这个星球的公司进入了它 Argussearch进入创新者挑战。 ArgusSearch是一个读取尚未索引的文档的手写的系统。你输入的东西“Steinberg”该程序显示了一些可能与该名称匹配的记录。它赢了’t找到所有的比赛。它可能会返回一些结果’匹配。但这仍然有用。这项技术仍然很年轻,但这样的应用程序可能会在未来十年中达到现实生活。

行星'S Argussearch在没有索引的情况下自动读取人口普查记录中的手写名称。

杰克通过说索引变得非常好—never better—不幸的是,它只是不够好,给我们所有需要的记录。 [FamilySearch不会索引他们获得的所有记录。]“我们需要做得更好。它’不是我们不太那里;我们是办法每年后面都落后,”他说。家庭搜索需要使用三个方面。 FamilySearch需要提高其索引志愿者的效率。 FamilySearch需要更多的帮助,从而可以为桌面带来更多资源。家庭搜索需要使用计算机技术来制作可用于人为干预的人员可搜索的图像。

“It’一个激动人心的时间来活着。一旦我们在这些领域中的少数人进展,你能想象文档可用性的爆炸吗?”

杰克采取了几个问题:

问:使用谷歌翻译等工具是多么容易翻译西班牙语记录?

A.谷歌翻译在现代,通用词语中更好。如果您输入了一封信的文本,则可以获得它的主旨,但它可能无法处理特定于重要记录的古代单词或单词。只要您知道一小一件术语,您通常可以在没有计算机化的翻译器的情况下获得。目前没有魔术工具。

问:为什么我们有时从记录中很少关键?虽然我们有人看文档,但应该是’他们提取更多?

答:因为我们发布了索引和图像,我们索引了查找图像所需的最小金额。为什么要指定任何人都不会在搜索中使用的东西?库克县,伊利诺伊州死亡证书是我们索引没有的东西’需要。我们索引了死者’S地址,但谁将曾经使用该地址进行搜索?有时我们不’得到它,但这’一般原则。

问:我们什么时候能够纠正发布的索引?

答:我们’重新开始在十年的前三个要求的功能后开始,我们’RE开始实现该功能以允许您贡献更正。我们正在快速接近这一点。一世’不授权说“soon,”但是我们有了我们的眼睛。

2015年8月26日星期三

FumanySearch应该提高索引效率并利用伙伴关系

Jake Gehring在2015年BYU家族历史和家谱会议上展示根据Computions Sopments,Jake Gehring的家庭研究主任,FamilySearch并未跟上索引它的索引它的数字化和改进,可以帮助解决这个问题。昨天我介绍这first part我关于他在2015年的演讲的讲话拜访家族史和家谱会议(#byufhgc)。今天我’LL呈现第二部分,涵盖了三种方式中的前两种,提高了效率和合作。明天 I’LL提出了第三种方式,增加了电脑化的使用。

今天’S家庭搜索索引(FSI)系统有点低效。 FSI主要利用双盲索引方法,有时被描述为+ B +仲裁。两个索引器独立索引一批记录。如果存在任何差异,即使是一个记录中的一个字母,整个批处理将被发送到第三个人,以在两个值之间仲裁,或提供自己的价值。事实证明,所有批次的97%都有至少一个差异,即使键入的键是70%的字段也是相同的。因此,三个人几乎所有记录都会看。那里’一个很好的论点,即浪费。对于某些类型的记录和某些人[和某些类型的字段,我可能会添加],只有一个键是就足够了。准确性没有’当涉及两个人时,T更好。由于读取排版材料通常可以没有错误,Firoundsearch最近在去年的报纸上转换为单键键入报纸。你会’要为某些类型的记录或开始索引器执行此操作。

更有效的方法被称为+审查。一个人称信息和第二个人评论是关键的。所有审阅者所做的是指示信息是否正确。即使在手机上,这也可以轻松完成。这种方法比双盲方法更高的效率约为40%,因为Froundsearch当时需要第二次键入记录时知道。 FumanySearch正在积极研究这种方法,以提高索引的效率。

杰克显示三种,完全新的,实验类型的索引。有些人甚至没有工作原型:键盘索引,自由形式索引和随意“micro-indexing.”

杰克展示了一个索引系统,允许生产没有键盘的设备,例如智能手机。如果你’在Photoshop中使用的照片识别,您之前已经看过范例。他展示了一个幻灯片,显示一个名字的12个片段,例如“Henry.”(请参阅下面的版本。)这些已通过计算机化的手写识别系统从文档中读取。但自从电脑荣耀’在阅读笔迹时太好了,它将其结果呈现给一个人进行验证。该人标志着电脑错了的任何东西。计算机有一个良好的第二次猜测,它也可能存在,允许该人选择备用名称,例如“Kerry.”对于预先打印的表单,这工作很大,并且可以轻松索引在没有键盘的设备上,例如手机。

作为亨利索引的名称片段

作为亨利或克里索引的名字的流动 名称的片段索引为kerry
作为kerry索引的名称的片段 从页面中的代码段,其中一个名称被索引为kerry 作为kerry索引的名称的片段
作为kerry索引的名称的片段 从页面中的代码段,其中一个名称被索引为kerry 从页面中的代码段,其中一个名称被索引为kerry

作为kerry索引的名称的片段

作为亨利索引的名称片段 作为kerry索引的名称的片段

杰克展示了家庭搜索试点工具,另一个用于自由形式索引的索引系统。它目前居住,作为飞行员。屏幕的大部分是浏览器,显示FamilySearch.org上的记录。沿右侧是一个窗格,索引器可以输入从文档中提取的名称,日期和地点。 (请参阅下面的屏幕截图。)一个人将使用该工具索引他们关心的任何记录,并在短时间稍后搜索记录。你会’不得不问任何人’允许。你会’t必须索引所有名称。任何人都可以采用任何所需的收集,并进行一些索引。这个工具现在是飞行员。 FamilySearch对允许您索引的工具非常感兴趣。加入试点,发送杰克一封电子邮件。 (我看到有人也发布了在线链接。见“Fumanysearch.飞行员基于Web的索引扩展”在田纳西州GenWeb网站上。)没有仲裁。如果您关心索引图像,您可能会非常关心准确。但是,假设尚未经过验证。

Froundsearch用于索引的Pilod工具 - 点击ENGLARGE

“Micro-indexing”可用于使图像更具可用性。能够更轻松地浏览未弯曲的图像是很好的。 FamilySearch对升级到当前浏览体验非常感兴趣。杰克展示了一个动画的艺术家’S工具的悔改,提醒我们这只是一个研发的想法。

Fumanysearch.有兴趣更容易找到尚未索引的图像中的记录。

在微索引中,系统可能会问您真正简单的问题,如,“这是什么样的记录?”并单击记录类型。通过要求志愿者进行小型任务,Froundsearch可能能够收集信息,使浏览图像更容易找到我的记录类型,地点和时间。只是因为家庭搜索没有’T有时间索引图像,并不是’t mean they can’易于浏览。

这是一个微型索引工具看起来像的模型。

除了谈论提高索引效率之外,杰克谈到合作。 FamilySearch与其他公司交易数据的概念很好。 FamilySearch提供图像,伙伴创建索引。他们甚至可能是一段时间的独家索引。例如,大量墨西哥教会和民间记录现在正在归于Ancestry.com索引。我们最终得到了它的价值。 FamilySearch有类似的PictMypast的项目(我没有 ’T捕获项目名称)和Myheritage(丹麦人口普查和教堂记录,瑞典家喻户晓的名字)。这通过将更多的索引器带到表中来增加索引速率。

2015年5月7日星期四

祖先 Hacker Internal Contest

剪贴艺术思维作为前软件工程师,我有兴趣看一篇关于内部程序员的文章’祖先竞争。他们已经两天给了他们的程序员生产一些很酷的产品。那’没有多少时间做有用的东西,所以它只是点燃程序员的挑战’S创造力和竞争性。作为团队的参与建立Unity和Camaraderie。“团队发现自己真的通过坐着和工作来集思广益,解决问题,而没有关于角色和过程的重要性,”克里斯托弗布拉德福德说,祖先的工程副总裁。

奖品有两类获得奖励,一个用于有用性,一个只是为了娱乐。严重类别的奖品获奖者提供了不同的搜索体验,更好地利用数据本身来帮助用户缩小搜索结果。有趣类别的奖品获奖者是一款Dungeon-Type游戏,将您的技能追捕您的祖先的技能。看到其他奖品获胜的想法,见 “2015年祖先的黑客日子”在祖先技术博客上。

大学教师’在杂货店上寻找任何这些功能或产品’很快就搁置。那’不是比赛的目的而不是典型的结果。但是,希望更快乐的程序员导致客户更快乐。

 

 


图片在Freedigital照片用Fotraphice1980提供了图片。

2015年2月12日星期四

gedcom替换在这里(#rootstech #rtateam)

GEDCOM X.. 在两年前,在rootstech,Froundsearch的Ryan Heaton谈到了GEDCOM替换:GEDCOM X.(见“Ryan Heaton:新的GEDCOM.”)今天,GEDCOM X是现实。加热器’今年的演讲是题为题目“系谱数据交换生态系统。”我相信他们记录了它;你’LL可能能够在某些时候自己观察。但是,保证了警告。这是一个创新者’S峰会会议。介绍的目标受众是软件工程师。

Heacon谈到了信息交换的谱系生态系统。家庭组床单和其他形式对系谱数据交换的结构。计算机程序强制执行它。现在我们使用Internet和数据类型密切定义。

系谱数据生态系统的要素是

  • 记录
  • person
  • 关系
  • 来源
  • 引用
  • 分析(我是如何发挥此推断的?是什么让我相信这个信息是真的?)
  • 研究(例如,我的研究计划中有哪些待办事项?)

演员是

  • 系统
  • 用户

他谈到了用户和系统之间的信息流。经过用户他的意思是一个桌面家谱树管理程序,如祖先Quest,遗产,或rootsmagic。经过系统他的意思是在线树经理。信息流可以是:

  • 用户到用户。此Exchange已经使用了桌面家谱树管理器的GEDCOM或专有文件格式完成。用户通常可以导入竞争树管理器的专有数据文件,但通常可以’在竞争对手中出口’格式。还可以存在数据丢失。引文元数据的交换能力有限;元素或格式通常丢失。人物集的国际化有时会被误判。
  • 系统到/来自用户。这是通过公开面对的界面(API)完成的。
  • 系统到系统。这通常是使用批量交换格式完成的。

用户到用户

有禁止用户到用户交换的原因。桌面树管理器没有常用规范,以交换引文元数据。树管理软件供应商缺乏激励,使您能够容易地迁移到竞争对手。这包括FamilySearch,谁没有’T必须让您在一步中下载所有数据。

系统到用户

许多桌面管理人员具有与在线树系统交换数据的功能。桌面管理器使用API​​,允许桌面程序与FrumeSearch等在线树管理器交谈’S家族树,和Myheritage’s tree.

Fumanysearch. API符合GEDCOM X.大量合作伙伴正在使用GEDCOM X与Familysearch系列树进行交谈。 (我认为他的观点在这里是桌面树经理知道API,如果选择,可以使用它彼此交换。)

系统到系统

公司有时罢工业务交易分享他们的数据。非族记示例是开放的档案。 OAI-PHM和A2A。 FamilySearch还与Ancestry.com,Myheritage和FindMapt进行了批量数据交换。 FamilySearch为他们提供了一个大型原子饲料,即转移GEDCOM X数据集。

什么抑制族记数据流量?

  • 安全
  • 预算限制
  • 数据丢失
  • 特征不匹配
  • 缺乏成熟的规格
  • 用户不愿意分享
  • 程序员意识

在他可以直接谈论GEDCOM X之前,Heaton没时间。但我认为他的留言是GEDCOM X在这里。它活着。如果供应商使用它以与FamilySearch交换数据,但不相互交换。

2014年12月9日星期二

rootstech宣布,现金奖金的25,000美元宣布Techie比赛

rootstech创新者 Challengerootstech宣布它提供了25,000美元的现金奖项,以鼓励开发酷新的家庭历史应用和技术。“比赛将以杂交种群达到高潮鲨鱼坦克, 美国’s Got Talent - 如判决和成千上万观众将决定获奖者,”Paul Nauta说,Familysearch发言人。该活动将于2015年2月13日发生。“一组五个家谱,技术和商业大师将在犹他州盐湖城盐宫会议中心的摊牌中判断来自世界各地的四名决赛者。” said Nauta.

一等奖奖金为10,000美元,二等奖金为7,000美元,三等奖是3,000美元。人民’由观众投票决定的选择奖,将是5,000美元。

研究了营销研究公司通过赋予潜在的产品观念有11家家庭历史组织高级管理人员。三是来自Ancestry.com,一个来自Myheritage,一个来自Bricksolid,来自Findmpast的两个来自Familysearch,一个来自家谱社团联合会,一个是家庭搜索的总经理(即总裁)。该研究表明,以创纪录的家谱学家和历史学家的年龄较大,占潜在市场的1%。由于目前的市场价值为40亿美元,潜在市场为4000亿美元。

祖先的内幕家是一位官方的roottech大使潜在的市场由那些人组成“一般年轻,数字,技术优美,社会连接,移动和经验驱动,”根据该研究。他们不愿意投入传统研究中的时间和精力,如搜索名称和日期,但仍然想要体验传统的研究人员想要的样子:“培养快乐,共享和令人满意的家族史经验的内容。”

有关更多信息,请阅读Fumanysearch.公告并参观rootstech创新者’s Challenge website.

2014年2月25日星期二

#rootstech.–2014年开发者挑战

单击此图像以查看有关保存存储器的短视频rootstech出生,部分出于软件工程师会议。它暂时保留了今天,包括比赛,开发商挑战。

“年度roottech开发商挑战奖励开发人员,为家庭历史介绍最具创新性,新的概念,”根据rootstech网站。挑战是“创建一个申请或服务,向家庭历史引入引人注目的新概念或创新。”赢家在星期五的主题演讲结束时宣布。

一等奖“永远拯救回忆,”由密苏里州圣路易斯哈维和简贝克的智能手机应用程序。

“面包师看到智能手机可以作为移动录制工作室,作为将故事无缝地上传到私人网站的工具,” 写道Fumanysearch.’s Thom Reed. “该应用程序提供提示和问题,以鼓励录制救生故事,并使它们适用于世代。它创造了一种通过声音丰富和讲故事的温暖来连接家庭的简单方法。”

我星期三吃了与面包师的晚餐,发现他们是非常好的人。面包师赢得了2,000美元的现金和戴尔笔记本电脑。单击上面的图片以查看a100秒介绍视频永远拯救回忆。

单击以查看短介绍视频以查找-A-RENVER。二等奖“Find-A-Record,”John Clark和John Clark和John York of Genealogy Systems Llc的创建在犹他州的普罗瓦。他们赢了1000美元。

“查找-A-Record是一个可搜索的全球录制集合索引,” wrote Reed. “家庭历史研究员可以进入有关在祖先生活和发现可用的各种记录集合的地方和地点的可用信息。搜索通过浏览器扩展名与流行的在线树集成在一起。”点击图片查看一个90秒的视频.

点击查看关于PhotoFaceMatch的短视频,这是一种在rootstech 2014中显示的技术。三等奖前往PhotoFaceMatch,这是Charley Smart和Steve Miller的Eclipse身份识别公司开发的技术。 PhotoFaceMatch使用面部识别技术将已知人的一组照片与未认出的人的照片进行比较,并确定是否存在潜在的匹配。三等奖是500美元。点击图片查看一个90秒介绍视频.

祝贺今年参加的所有人’s Developers’ Challenge.

2013年9月2日星期一

rootstech额外折扣于2013年9月9日结束

rootstech,家庭连接的地方根据新闻稿,一周内,roottech的早期鸟类价格在一周内完成rootstech.:

各种各样的通过选项可用,定价设置,使rootstech成为经济实惠的体验。全部访问通行证的早期鸟类定价折扣(159美元)和入门通行证($ 39)至2014年1月6日至2014年1月6日。

额外的20美元折扣可在有限的时间内使用。与会者只需使用促销代码即可获得仅限139美元的完整访问通行证RT14EXCLSV.2013年9月9日之前。

新闻稿也是州,

注册现已为rootstech 2014开放,将于2月6日举行­-8,2014在盐宫会议中心在盐湖城,犹他。由FrumeSearch主办的年度家庭历史会议是一个独特的全球活动,所有年龄段的人都学会发现分享他们的家庭故事和连接通过技术。在过去的三年里,罗斯特科在与会者的流行度上发展成为美国最大的家族历史活动!

获取更多信息并注册,访问rootstech.org..

2013年7月17日星期三

iPhone与相机文档扫描

索尼和iPhone文件图像的比较上次我在祖先使用鞋盒,新的智能手机应用程序相关祖先.com。它将手机转换为便携式扫描仪。销售主要作为照片扫描仪,我将其作为文档扫描仪进行了测试。今天我’LL继续评估照片质量。

因为照片文件通常被压缩以节省大小,所以我担心鞋盒可能压缩上传到Ancestry.com的文件。我检查过,发现了照片的副本祖先.com曾是确切地与iphone原件相同。

接下来,我将手机照片的质量与我14百万像素索尼的较高分辨率照片进行了比较。我发现的是一个学位的惊讶。正如所料,索尼照片是原始的清晰,颜色匹配原始文件,没有透视畸变,也没有其他我可以辨别的扭曲。 (稍后更多。)

哎呀。当我检查索尼照片时,我注意到我忘记了我索尼的一个小问题。沿着左边缘有一个速度,往往是焦点的。我必须在档案中仔细观察这一点,因为我有时回家,发现我无法阅读该边缘的重要细节。责怪镜头。消费者摄像机具有廉价镜片,具有这些微妙的缺陷。我最近读过(对不起,没有引文)近年来镜头质量下降了抵消了分辨率的改进。今天的相机没有比几年前的较低分辨率相机提供更清晰的照片。

另一方面,iPhone照片有几个问题。我注意到的第一件事是颜色。文档的轻微黄褐色已成为橙色。技术上,iPhone自动提高了色彩饱和度。对于消费者摄影而言,这对天空中的蓝色,森林的绿色和日落的红色来说,这有令人愉悦的影响。对于文件,它是不健全的。

接下来我注意到,在文件的边缘写入已关闭。在随后的尝试中,我学会了更加小心,将角落十字准线放在文件中。

接下来我注意到iPhone已经引入了扎带,像并行灰色阴影一样垂直,上下文件。

并排放置,iPhone图像比索尼高。我没有’t思考衡量文件本身,所以我可以’T告诉你哪一个被挤压/伸展图像。

放大以查看文档详细信息,我感觉到iPhone和索尼。不幸的是,iPhone使用更高的JPEG压缩。而iPhone’S文件比索尼小得多’S,iPhone jpegs在文件的字母周围有更大的光环。晕圈在消费者摄影中不像历史文件的易读性,jpeg压缩是有问题的,压缩越高,它变得更糟。

至于预期,Shoebox裁剪确实浪费了一些相机像素。在数学上,我知道它也会产生微小的模糊。实际上,没有追踪它已经发生。但是,你应该永远 将相机置于文档的中心,并在拍摄照片之前尝试向上方形。

我有一个文件,尝试,因为我会,我无法让iPhone专注。

最后,我在副本站上拍摄了一个网格图案。在这里,我可以看到iPhone镜头产生更多桶扭曲比索尼。

那我来了什么结论?

  • 我需要做的第一件事就是扔掉索尼。镜头像差已经走了。
  • 既不是相机生产的结果与平板扫描仪一样好。为了 重要文件(和照片,对于此事项),使用扫描仪。杜。我应该使用档案中内置于档案中的扫描仪。 
  • 对于扫描仪不可用的那些时候,请尝试带有体面镜头的相机。廉价独立或手机相机应该是您的最后选择,但可以产生可接受的结果。

因为这是一个鞋盒评论,我应该得出结论得出。一世’LL明天拯救了这一点’s wrap.

星期二,2013年6月11日

Fumanysearch..org.宣布GEDCOM X进展

GEDCOM X.. 在2013年6月4日到开发人员的电子邮件中,Fumanysearch.宣布“第一个稳定的里程碑释放这core GEDCOM X specification set.”该公告在公众中重复GEDCOM X.. blog post在GEDCOM X网站上,www.gedcomx.org..

该电子邮件针对软件工程师,因此它是漂亮的技术。释放规范并不意味着还有任何产品或应用程序尚未使用GEDCOM X.它没有’意味着任何人(除了Fumanysearch.)是或将使用它。

这“GEDCOM X.. Conceptual Model”提及消息来源是当前GEDCOM标准中的关键缺陷之一。

GEDCOM X.网站指出“the 自由流动基辅数据将使每个人能够:

  • 发现他们的家庭和遗产,保留他们的身份,并发布他们的生活故事。
  • 减少重复来源,关系和身份。
  • 识别照片中的人员,在文件,墓碑上以及其他信息来源。
  • 跟踪家庭研究中取得的进展。
  • 与他人分发和分享谱系信息。”

A Google网站搜索FamilySearch.org for"GEDCOM X.. "揭示页面在里面Fumanysearch.开发商中心那是那个“GEDCOM X能够保留丰富的媒体内容一种新的文件格式”(重点是原来的)。这是当前GEDCOM标准中的另一个关键缺陷。

该页面还指出“FamilySearch系列树API是基于此规范构建的。”我解释这意味着家庭树(FT)认证的产品已经在某种程度上使用了GEDCOM X规范。

A Google网站搜索FamilySearch.org for'"Fhiso."在FamilySearch.org网站上显示两个提到。一页鼓励参与致力于家族历史的技术社区,包括“Fhiso.:一个创建的国际组织,以制定数字代表和分享家族历史和家谱信息的标准。”

另一个导致注释一个博客文章关于David Rencher,Familysearch首席系族官员。一位评论者,迈克尔麦科姆里克,写道, “在PR或GEDCOMX的家庭中没有人回应我对关于FHISO关系的陈述的请求。”另一个评论者,史蒂夫安德森,发布这回复:

Fumanysearch. Apputauds并鼓励行业标准使家庭能够与过去,现在和未来联系。在我们有需要在不同的产品和系统之间分享,我们正在寻找我们最能做的方式。由于资源有限,我们在此期间选择不参与联合标准开发。如果出现行业标准,我们会认真考虑实施它。准备就绪后,我们将开放,以提交自己的工作Gedcomx,作为标准的基础。

在周末,家庭历史信息标准组织宣布任命Drew Smith作为Fhiso的第一届Fhiso主席,于2013年7月1日起。Drew是来自家谱社团联合会(FGS联合会)的组织成员代表FHISO。在这press release宣布史密斯的任命,他被引用说,"我认识到信息标准的重要重要性,以及作为一个长期家谱学家,我理解了世界的需求’S家谱产品和服务供应商,储存库,社会和个人合作和分享家族历史信息。我期待着引领国际努力来支持创造这些基本信息标准。"史密斯的任命从Fhiso成员,Brighsolid,Ancestry.com,Rootsmagic等人员的任命中获得了支持。看到完整新闻稿在fhiso.网站.

I’很高兴看到GEDCOM X和FHISO的进展。社区已经等待了当前GEDCOM标准的继任者。令人鼓舞的是要查看更新标准的任何进展。

2012年11月19日星期一

祖先.com DNA Research Revealed

图像祖先.com’s leading 脱氧核糖核酸科学家参加了2012年美国人遗传学学会(ASHG)年会。来自全国各地的领先的DNA专家聚集在一起展示最新研究的结果。来自祖先的几家科学家提出了论文。我们可以通过阅读他们来看看祖先内部的一点工作’对他们的论文说:

推出边界:使用单倍型来推断最近混合的个人的祖先起源

这项研究介绍了看世界各地人民的新方法,并不断推动我们对我们如何确定种族和人口界限的思考—特别是在欧洲中欧等挑战性地区—具有更好的数据,更好的算法和更好的分析。

换句话说,祖先’S DNA科学家正在使用单倍型例如,使祖先可以更好地确定欧洲血统的祖先的家乡。

使用Y-染色体单倍型来改善欧洲人群的推断祖先起源

简而言之,该摘要通过掺入Y-染色体信息,可以改善使用常染色体基因型的欧洲群体的地理种族的预测。事实上,使用Y-HAPLOGROUP分布将欧洲内部的雷控区域边界改善了群众预测高达9%。

这篇描述符合我认为祖先在雇用这些科学家时试图做的柜台。事先,祖先提供了一个Y-染色体脱氧核糖核酸测试—males only—确定他的祖先的家。我以为他们聘请了一堆DNA科学家,因为他们试图申请常染色体脱氧核糖核酸帮助这种决定。此描述使其声音相反。它使它听起来像常染色体测试的结果都是精制的—again for males only—通过回到Y-染色体。考虑到祖先是有趣的’在男性和女性方面继续提供测试,并继续为遗传血统完全分解。

多个非亚洲迁移到新世界的遗传证据

Sorenson分子谱系(SMGF)Y-染色体和MTDNA数据库的分析导致了伊比利亚半岛进入新世界的多重迁徙(墨西哥,中美洲和南美洲);具体而言,鉴定了两组—在过去的2000年和墨西哥的犹太小组内分享祖先的巴斯克男性,在调查中逃离迫害。

这项研究似乎对祖先的应用很少’S业务。当祖先获得时,也许是交易的一部分Sorenson分子系基础(SMGF)DNA样本是为了允许这样的研究项目继续。 (从SMGF购买的一个样品之一是我自己的。我猜这一课在为非营利基础提供了一个非营利基础之前,他们在做出了两次,特别是当产品是DNA样本时。)

SMGF有一些非常丰富的动画教学更多关于DNA:

脱氧核糖核酸是族古的令人兴奋的前沿,很高兴看到祖先推动信封。